大家好,我是Python自學者,雖然習慣自己上網找答案,
但很多基本觀念可能沒有學到或學好,
所以現下出了一個我不知如何在網路上找答案的問題
我在爬某政府網頁時,發現若網頁中包含某些中文字元,如
https://ctext.org/dictionary.pl?if=gb&char=%E3%95%A1
https://ctext.org/dictionary.pl?if=gb&char=%F0%A4%A5%82
Python就會無法讀取該字元之後的網頁原始碼,
以致在該字元前的元素可正常定位,但該字元後的元素用xpath都定位不到
該網頁有寫charset=big5,所以我試著先把網頁原始碼重新編碼,如:
str.decode('bi5').encode('utf8')
但就會出現編碼失敗
而這些奇怪字元在Chrome上可正常顯示,在Edge上會變缺字,這兩個字也無法貼上批踢踢
若用Excel查,第一個字在Excel上用code查是64386,第二個字的code是63(相當於缺字)
想請問這些奇怪的字元是因為原本就不在unicode或big5字元集裡頭嗎?
因為某政府網頁中有這兩個怪字的數量不低,我無法以個案處理,
不知道是否有什麼辦法可以正常處理,感謝