[請益] curl抓回來的亂碼問題

作者: crossdunk (推噓自如)   2014-11-17 15:57:04
是這樣的
小弟最近在學curl,現在有個問題是
抓回來的東西出現確是亂碼
我試過用別的編碼方式,卻都還是亂碼
大概是像下面這樣
<a href="http://www.8591.com.tw/user-login.html">å·2 è2 ·åˆ°ç?</a>
<a href="http://www.8591.com.tw/user-login.html">å·2 è3 £出ç</a>
<a href="http://www.8591.com.tw/user-login.html">é2 è3 £å鄊
我是以8591網站來做測試的
請問要如何知道他的編碼是什麼來做轉換呢?
我看他的表頭是用UTF-8
我顯示的方式也用UTF-8,卻還是亂碼
請各位先進給小弟一點指導
謝謝!
作者: LPH66 (-6.2598534e+18f)   2014-11-17 21:06:00
你的程式是怎麼寫的? 這看起來像是把 UTF-8 解做英文編碼
作者: alog (A肉哥)   2014-11-18 02:40:00
這latin1吧你用python or ruby2抓抓看應該會是utf8
作者: shadowjohn (轉角遇到愛)   2014-11-18 11:01:00
你在windows上看,試看看把UTF-8轉BIG5就可以正常看
作者: InDer5566 (在這5566)   2014-11-20 20:18:00
你的純文字檔 不是用ansi建的吧?看錯 你的data8591.html 開頭有宣告是utf-8嗎?總覺得這個問題 是在抓下來時發生的....我都是寫一個專門display的html 好像沒發生過這種事情我用你的碼測了一下抓8591首頁 沒任何問題哎@@是不是你browser的問題?@@我用你的跟樓下的碼 跑起來很正常哎 @@""還是說你是用國外的server... 有時候本機測試正常但是你直接用國外主機去爬... 他好像 有時候會有問題可能跟他某些設定有關....@@"

Links booklink

Contact Us: admin [ a t ] ucptt.com