[心得] UNICODE lihgong PTT批踢踢實業坊

[心得] UNICODE

作者: lihgong ( ) 2023-11-06 13:26:44

寫嵌入式軟體，離人類世界遙遠，我只知道英文字ASCII code是1byte
小時候用倚天中文，BIG5編碼每個字2byte
UNICODE似乎是2byte，可以表示全世界的文字，矇矇懂懂
閱讀Joel On Software的第四章
https://www.books.com.tw/products/0010467041
這篇文章也可以在這裡看到
https://www.cnblogs.com/AlphaAI/articles/3960296.html

作者: wsad50232 (阿豐) 2023-11-06 16:42:00

熱心推

作者: now99 (陳在天) 2023-11-06 23:40:00

推

作者: wuyiulin (龍破壞劍士-巴斯達布雷達) 2023-11-06 23:41:00

有料分享就推

作者: saladim (殺拉頂) 2023-11-07 02:21:00

推當初直覺該encode怎麼叫作decode 傻了一陣子 ORZ

作者: geoege022702 (raysquare) 2023-11-07 11:40:00

推推推

作者: ToastBen (吐司邊) 2023-11-07 15:49:00

推

作者: ybite (小犬/小B) 2023-11-07 17:32:00

Unicode 目前已經快破15萬字無法塞進2byte了因此UTF-16定義Surrogate Pair來解決（一個字32bit）Python 2的時候str是ASCII 後來新增了unicode 型態Python 3 其中一個大改就是str 一定是一串Unicode文字（unicode扶正str）需要轉成特定編碼再.encode('utf-8')encode出來的是bytes然後傳統編碼如big5 就是要建一張大表對應Unicode也由於各種歷史原因其實這個對應並沒有很完全做到1:1如PTT的Big5日文後來很長時間是用由but維護的「社群標準」Unicode補完計畫來當對應表直到後來PTT內建UTF-8編碼輸出模式後才解決很多問題每個語言或每個作業系統都有自己內部存Unicode的規格Python是PyUnicodeObject（PEP-393）我還記得當年Python 2處理編碼真的是地獄Unicode補完計畫最早是直接patch Windows 的cp950對應表後來UTF-8變成壓倒性主流後剩下PTT內部資料轉換的情境了

作者: MoonCode (MoonCode) 2023-11-07 22:12:00

樓上好猛

作者: superpandal 2023-11-07 23:04:00

喔

作者: lihgong ( ) 2023-11-07 23:19:00

感謝*ybite，我把Surrogate Pair資訊也補上

作者: Bencrie 2023-11-07 23:41:00

啊不過同一個漢字不同寫法用同一個 code point 問題無解然後難的地方在複雜語系一堆規則。

作者: labbat (labbat) 2023-11-07 23:53:00

放棄UTF-16吧，投入可變字串長度UTF-8的世界

作者: zzLin (zzlin) 2023-11-08 00:21:00

好文，學習了

作者: eopXD (eopXD) 2023-11-08 05:13:00

推

作者: Dracarys (MayShowGunMore) 2023-11-08 09:13:00

再看完這兩篇就打通任督二脈了https://tonsky.me/blog/emoji/https://tonsky.me/blog/unicode/

作者: jheli (我是企鵝) 2023-11-08 09:28:00

優質文，推推

作者: Mtcat (山地貓) 2023-11-08 14:40:00

作者: yuinami (yuinami) 2023-11-08 22:33:00

感謝分享

作者: askacis (ASKA) 2023-11-09 11:21:00

你應該是寫MCU之類的吧，Embedded Linux也是會碰Unicode

作者: lihgong ( ) 2023-11-10 23:48:00

感謝 *Dracarys 我把您推薦的文章也補在後記上，非常讚

作者: kikilalagirl (kikilala) 2023-11-11 00:29:00

看能不能再補充 BOM 的資訊? 系統常遇到這類問題.

作者: lihgong ( ) 2023-11-11 09:53:00

感謝 *kikilalagirl 我也順便搞清楚BOM和endian的優缺

作者: art1 (人，原來不是人) 2023-11-12 06:55:00

之前碰的傳輸協定是小端傳輸，CRC 也是從小端開始

作者: yiche (你若安好，便是晴天) 2023-11-12 09:26:00

推推最近接觸到bom utf-8 上網看了一下是什麼格式就看到原po撰文了

作者: kentyeh (kent) 2023-11-12 22:57:00

大推Dracarys的兩篇文章，不過閱讀順序應該反過來

作者: shibin (喜餅) 2023-11-19 12:36:00

推

作者: Falldog (Yo) 2023-12-07 08:48:00

推

繼續閱讀

[請益] 想知道其他公司前端會被要求學後端嗎？ck237 Re: [請益] 好像不常聽到工程師研究程式交易？bachelorwhc Fw: [徵才] 易通展台北軟體開發主管150~250萬年薪zzLin Re: [請益] 好像不常聽到工程師研究程式交易？jj840917 [徵才] 遠端兼職程式語言老師mjv041241 [問卷]徵求"線上會議"行為研究問卷填寫kaliann [請益] offer請益：傳產手工具IT vs 外商海運otherman Re: [請益] 好像不常聽到工程師研究程式交易？ProTrader Re: [請益] 好像不常聽到工程師研究程式交易？Citadel Re: [討論] 系統越開發越多，負責的東西越來越多bachelorwhc