※ 引述《ozone (Life)》之銘言:
: 請問檢核碼規則分析 利用machine learning來解是好的方法嗎?
: 我有一批資料,由9個數字組成,第10個數字是檢核碼,不知其規則
: 利用keras建模後卻train不起來
: 於是嘗試建立測試資料,檢核碼的規則是前9碼mod 10
: 將9碼input轉成one-hot encoding成 9 x 10 array
: 建dense network但仍然train不起來
: code在此:
: https://stackoverflow.com/questions/70843702/learn-checksum-rule-with-keras
: 不曉得是哪裡弄錯了?
放假就是要玩解謎小遊戲
這是原 PO 貼在 Stack Overflow 的原始資料
https://drive.google.com/file/d/1Q4tk64NOGuyItLULjhth1kgaPU0zpRkI/view
資料是 003000008J 這種格式,九個數字跟著一個英文字母,
看起來英文字母就是檢核碼了,只是還不知道和數字如何對應。
但其實哪一位才是檢核碼、字母如何對應根本不重要,
我們想知道的只有「序號如何判斷是否有效」。總之現在先隨便假設。
☆ ☆ ☆
先把每個位數定個名字,X0, X1, X2, X3, X4, X5, X6, X7, X8, 最後的字母叫 S
那我們先從 X8 開始,尋找序號中有沒有除了 S 之外其他數字全部相同只有 X8 不同
的組合,拿來比較 S 相對於 X8 的變化
003003188 ==> A 003004622 ==> B 003007744 ==> C
003003189 ==> B 003004623 ==> C 003007745 ==> D
003021375 ==> D 003004798 ==> E 003042690 ==> F
003021376 ==> E 003004799 ==> F 003042691 ==> G
003018456 ==> G 003040268 ==> H 003040023 ==> I
003018457 ==> H 003040269 ==> I 003040024 ==> J
003049387 ==> J
003049388 ==> A
蠻幸運的,光是數字差 1 的就找到很多,那觀察之後發現只要 X8 的數字 +1,
S 的字母就會按照一個固定的規則推移,共有上面列出的十種,還能串成一個環
A > B > C > D > E > F > G > H > I > J > A > B > C > D > .....
還剛好是十個字母照順序排,那是不是可以假設字母對應 0-9 十個數字呢?
當然我們只是串成環,並不知道從哪開始是 0,但這其實不重要,
反正先隨便假設 A=0, B=1, ..... I=8, J=9
☆ ☆ ☆
以此類推,我們可以繼續發掘其他位數的規則
X7 也有類似的環圈規則,但卻有兩組環
A > C > E > G > I > A
B > D > F > H > J > B
代換成 X8 假設的英文-數字對應關係:
0 > 2 > 4 > 6 > 8 > 0
1 > 3 > 5 > 7 > 9 > 1
發現了嗎?偶數一組,奇數一組,每次 +2,這是否代表 X7 在檢核規則中被乘以 2?
☆ ☆ ☆
X6: A > D > G > J > C > F > I > B > E > H > A (單環)
X5:
A > E > I > C > G > A
B > F > J > D > H > B
雙環,且每次+4
X4: 這次出現了五環
A <-> F , B <-> G , C <-> H , D <-> I , E <-> J
0 <-> 5 , 1 <-> 6 , 2 <-> 7 , 3 <-> 8 , 4 <-> 9
你想到什麼?這明顯是乘以 5
X3: 又是雙環
A > G > C > I > E > A
B > H > D > J > F > B
X0, X1, X2 資料不足,前三碼只有 003, 800, 999 三種,但這個可以先不管
到時候隨便亂湊一種自圓其說的規則就好,真的不行就分成三種規則照前三碼分辨
好的現在我們把 X8 的乘數就當作是 1,把假設的數字 0-9 代入英文字母 A-J
就能得出下面的檢核規則: (其中 X0, X1, X2 的係數是隨便猜隨便湊的)
(X0*9 + X1*8 + X2*7 + X3*6 + X4*5 + X5*4 + X6*3 + X7*2 + X8) mod 10 = S
而 A=0, B=1, C=2, D=3, E=4, F=5, G=6, H=7, I=8, J=9
再把這個規則套用回已知的序號,發現全部吻合,可以宣布成功了 (撒花)
8361 passed.
0 failed.
☆ ☆ ☆
那也許會有人說,今天是英文字母照順序排,才被我發現 X8 是乘 1,順利破解,
如果把英文字母打亂呢?如果第一個挑選的是 X6 (百位數) 呢?它也是單環啊?
其實這樣還是可以把規則解出來,只是規則的外觀會變成另一套,但一樣適用。
假設我們把 X6 的單環英文字母當成正確順序,那就會變成這樣:
A=0, D=1, G=2, J=3, C=4, F=5, I=6, B=7, E=8, H=9
(我們並不知道哪一個才是0,但到最後發現不合可以再改,或是給公式加個常數項)
套用到其他位數的規則後,會得出新的公式
(X0*3 + X1*6 + X2*9 + X3*2 + X4*5 + X5*8 + X6*1 + X7*4 + X8*7) mod 10 = S
再套用回所有已知序號驗證
8361 passed.
0 failed.
這個規則也是可以用的,神奇吧?所以規則並不是只有一條。
把英文字母打亂也是沒有用的,環圈會告訴我們順序,即使順序不只一種排法。
我們還可以發現一個有趣的事實,X4 有五環,它的係數是 5 不會變
X3, X5, X7 有雙環,它們的係數一定是偶數 (2的倍數)
知道這個特性也可以幫助判斷乘數
但只有偶數和 5 有辦法用環數判斷,因為 2 和 5 是 10 的質因數
3, 7, 9 這三個數和 10 互質,所以用它當乘數只會出現單環
☆ ☆ ☆
回到原 PO 的問題,神經網路 (深度學習) 一般不是用來解這個檢核碼規則的,
這屬於密碼學 (Cryptography) 的密碼分析 (Cryptanalysis) 在探討的問題。
但你去看密碼學課本,沒有一本會講到如何破解身分證規則,因為這個太簡單了,
我上面也沒用到任何密碼學工具,只用了四則運算,連 mod 都不算是真正「用到」
☆ ☆ ☆
最後附上我用的工具程式
破解的過程,大部份是靠人眼觀察,人工尋找可以用的資料組合,
但身為 Python 的初學者,我還是寫了兩支 Python 程式,
一支幫助過濾出原始資料中 8 個數字相同的組合以便觀察規則
一支用在已經找出規則之後,檢驗有多少筆序號是符合這個規則的
https://ideone.com/24noQ6
讀入 charno.txt 並且輸出 output0.txt ~ output8.txt
找出只有 X0 ~ X8 單一位數字不同的序號組,集中放置方便觀察規律
https://ideone.com/WOms7q
讀入 charno.txt 檢驗每一組序號是否符合我們猜想的檢核碼公式
寫過之後我好像對於 dictionary, list, string 的處理更多了解了一點,
是個不錯的練習,推薦各位試試,但不必把這程式看得太重要,它只是輔助