嗨,安安大家好
正巧這系列都是我專業的內容,我來解釋一下為什麼會有"遠古-機翻"的感覺
現在不想碰工作的東西了,就出來教學一下順便看能否把這系列close掉
如果有相關領域的人想找我,非常歡迎,我很孤單
首先現代中文和現代英文都是SVO語言,已經演化成"分析性語言"了
就是主詞+動詞+受詞,這樣的文法結構
(以前的中文和英文並不是,尤其中文本來就不是分析性語言,是近代才慢慢變化的
所以很多文法的概念,都是從拉丁語等嚴謹的分析性語言,難以直接套用上去
比如時態的變化、名詞單複數、主格、受格人稱變化等等
英文(日耳曼)的文法分析也是只取用一部分的拉丁語文法來作,
同樣的羅曼語系或斯拉夫也是)
d大的翻譯是典型的1 to 1 mapping,也就是把出現機率最高的各詞組直接套用上去
這是典型的古代機器翻譯
說精準,也不能說是精準,只能說是一個蘿蔔一個坑照著塞
但這就不能翻譯kick a bucket或ejaculated half a dozen times之類的用語
(前者是俗語,死掉-蘇州賣鴨蛋的意思,
後者不是射了6次/半打這樣精確的數字,而只是講射了好幾次
典故來源是 佛洛依德的某一篇論文,提到某個患者半夜夢遺了
但大家都知道夢遺或強制射也不可能一夜六次郎
所以這很明顯是一種稍微誇大的"好幾次"
不過研究所時某個女同學還是很認真的翻譯上台報告了,"該患者當晚夢遺射精了六次"
所有人應該都知道.....這是明顯的謬誤,不是佛洛伊德的本意)
以上這幾個情況,都證明了,語言的意思並不是只有"文法"能夠決定
語氣、情境、上下文、俚語、隱喻、種種不特殊的情況,
都能讓意思不是文法上看起來的那樣
但以前的機器就做不到這點,他只會照翻
好,回到分析性語言。今天中文和英文是SVO結構
所以你說照著把詞義一個不漏的翻譯上去是最精準的
那碰到古英文(莎翁之前的)或現代日文呢? 他們的語法結構是SOV (主詞+受詞+動詞+否定)
比方說 我不吃橘子,在日文 就是 "我 橘子 吃 不"
那你今天這樣照著分析性語言的文法結構翻譯,是不是很像古代的機器翻譯呢?
這只是因為剛好都是SVO的結構,所以照著塞這種作法好像短句還行
碰到OVS(像是Yoda大師的語言、克林貢語、或是地球上少數OVS的語言)
你今天的翻譯就變成
"橘子 不 吃 我"了
顯然不是那句話原本的意思
或是貝武夫的古英文(維京人那裏來的參雜古德文)
一堆 SOV 句法翻譯到今天的語言,用文言文格式都還不一定能模仿三分
英文聖經裡面有King James version的Bible
也有其他的"欽點版本"
今天他會成為正統Orthodox,就是因為大眾的接受度高,以及歷史政治因素
比如英國國教派的出現原因等,只是因為國王想再娶但不想被羅馬教皇給拒絕證婚
(我們不談各教派之間的差異或各宗教本質上的差異)
AdGuard今天真的已經欽點了一個繁體中文的版本嗎?
那為什麼大眾的接受度卻那麼低呢?
要不要想想看,這是遠在地球另一端的人不知道這邊中文大眾使用者的心聲
還是有其他因素存在
比如除了d大以外的人,大家的中文都有問題?
沒有人否認d大付出的心血和精力,那種經歷就像是K和Joi之間的感情
可以參考拙作"真偽,或者真偽根本無所謂"
http://fall-cicada.blogspot.com/2019/03/blog-post_27.html
Tech writing作的越久,會越發現"真"已經不是第一重要的了
雖然這點很可悲,tech writer和其他creative writer的差異不就是在於
"精確且實用正確傳達使用方式和開發文件的紀錄"
從事越久,會發現自己所追查和追求的真,往往只是被拿來掩蓋"真"
畢竟資訊是情報,情報是資產,給user和internal developer, 股東、大小主管的資訊
不會是一樣的
每個單位拿走資訊以後,往往是刻意添加假的和錯誤的東西進去,以保護自己存在價值
唯一能撫慰自己的,只有"至少正在看文件的人,不管是股東或user, RD
都能拿到它們正好需要的正確資訊"
而努力撰寫破譯組裝知識庫的這個過程對我而言就是一場完整的成長和旅行
我只能祈求他們不是拿這個來壓榨、欺瞞、利用或鬥爭他人,
這是tech writer最基本的良心和職業道德
絕不洩密,但也不誤導需要資訊的人
第二個主題,我要說的是thematical roles 和 nomimal subject的差別
一個是一段文字中的主題,另一個是文法名義上的主詞
前者可以透過好幾個完整中長句去傳承去解釋完畢
後者則是有嚴格的一個句只有一個主詞格規定
對台灣人而言,英文文法的重要性,大概是國中時期建立起來,高中複雜化
大學就忘光光
一直到研究所階段,所有人的英文程度還是停留在國中八大詞類的認識上
只有英語教學相關的人,或是論文讀寫很多的人,會發現嚴謹的英文不是這樣寫
也就是"主詞"雖然承載了句子文法名義上的主角,但往往句子的重點都是放在後面
用虛主詞it或其他方式把很長的重點放在類似受詞的位置了
這也導致了文法、文義重點並不重疊的情況。
寫論文當然符合文法,但每一次的新句要怎麼把重點和推論、得證用合乎邏輯的方式
像是傳球一樣傳給下一個虛主詞(以及下一個thematical roles)
這才是寫論文難的一個小地方
畢竟句和句推論或論述如果有斷層或矛盾,這文章就是爛和假。
這點很類似數學證明邏輯,也是法律為什麼這麼難的原因
除此之外,還有形式語法學派 (Construction grammar)提出的不同分析方式
以及更近代的Neoro-linguistic (神經語法學派)
可以讓你跳脫傳統拉丁語法以來的見解,語言是人大腦的產物
他不是死硬被釘在教科書裡面的八大詞類
甚至還有更激進的HPSG學派,一直試著語言證明一切的一切(文法結構上的核心)
都是存在於類似"the"這樣的指定詞裡面,而不是傳統認為的動詞
這個學派的研究隱隱導出的結論是,文法和文意根本是兩個不搭嘎的東西,是獨立存在的
那照這樣下去研究文法到窮盡會得到什麼呢?
豈不是一切成空
比較像是虛數的數學領域,而不是一般大眾可以使用的實數數學吧?
也許要一百年以後的科技或其他意想不到的領域才會運用到這塊成果。
他們確實提出了一些實證,有興趣可以查"政大 何萬順 教授"
希望老師不會記得我,畢竟我只是一個曾經暫歇政大的過客
不想給任何老師添麻煩或丟臉了
給大家稍微看一下自然語言分析(NLP)是怎麼作的
https://universaldependencies.org/ru/dep/nsubj.html
https://universaldependencies.org/zh/dep/nsubj.html
電腦眼中的句子和我們看到的很不同,所以還是需要很多很死的規則去作權重
但權重出來以後的結果看起來卻像是人類的思考結果
其實路思考徑完全不同
最常見的是HMM (Hidden Markov Model)
按照前面說的,如果分析性語言用POS(part of speech 詞性)去切詞組
和相依分析(dependency)
每一個POS都用HMM去抓對照前後和全句最有可能的解釋,而不是按照整本字典內出現機率
這樣看起來會比較像樣,也就是近代的機翻
不是用設定好的一個詞一個對硬塞進去
另外,翻譯最重要的是除去干擾,也就是任何不能表達theme的東西都移除
有興趣的歡迎參與Spacy專案
https://spacy.io/
是一個自然語言分析的python套件,一個紐西蘭人到德國作的適用各種語言分析的工具
我本來啥程式語言都不會,直到機緣巧合我決定投入這塊努力(業餘興趣)
希望幾年後的研究成果能驗證我的假說和直覺
我只是一個曾經念過英語教學所和英美文學外文所的可憐人
都沒拿到碩士
但教過不少學生(國小國中高中、閱讀障礙、盲生、過動都教過...)
我網路速度太慢了 還有其他相關的主題,像是強迫症(OCD)或聯覺(Synesthesia),
Dyslexia(閱讀困難), Haptic Immersion(觸覺沉浸)
如果有人有興趣想聽,以後再說吧
我是自稱"聯覺者"的前英文老師,而這很可能跟我青春期的OCD有關係而隨之發展出來
這已經不是Adguard相關的,只是NLP或禪、Universal Grammar(Chomsky的學說)
對教授而言,我只是一個沒有利用價值的人,畢竟我追求的東西不專精也不產他的論文
我只是一直傻傻地作和付出給身邊的人,沒有付出給吸乾你血肉的學術界
但對我和某一些特殊族群而言,我們確實是在追求真相
而這個真相或追求的過程,是對社會大眾有幫助和意義的
希望d大放下我執,也釋出讓人參與的善意。
畢竟我沒有辦法再拿出一個小時討論了。
但人都希望自己在這個世界上不是孤獨的,
自己的遠大目標同時也是更大的群體的共同目標。
這時候就要拿出善意,讓大家能參與、驗證並指出錯誤所在了。