※ 引述《chadlu (chadlu)》之銘言:
: 各位版友好:
: 小弟從事筆譯工作
: 目前想針對不同領域的中英文本建立專屬的平行語料庫
: 作為之後的查詢及參考之用
: 但因為本身對語料庫這塊還不是很了解,所以想跟各位請教以下幾個問題:
: 1. 常見的Antconc是否可用於建立平行語料庫? 若不行是否有其他推薦的軟體?
: 2. 有沒有軟體可以自動擷取雙語網站中的中英文語料?
: 3. 擷取完的文本該如何對齊(Alignment)?
: 以上,謝謝各位~
: PS. 若有相關的參考書籍或資料也歡迎跟我說 Thanks :)
不是很了解你的問題。拿平衡語料庫做例子好了。
如果你跟詞庫購買平衡語料庫,你拿到的是三百多
個xml檔。當然,語料有tag並且以xml格式標好。
簡單說,語料庫就是一堆文章的集合。所以,回到你
的問題。什麼軟體可以建語料庫?Notepad ++就可以
了吧.... 那是一個編寫程式用的純文字編輯器....
自動擷取雙語網站?沒有聽過有在提供類似軟體,不
過你可以自己寫爬蟲去抓.... 如何對齊?看你用什麼
標準對齊啊.... 也可以自己寫程式去做...
老實說,連keyword search或是concordancer這些很
常見的功能都沒有免費軟體了,語料庫嘛... 恐怕要
靠自己了...