各位先進好,我有數千個TXT檔,每個檔案約3、4百MB大小,檔案內容就一行是一個句子
,然後我手頭有10個關鍵字,我要找數千個TXT檔裡有哪些句子有提到關鍵字。
我目前作法是一個檔案一個檔案一行一行去跟關鍵字比對,有對應到的就拋出來。
因為後續還會有其他關鍵字,又要一個一個檔案去爬,太耗時間,所以想請各位先進賜個
關鍵字,有沒有可以改進效率的方法或套件可以推薦,感謝。
6/11-
後來想試試multiprocess的概念,我後來改寫的程式碼:
https://github.com/ashkayle24/KeyWord_hit/blob/master/keyword_hit-test.py
不知這樣的用法對不對,cpu一直在90%以上在跑,可否有先進給個指導...