[背景]
我有80多萬筆html檔案,每個檔案即是一個當初爬過的網頁內容,
目前已經產生了一個vocabulary list,
裡面是從80多萬筆html檔案找到的所有字彙,約有20萬筆(非英文字符已經刪除),
我打算把這個vocabulary list匹配每個html檔,再統計每個字彙在該html檔中的次數,
最後再把這個80萬*20萬的資料輸出成csv檔(SQL還正在摸索),
無奈我的筆電記憶體撐不住這麼大量的資料處理,
所以現在把念頭動到AWS上面。
[AWS相關知識]
我目前對於AWS只有非常基礎的理解,
S3: 可以在AWS上建立新的bucket並上傳檔案;可以使用boto3進行一樣的工作
EC2: 可以在AWS上建立新的instance並且透過本地電腦連結後使用python;
可以使用boto3進行一樣的工作;可以讓遠端server上傳並直接執行Python腳本
[問題]
目前的構想是先把80萬筆html檔案上傳到S3 bucket,
然後藉由EC2 instance直接執行我先寫好的Python腳本,
待所有檔案都讀取過後,
一併將資料輸出成csv檔並儲存在S3 bucket底下。
我的問題是:
如果依照我的計畫進行,我的個人電腦必須不能中斷連結,
否則所有進行中的遠端工作全部刪除,
除非使用terminal multiplier