[發案] Python data pipeline 改善與測試
發案人:曾先生
聯絡方式1:站內信
聯絡方式2:
所在地區 :海外(UTC+1時區)
有效時間:徵到為止。2022-01-02前完成,額外加給20%。
專案說明:
現有 data pipeline 包含三個獨立運行的docker service:
Common Crawl data retriever, GDELT data retriever 與 data preprocessor。
程式語言為 Python 3,使用 newspaper3k, gdelt, nltk, spacy_langdetect 等包。
中間資料集與結果皆以 MongoDB 儲存。
資料處理邏輯與 docker 封裝已基本完成,小資料集測試OK。
但推上測試環境爬取真實資料時,發生諸多問題例如
- 各種data bugs除之不盡
- 無法測試並確認scheduler的正確性與可靠性
- 不知道要如何應付網路中斷、資料重抓錯抓、系統停機重啟等各種狀況。
主要的requirement就是解決上面的問題,讓程式達到可以上線的品質。
接觸洽談流程如下:
發案人會先做一次live demo,
展示目前的code如何運作,解釋功能設計與問題瓶頸。
決定接案後,發案人會與接案者共同 refine 一次具體的 requirement spec,
並開放 GitLab private repo 給接案者作業。
預算:NTD 15k
- 2022-01-02前完成,額外加給20%。
- 如須使用AWS等付費服務,事先與發案人討論即可。費用由發案人負擔。
接案者要求:
- 一般 Python 3 服務之開發、測試與維護經驗
- 熟悉此類連續運行服務之可靠性設計
- 熟悉 docker 環境調試
- 能夠有紀律的執行一般 Git DevOps,例如每個 commit 盡量只做一件事;
commit message 與 changelog 簡明清楚等
- (加分項)熟悉平行化程式之設計與除錯
- (重要加分項)具相似data pipeline與服務的架設經驗
附註:保密義務