自介檔案:
屬性:個人-兼職
所在地:台北
聯絡方式:站內信
專長:R/Python/Matlab/C++ (因工作需求 , 熟練度依順序遞減)
資料分析/DM/ML/爬蟲
接案地區:如果能接受遠端 , 全台皆可
接案屬性:以不影響正職工作為主 , 但如果 pay 甜的話 , 難度較高
或較繁雜的 case 我也可以接
附註:由於爬蟲太多 Case-Study 以及隨 Case 結構化或標的網站
防禦機制強度造成的反向工程問題 , 且 Script 再利用性低
(高的話應該該標的早有API了,應該也不會想找人爬)
若要發爬蟲相關的案的話 , 希望先評估資料價值 , 還有總
資料量 , 以及爬取效益問題 , 除非特別簡單的case , 可用
現成 template , 否則個人是希望 5,000起 , 一方面也是
篩選,我以前遇過只有300筆資料是對方要的要我寫一個破解
內網機器人防治機制 , 希望發案者能明白 , 前處理跟反向
解析過程本身要基礎時間 , 更別說偽裝等問題 , 希望資料量
跟價值有到一定再考慮發案
作品介紹:
做過Social Network/Spatial Statistic/Logistic/Random Forest
Parallel Computing (Multi-Thread)
最近在往 Hadoop/Spark Clustering , Cross Node Computing努力
如果有疑問怎麼沒有寫爬蟲作品的話 , 對我來說爬蟲嚴格來說不算
作品 , 只是一連串的反向工程跟 parser 設計 , 算語法基本功還有
資料結構瞭解程度的產物