hi 各位好
我覺得這個問題應該難不倒大家
但我發現我不太知道怎麼下手
我目前在統計中國cov感染的數據
比方說安徽省的官方統計數據可在這邊找到
http://wjw.ah.gov.cn/news_details_54250.html
這是1月30日的
我有把從1/22-今天的html都下載到一個資料夾下
共40幾個html檔案
我希望能寫個script將 不同日期的新增確診病例
自動產生csv 報表
類似這樣
一月22 一月23 一月24 ...................三月五日
合肥 xx
蚌阜 yy
阜陽 zz
六安 aa
銅陵 bb
池州
黃山
..
.
.
我是想過用linux bash 去寫一個script 不過有點卡住
或是用panda應該也可以
能否請各位指點一些方向呢??
感謝!!
作者:
jhnny97 (≡( ゚Д゚))
2020-03-05 13:12:00估狗 generate csv file in <你熟悉的程式語言>
作者:
enthos (影斯作業系統)
2020-03-05 13:19:00作者:
kyoe (緣份‧不再)
2020-03-05 13:23:00read file然後分析然後save csv
作者:
neo5277 (I am an agent of chaos)
2020-03-05 13:34:00selenium
作者:
q90036 (Moz)
2020-03-05 14:15:00使用這些數據之前應該要先問這些中國給出的數字可信度有多少 ...
作者:
rodion (r-kan/reminder)
2020-03-05 14:37:00不是很建議這種超級不具格式的資料.. 先不論正確與否啦...真要做,可能也等所以資料都塵埃落定不再變動 才開始寫對應的parser...
用Excel阿 貼到excel 在存檔 存成CSV
作者: superpandal 2020-03-05 22:00:00
你可以用C寫 這樣應該會更快一點 咚
作者:
gasbomb (虛空雷神獸)
2020-03-06 11:49:00這個連表格都沒有 很難用程式處理吧
這個怎麼做都可以吧就字串處理mapping在塞到csv裡.例如regex 擷取,前後的四個數字。 ex:(合肥50例),(豪洲20例) 之類的
作者:
mathrew (Joey)
2020-03-06 15:29:00沒有特定格式就抓關鍵字