[請益] 如何將網頁的數據自動轉成csv? peter308 PTT批踢踢實業坊

[請益] 如何將網頁的數據自動轉成csv?

作者: peter308 (pete) 2020-03-05 13:05:17

hi 各位好
我覺得這個問題應該難不倒大家
但我發現我不太知道怎麼下手
我目前在統計中國cov感染的數據
比方說安徽省的官方統計數據可在這邊找到
http://wjw.ah.gov.cn/news_details_54250.html
這是1月30日的
我有把從1/22-今天的html都下載到一個資料夾下
共40幾個html檔案
我希望能寫個script將不同日期的新增確診病例
自動產生csv 報表
類似這樣
一月22 一月23 一月24 ...................三月五日
合肥 xx
蚌阜 yy
阜陽 zz
六安 aa
銅陵 bb
池州
黃山
..
.
.
我是想過用linux bash 去寫一個script 不過有點卡住
或是用panda應該也可以
能否請各位指點一些方向呢??
感謝!!

作者: jhnny97 (≡(　ﾟДﾟ)) 2020-03-05 13:12:00

估狗 generate csv file in <你熟悉的程式語言>

作者: enthos (影斯作業系統) 2020-03-05 13:19:00

https://www.udemy.com/course/codegym-python/ +openpyxl

作者: swallowcc (guest) 2020-03-05 13:23:00

用爬蟲 parse dom呢?

作者: kyoe (緣份‧不再) 2020-03-05 13:23:00

read file然後分析然後save csv

作者: swallowcc (guest) 2020-03-05 13:25:00

啊原來是這個樣子的資料, 那就抓字串分析了

作者: vi000246 (Vi) 2020-03-05 13:29:00

資料來源只有新聞嗎? 這樣只能手動整理了

作者: neo5277 (I am an agent of chaos) 2020-03-05 13:34:00

selenium

作者: q90036 (Moz) 2020-03-05 14:15:00

使用這些數據之前應該要先問這些中國給出的數字可信度有多少 ...

作者: rodion (r-kan/reminder) 2020-03-05 14:37:00

不是很建議這種超級不具格式的資料.. 先不論正確與否啦...真要做,可能也等所以資料都塵埃落定不再變動才開始寫對應的parser...

作者: domototice (tice) 2020-03-05 17:32:00

用Excel阿貼到excel 在存檔存成CSV

作者: newsbielt703 (3o'clock) 2020-03-05 17:39:00

PapaParse

作者: domototice (tice) 2020-03-05 19:28:00

蒙恬掃描筆???orz

作者: superpandal 2020-03-05 22:00:00

你可以用C寫這樣應該會更快一點咚

作者: gasbomb (虛空雷神獸) 2020-03-06 11:49:00

這個連表格都沒有很難用程式處理吧

作者: gary75952 (MaRs) 2020-03-06 14:29:00

這個怎麼做都可以吧就字串處理mapping在塞到csv裡.例如regex 擷取，前後的四個數字。 ex:（合肥50例），（豪洲20例）之類的

作者: mathrew (Joey) 2020-03-06 15:29:00

沒有特定格式就抓關鍵字

作者: peter308 (pete) 2020-03-07 11:43:00

感謝各位提供的資訊。

繼續閱讀

[心得] 2020-3-5 每日新聞damody [請益] excel自動產生報表？geroge0820 [請益] 研究所領域影響未來工作嗎？ponwar87123 Re: [請益] 關於 C 與 embedded 工作市場csfgsj [徵才] 群益金鼎證券徵求軟體設計人員，MIS管理,BJLC666666 [心得] 2020-3-4 每日新聞damody [徵才] Square徵Software Engineerray3226 [討論] Python 工程師的家benq Re: [請益] 如何當軟體QA??ripple0129 Re: [請益] 如何當軟體QA??wt