: 1★ 採用開放授權,讓手上的資料(任何資料格式)可以在網路上取得
: 比方說pdf、圖片檔img等等
: 機器可讀性幾乎是零,只能看不能夠得到數據檔
: 2★ 讓這份資料能以結構化的方式取得(例如用 Excel 取代掃描的表格)
: 這就是常見的office,機器可以讀內容,但需要特定的軟體開啟
結構化更重要是要把資料轉成起碼是key-value的形式
政府很多開放資料雖然近年已在檔案格式上都做到三星,
但一打開來其實只有一星,因為裡面根本只是開放格式版的PDF,
例如下載了ODS,結果打開來一堆合併儲存格、排版用的spacing、縮排、空列空欄等
舊一點的資料裡面可能還有從別的軟體轉檔過程中產生的髒東西
在真正開始分析資料以前,大概有80%的時間都用在ETL
如果是一般公務單位提供的資料是如此就算了
即使中央或地方的主計單位,也幾乎都是提供這類非結構化資料
不是沒有官方數據已經做成key-value,
但最重要、最完整的,幾乎都還是各種假開放格式、真pdf的東西
在我看來,政府的開放資料有95%都只有一星
: 3★ 使用開放格式取代專屬格式(例如用 CSV 取代 Excel)
: 大家看到範例csv,其實剛剛提到的json、xml等等常用格式也是
: 很多網站或app能夠直接吃,就可以顯示數據的圖表或分布
: 這樣就是三星等