既然都有人點名惹 小弟我獻醜一下好惹
不過今天先不要講貝氏 貝氏作圖跟搭配公式講要花很多時間準備
先看看推文有人說到104的資料好惹
美國資料我現在懶得點 我期末考完再看看><
===========================================
做資料科學的步驟第一項就就是資料如何收集
在104圖表下方 他都有寫說資料來源如何來
「
資料來源:104人力銀行履歷資料庫,該學系畢業生(含日/夜間部)填答薪資及職
務特性問卷而來,並由系統逐一檢驗,以確保資料的正確性。 圖表資料固定於每
月第一周更新,剔除超過一年的樣本;以確保資料的時效性。
」
上面是引用自104網站 可是
第一個很大的缺陷應該大家都能看出來
就是樣本數太少
我沒有特別去估算一間學校的畢業生有多少啦
不過抓一下 大係一個年級大概都80~100吧 現在2020 不看最近建立的學校
畢業生的總數至少都有2000左右
那這樣抓的話 他整體人數都只有抓 200人左右 這個是數量非常少的
很難做大樣本分析 不過沒關係 統計如果只會大樣本分析 早就被淘汰了
那接下來第二個步驟 我們要做model
可是 這個網站 的model 方式 只有做order statistic
簡單的說就是大小排序而已
很明顯 從網站給的分佈 我們只知道 幾%的人在哪個區塊
但要如何從樣本推到母體
從我的角度看來是無法啦 畢竟只從order statistic中 很難看出任何的資訊
依目前所學過的 我猜想 poisson 或是 multinomial 可能會好些
不過還是要回頭做一些假設檢定來看看model合不合適啦
===========================================================
除此之外 主張104的統計無用還可以用以下角度
1.統計時有沒有把樣本背景盡力消除
講白一點 就是高中的不變變因有沒有確實處理好
這個可以透過分類方式處理 (這裡很明顯沒有)
或是用大數據的方式來稀釋這些雜訊(這裡也沒有)
因此很可能 薪資跟科系只有相關性 而缺乏因果關係
2.另一個問題是發明民調的人(我忘記叫啥了QQ) 也犯的錯誤
就是他今天搜集的資料 已經是condition在 會使用104找工作填問卷的前提了
這就是很容易出現的資料搜集偏差 可能這些人有共同的某些特質
例如薪水較高的理組 薪水較低的文組等等
都是可能會出現的問題
其他的還有一些關於資料上的問題 就可以連接到貝氏理論了
如果有人想聽下次再打 我要去念期末惹QQ
=======================================
BTW 如果想知道一個科系可以幹嘛 薪水多寡 其實每個係辦都會去統計自己系上同學
你去找係辦都可以比104準喔