原原po假設台女有95%這個方法不是不行,但就不該用頻率學派(Frequentist)的方法去看,
而是應該用貝氏(Bayesian)的方法去看了
https://i.imgur.com/oLjcwtg.jpg
因為原原po沒有收集大量的統計,只是單純做出假設,這個95%就相當於先驗機率(Prior pr
obability),也就是P(台女)
這個機率在做統計模型時的確可以隨著你的認知去定,但我們最終要找的當然需要資料驗證
,也就是P(台女|實際資料)
所以正確的做法是,原原po要先去做隨機抽樣,因為是貝氏方法所以也不用太多,20個差不
多
然後看看裡面多少個是台女,來說是一半一半50%好了(只是方便想像,實際我也不知道)
我們就要去先算出用95%的先驗概率,到底多有可能得出50%這個機率,得出P(實際資料|台
女)這個概似(Likelihood)
然後概似乘上先驗機率,我們才能獲得實際的機率分佈
這個方法的好處是P(台女|實際資料)會隨著統計資料不斷更新,也不需要大量統計資料,更
不會太依賴原原po的主觀想法
這個方法可以再改良成連續的機率(或頻密的離散機率),比方說你有多少%的台女ness,而
不是單純是否台女二分法,我們有機會下一課再說