※ 引述《s110269 ()》之銘言:
: 本魯母胎單身
: 好奇各位告白時,應該是覺得很有把握會成功吧
: 那怎麼衡量自己告白會成功的機率呢?
: 有哪些量化指標可以參考?
這位兄day,你問了一個非常有深度的問題,
要計算出告白成功的機率,我建議採取以下流程:
1. 資料蒐集/資料標記
首先你需要想辦法蒐集到包含下列資料的足夠樣本,我看最少需要個幾千筆,
a.人口統計變項:年齡、性別、居住地、職業、年收入、身高、體重、有無房產等。
b.大頭照:盡量規格標準化,兩吋脫眼鏡不戴帽之類的。
以上兩種類型資料都要包含告白者跟被告白者喔~~
c.資料標記:每個樣本一定要標記是否告白成功,不然模型沒有Y去學習。
2. EDA(探索性資料分析)
接下來我們會看看用各種交叉分析、相關分析,
去看依變數(人口統計變項/大頭照特徵)跟應變數(是否告白成功)的關係,
檢查變數個合理性,順便偵測遺漏值跟極端值。
3. 遺漏值/極端值處理
承上一步驟,如果該補的遺漏值跟該刪掉或對數處理的極端欄位記得要處理。
4. 特徵工程
這一步就是大學問了,整個預測結果準不準大概70%以上看這段了。
大頭照的部分用Python PIL套件把非結構的圖片提取特徵,
人口統計變項的部分該對數處理的、該取Z-score的記得做,
One-Hot-Encoding這種最最基本的也就不用特別提了,
總之基本功跟各種苦工不可少。
另外,如果你同溫層太宅太廢太臭,告白成功的樣本數太低,
造成樣本是稀疏資料的話,記得Oversampling來處理balance問題。
5. 建模
資料都處理完了,接著就可以丟進去建模啦~~
我們不是什麼AI大師,不用自己搞演算法,直接拿現成模型來隨便套套就好了,
雖說如此但也不能太亂來,這次要預測的是類別型的標記資料,
Logistic Regression跟各種Tree Base Model像是XGBoost、LightGBM都很適合。
資料拆成測試集跟訓練集,訓練集建模然後用測試集來衡量模型是不適合,
AUC畫出來、Confusion Matrix弄出來看看各種指標,檢查一下模型效果~~
然後因為樣本數應該不會太多,所以要注意over fitting的問題~~~
6. 預測機率
把你自己跟心儀對象的的人口統計變項、從照片提取的特徵值丟進模型,
恭喜你,你得到了這次告白成功的預測機率值了!!!