這是一個很有趣的話題,不過先不要下結論
我目前在紐西蘭的一家線上信貸公司,講潮一點就是FinTech
從早期P2P到今年因為想要當金主的太多,四月的時候正式停止散戶的金主
現在出錢來借的反而都是銀行基金信託等等...
至於借款人所有的流程都在網路上,從一開始的身分審查,到財務評估等等
我們用第三方服務審查身分和連結信用聯徵中心調閱個人信用資料
通過身分審查後客戶授權我們到個人銀行帳戶調閱過去一年交易資料
最後我們評估客戶的信用指數,貸款利率和金額然後通過貸款
在假設一切資料都足夠的情況下從申請到撥款全部都是線上系統處理
資料產生除了客戶個人資料和銀行交易資料外,還有聯徵中心提供的信用紀錄資料
此外還有前台第三方服務的資料,像是我們會用全世界流通的Email偵查金融犯罪的服務
或是根據客戶提供的地址調查該地區平均各項消費的指數,收入,教育程度等等
此外,我們也擷取客戶在使用前台服務的時候產生的各種Cookies
來研究各種用戶體驗和行為,
這些資料我們現在大部分用在兩個模型,第一個是用來衡量客戶倒債的機率來評估風險
結果就是計算最好的利率和貸款額度,第二個跟Google合作,
我們預測該客戶能提供公司的利潤然後即時傳送結果給Google,
Google在即時用他們的演算法搜尋最佳的標的放送廣告提高點閱率
這個合作的模式讓我們公司去年Marketing的Return提高超過150%,
也就是說每花一塊錢的數位廣告能夠提升傳統Google Search的1.5倍效益
這些資料量大不大?其實很恐怖...一個人一年的銀行交易資料就是數千筆
一萬個人就是上千萬或億筆,加上聯徵各種金融產品兩年的紀錄,前台網頁Cookies,
第三方服務的資料等等,還有Real-time data的特性等等...
我想講的重點是現今的資料科學涵蓋很廣,要把東西做出來很多時候都是從零開始
沒有資料就去抓,抓回來就要想辦法讓它能用,甚麼分析模型都是建立在
有整理好的資料下,再來就是資料分析是很吃Business Domain的
很多時候你要面對的都是有決策的管理階層,他們不太在乎你用的東西酷不酷炫
而是你能不能回答他們的問題,舉個例來說因為COVID-19很多人失業或是被減薪
這個時候就會申請Hardship延遲付款,通常時效是三個月或六個月,
疫情至今很多Hardship逐漸到期,我們公司會主動調查客戶的財務狀況
可是因為這個疫情沒有人有經驗,時效上為了速度沒有辦法等研發前台功能
大家都用Google Sheet來Team Work,上面就希望我們能夠抓Google Sheet的資料
連結資料庫來做即時資料視覺報表,就這樣
Google Service Account/Google Sheet API/Python/Snowflake/Tableau/SQL Agent
一天幹出一套即時報表讓上面的可以隨時因應現今的狀況來決定Hardship的政策
前線的客服繼續用Google Sheet做他們的工作,老闆們可以在Tableau上看著圖做決策
至於我們就快快樂樂地繼續領我們的薪水~~~
這些在大公司因為制度和官僚不太這樣閃電式的發生,只有像是在我們這種相對小型的企業
才會這樣搞,我們組只有三個人但是包山包海,我覺得這種工作其實也蠻有趣的