Fw: [心得] FinTech Data Scientist 的日常

作者: vivceC (vivce1994)   2020-06-20 12:23:31
※ [本文轉錄自 Soft_Job 看板 #1UxOyUH_ ]
作者: vivceC (vivce1994) 看板: Soft_Job
標題: [心得] FinTech Data Scientist 的日常
時間: Sat Jun 20 12:22:52 2020
Medium 網頁好讀版
https://lihi1.cc/kpPyw
金融科技的資料科學家到底都在幹嘛!?
最近很多人對我的工作內容好奇,簡單的挑幾個完成跟進行中的專案跟大家分享。
這篇文章是跟我的天才好夥伴 Leo 一起完成的,非常感謝他的協助,讓我的用字能兼顧
技術宅、科普到親民,對我來說是一個很有趣的新嘗試!
以下他的 medium
https://medium.com/@leo1125s
簡介
跟一般 Data Scientist 不一樣的地方是,我的背景是實驗/認知心理學。
認知科學的訓練讓我在分析行為資料時能提供更多的洞見,
也更關注所謂的個體差異(individual difference)。
我主要使用的工具是 Python,工作內容橫跨商業分析跟機器學習。
這次講機器學習的五個技術跟應用,分別有
1. 用戶分群
2. 信用風險模型
3. 光學字元辨識
4. 自然語言處理
5. 員工特質分析
為了方便理解,會舉拍發票的產品為例子。
用戶分群(Customer Segmentation)
機器學習的分群技術(Clustering),是一種將巨量資料分類成群的方法。
我們有許多產品及服務,用戶使用這些產品的過程都留下了豐富的資料。
利用人工智慧和機器學習的技術,分析用戶使用過程累積的資料,
計算出用戶的輪廓及行為模式。
有點難想像嗎?
舉例來說拍發票的行為就能被分成好幾種:
三天捕魚兩天曬網的、每天拍五張的、拿別人發票來拍的等等 XD
這些分類用人力判斷會非常耗時,甚至有時候人類會不知道該如何分類,
因此就需要人工智慧與機器學習的協助。沒有哪一種特別好,大家都可以自在的做自己。
因為分析的目的是讓我們更精確的知道用戶消費習慣。
未來就可以協助提供每位用戶個人化的服務,讓數據能讓每個人的生活變得更好。
Clustering Python 關鍵字:K-means, Mean Shift, DBSCAN,
Agglomerative Hierarchical
信用風險模型(Credit Risk Modelling)
信用風險模型是大家最耳熟但也最陌生的了吧。
機器學習中的其中一個分支叫做深度學習,深度學習會模擬人類思考的模式,
讓電腦做到更理性客觀、沒有偏誤的決策。
深度學習其實不是一個新的概念,早在三四十年前就已經存在。
因為它模擬人類大腦的運算方式,被稱為類神經網路。
這樣的運算需要強大的硬體及算力,當時的技術還做不到,
所以早期類神經網路的應用非常的有限。
直到近幾年硬體技術提升,深度學習的概念才有真正的應用。
所以我們的大腦其實是複雜又精緻的東西,大家要好好珍惜使用啊~
順帶一提,深度學習之父 — Geoffrey Hinton — 大學時期的本科系就是心理學哦!
一開始就是對大腦有興趣,想讓電腦可以像人一樣思考決策,才一頭栽進這個領域的!
這樣的深度學習能力除了用在自駕車、下圍棋、也廣泛的應用在決策管理,
在許多的金融決策上也開始佔有一席之地。
這樣的模型在金融、保險產業都時常出現,金融科技產業當然也不例外。
有趣的是,這樣的模型是不斷變動的,
原因是模型的許多參數會受到公司當下的發展方針、活動甚至是外部經濟環境影響。
所以絕對無法說被風險模型拒絕與否,就表示一個人的信用如何喔~
Classification Python 關鍵字:Random Forest, Logistic Regression, Gradient
Descent, K-Nearest Neighbours
光學字元辨識(Optical Character Recognition)
光學字元辨識,也是我們常說的文字辨識(OCR),
是一個可以辨識圖片內文字的技術。
實名制在科技產業已經是一個趨勢!除了讓我們更認識用戶,
同時也代表高品質的真實用戶。在實名制文件的辨識上,
英文和數字辨識的研究已經漸趨成熟,準確度也都有一定的水平,
而中文字的辨識還有很大的進步空間。
主要的原因是英文只有 26 個字母,數字只有 10 個數字,
而博大精深的中文字庫則是數以萬計,所以中文的辨識一直有技術上的瓶頸。
我們團隊目前正在跟台灣大學合作,開發新的中文辨識,
我相信這會是一個突破性的技術!
OCR Python 關鍵字:pytesseract, OpenCV
自然語言處理(Natural Language Processing)
根據維基百科的定義:自然語言處理(NLP)是計算機科學以及人工智慧的子領域,
專注在如何讓計算機處理並分析大量自然語言數據。
NLP 常見的挑戰有語音辨識、自然語言理解、機器翻譯以及自然語言的生成。
電腦傳遞訊息的方式就像我們在電影裡看到的,是由 0 與 1 組成的密密麻麻的數字。
而人與人之間的訊息傳遞習慣用簡短的句子表達複雜且大量的資訊,
因為我們希望對方很快就能理解我們的表達。
因此訊息傳遞的複雜程度大概比電腦多了一百萬倍吧!
自然語言處理,是希望讓機器透過各種模型、人工智慧技術,學習人類傳遞訊息的方式。
包含語音、文字、翻譯甚至希望機器可以自行造句(大多數人都讀得懂的那種句子)。
自然語言理解是我目前最關注的領域,
自然語言理解的技術可以讓機器理解人類字句的意義,協助我們處理大量的文字訊息。
像用戶拍的發票,上面有非常多的資訊,有些是較不重要的,
而有些則是重要的關鍵字。不重要的字例如:商家名稱中的股份有限公司,
這樣的氾濫字沒辦法帶給我們更多的資訊,而牛排、鍋貼、奶茶等等,
就是能讓我們熟悉用戶消費行為、甚至飲食習慣的重要關鍵字

教會電腦去判斷什麼是發票中的關鍵字、什麼是可以跳過的字,
就是我們在自然語言處理中主要在做的事情。
現實生活中,自然語言處理的技術也常用在客服聊天機器人上,
當用戶發問「請問你們幾點開始上班」,
這樣的句子會抓出重要關鍵字「幾點」、「上班」而被歸類在營業時間的問題,
而「請問」這樣的字就會被過濾掉,但也許機器會把你分群到禮貌的用戶,
所以面對機器時還是可以保持禮貌(笑。
不過呢,發票和客服的分析是完全不一樣的,
所以就算訓練出很厲害的發票自然語言處理模型,
讓這樣的模型去處理客服問題還是會表現得非常差,他會抓錯重點,
用戶也會不知道他在回什麼。也就是說,如果要處理客服問題,
我們需要重新打造一個專門處理客服訊息的新人工智慧模型。
題外話,「人工智慧會不會取代我的工作,造成社會的失業?」
這樣的問題,可以從前段內容得到答案,「不會!」。
因為機器學習的專一性,還是沒辦法取代多元又聰明的人類。
我們相信接下來會是一個斜槓的時代,當你擁有越多元的專業跟資源,
你在這個人工智慧的新時代會擁有更強的競爭力!
而如何聰明的分配資源,讓自己多元的發展,也是我們想幫助每個人達到的事!
NLP Python 關鍵字:NLTK, LSTM, Jieba, keras
員工特質分析(Human Resource Analytics)
什麼!員工的人格特質分析居然跟資料科學有關係!?
在我們公司,我們相信團隊中最重要的就是良好溝通。除了坦率表達自我之外,
我們也思考如何讓團隊成員更了解彼此,透過瞭解彼此的特質與工作習慣,
不但提高溝通效率,還能讓分工更順暢。
我與 HR 部門合作,用數據分析了解團隊與成員的特質。
準備期間我們參考 MBTI 人格理論(Myers Briggs Type Indicator,MBTI)
MBTI 是目前國際最為流行的職業人格評估工具。
每個加入公司的成員都會完成這個測驗,測驗主要分成四個象限,
包含內向/外向、實感/直覺、理性/感性、判斷/感知等分類,
測驗結果也會知道大家是如何理解世界、接收新資訊。
將測驗結果依照部門整理後我們有一些有趣的發現,
比如說產品跟資料科學部門都是做事理性有條理的夥伴、行銷都是外向好相處的夥伴。
我們也用推薦系統的方式,依照每個夥伴的特質給予幫忙配對最適合的跨部門合作夥伴。
心理學中非常在意個體差異,把每個特體都視為獨特的。而在一個組織中,
這樣的獨特性常常被抹滅,這是我們不希望發生的。我們非常在意每一位夥伴,
希望大家都能在舒服的氣氛、用自己最快樂的方式工作。
因此我們認真的對待每一個夥伴,用心理學家的方式研究每一個人,
再用科學的方法最佳化我們的團隊分工。
資料科學團隊常常理性接觸的數字、邏輯跟程式,
這次跟 HR 部門合作的計畫讓我有機會用科學化的分析人的資料,
是一件很好玩又創新的事情。
傳統的企業在員工分析上重視獎酬、年資、升遷等等,
但我們關注每個人是否有找到自己的成就感,
這邊我們結合組織心理學及資料科學的知識,
讓每個人找到自己的定位以及跨部門的好夥伴!
Recommendation System Python 關鍵字:sklearn-recommender
作者: yajen (隱形人)   2020-06-21 18:35:00
謝謝分享!最近剛好有考金融科技力的考試,對資料科學家也很好奇

Links booklink

Contact Us: admin [ a t ] ucptt.com