大家好,打給厚,胎嘎厚,馬哩馬哩蹦。身為一個資料科學家,好死不死咧,Dr.嘴叔在
某個場合遇到過野生翁達瑞。忍不住又要來嘴一下。
以下文長,為了保護你的眼睛,可以直接到這裡用聽的
https://reurl.cc/95OaQn
本集達特嘴哥地圖砲本來要在節目裡面跟大家揭曉翁瑞達的背景,沒想到節目才錄到一半
,Dr.彭文正就手快腳快的丟了一個名子出來,鄉民用自己打一次手槍的速度就肉搜到了一些
目標。Dr.嘴叔在此不直接透露姓名,請大家自己用Quasi-attack從以下消息去比對。其
實Dr.嘴叔不是要討論誰是翁達瑞這麼無意義的話題,who fucking cares?而是要討論什
麼是
大 數 據 專 家
翁教授質疑高委員是冒牌的大數據專家,但什麼是大數據?什麼又是大數據專家?翁教授應
該要先定義好前提,再來討論高委員到底夠不夠格稱為大數據專家。
首先大數據專家可以被拆成大數據AND專家。翁教授把重心放在專家,只要證明高委員不
是專家,自然他就不可能是大數據專家。首先翁教授企圖把專家和學霸連結在一起,他認
為高委員的學歷還不到學霸的水準,所以自然也不是什麼專家。Dr.嘴叔不是很吃學歷這
套,但是學歷多少還是有點參考標準。身為一個資料科學家,直接上資料。
這邊提供四個排名系統
A. Usnews national university rankings
B. Usnews global univeristies rankings
C. Usnews best engineering schools
D. Usnews best business schools
其他還有英國的QS,上海交大排名,但因為當事人念的是美國學校,所以就拿Usnews排名
為主。
高委員(UC) 翁達瑞(美國中部某知名大學)
A 148 40-50
B 202 50-60
C 92 5-10
D 100-150 N/A
首先A是翁教授在FB嘴高委員使用的排名系統,翁教授當年博士班念的學校在這分排名裡
面的確是屌打UC。然而這份排名是大學部的排名,並不考慮學校的學術表現,所以拿來做
博士班的比較是不準確的。而B排名是世界大學排名,考慮了學校的學術成就和名聲,在
這份排名裡面UC被翁教授的母校屌打。UC世界排名202其實算不錯,台大在這份榜單排184
,師大1000+。如果以翁教授的想法,要念台大才是學霸,那其實UC和台大在世排的差別
不大。當然啦,翁教授講的是血統純正,台大大學部才算數,但是台大的大學部排名並不
會在A榜單中。但是B榜單還是有BUG,翁教授念的是商學博士,高委員念的是工學院,這
是要比個屁。所以我們可能要看的是C和D榜單。UC的工學院排名92,被翁教授的母校屌打
。但翁教授母校的商學院排名連USNEWS都懶得提供數字,在系所排名部分翁教授的母校被
屌打。所以這一回合就算平手吧。
但是今天要比的不是這兩個人誰才是夠格被稱為學霸。不是學霸的人難道就不能嘴人嗎?
以翁教授的資歷,包含他過去任教的學校(經過嘴叔的查證,他並沒有灌水),高委員的學
歷的確還不夠格被稱為學霸。就像很多人覺得念台大就是學霸,但台大土木的同學可能覺
得台大醫科才是學霸。問十個人會有十個對學霸的標準。所以翁教授身為側翼,打學歷是
不對的。
我們應該去看論文引用數。前面有網友也討論過了。根據Research Gate高委員的論文引
用數有4400。
這個數字非常驚人,基本上是神人的等級,Dr.嘴叔完全看不到車尾燈。台灣很多國立大
學的終身職教授可能幹了一輩子都達不到這個數字。好,所以有人開酸,這些高引用數的
論文,高委員幾乎都不是第一作者。如果只算高委員第一作者的文章,引用數剩下100不
到,被打回正常人。這個講法有點不公道。首先我們從時間軸上來看李傑教授的論文引用
數
https://reurl.cc/OkpnkX
因此高委員大數據專家這個稱號,已經到手了一半,也就是專家。
再來什麼是大數據?
根據一份業界的定義,數據快速成長會遇到四個方向:Volume(大小), Velocity(資料製
造的速度), Variety(多樣性)以及Veracity(真實性)。由此可以了解數據多大是大數據。
以Dr.嘴叔電腦科學的背景來看大數據這門學問,其實是要解決資料存取和計算的問題。
當數據大到記憶體裝不下的時候,電腦要怎麼做運算?當數據大到一顆硬碟裝不下的時候
,那你有買兩顆嗎?一顆D槽裝不下,你有裝NAS嗎?
在電腦科學領域大數據是分散式系統設計的問題,數據變的這麼巨大,使用者要怎麼調出
自己要用的那些資料,電腦要怎麼知道資料放在哪?要怎麼快速的收集到所有資料?使用者
要做計算,又要怎麼弄,一台電腦算不了了,要怎麼把計算分散?
以上就是電腦科學領域中,所謂大數據要處理的問題。基本上是一個系統設計的問題。
使用者用Sparks, BigQuery就可以輕鬆取得他們要的資料。所以我其實不知道大數據分析是三小
我們攤開高委員的論文,Dr.嘴叔大致過了四篇,包含
李傑教授主筆獲得3600次引用的
A cyber-physical systems architecture for industry 4.0-based manufacturing
systems
這篇論文只有六頁,最後一頁只有參考文獻。內容來說看得懂英文的人就看得懂,主要在
講一個CPS-5V的架構:
https://reurl.cc/xEOAvN
1.從機器收取資料
2.把資料變成有用的資訊
3.結合所有機器的資料作peer-based analysis
4.把資料呈現給管理者,讓管理者好做判斷
5.不管用人工智慧或是工人智慧的方式,把命令返還給機器,讓機器可以自動調整,優化
製程參數。
這篇文章大概內容就是這樣,幾乎沒有技術牛肉。比較像給出一個研究願景或者工業4.0
的趨勢。一般能發表這種純嘴砲論文,作者肯定是大頭,通常實作的部分會在其他地方發表。
另外在台GG工作一段時間的工程師,是不是感覺到了deja vu,這不是十年前台GG就在Run
的東西嗎?感覺李傑教授應該不是一般人,他那裡歐印彼特幣應該還來得及。
為了證明高委員和大數據的關係,Dr.嘴叔又找了同年發表,標題跟上一篇有87%像的這兩
篇論文
高委員同學Bagheri主筆的
A cyber physical interface for automation systems—methodology and examples
高委員列名第三作者,總共有300次引用
高委員主筆的
Cyber-physical systems architecture for self-aware machines in industry 4.0
environment
總共有50次引用
我原本以為可以看到技術內容,但這兩篇paper大多也是打嘴砲。想知道高委員的研究領
域是怎麼寫paper的,可以自己點我的podcast連結聽,我大該花了一分鐘講完,但我不想
花五分鐘打字,因為大家看了也是浪費時間。
所以Dr. 嘴叔只好又去找第四篇paper來看,也就是跟高委員博論同名的
Quality prediction modeling for multistage manufacturing based on
classification and association rule mining
當然也是由高委員主筆。
從標題來看,的確是技術性的內容。簡短來說,作者提出了一個模型希望從機器返還的資
料來預測機器最後做出來的產品會不會被品管打槍。使用的方法是用PCA對資料做降維打
擊,之後把feature丟給決策樹、貝氏分類器、SVM、Apriori、Rough set等去判斷品管結
果。使用的資料是某半導體的製程資料,做了實驗比對發現基於Rough Set算法的分類器
可以屌打其他Bench Mark。爽,可以畢業了。
好看到這裡,了解機器學習的同學可能會覺得幹這三小,這些模型可能比很多大學生年紀
還要大,況且也不是什麼大數據計算。但是這並不能說明高委員不懂高深的技術,研究沒
用到不代表不懂。而且在業界有很多問題其實根本不用什麼很屌的模型,什麼深度學習。
feature抓一抓丟給sklearn裡面內建好的各種模型,看誰的結果好就用誰的,打完收工,
高委員也是這樣做的,簡單粗暴,有沒有用?有用!那你他媽有什麼問題?
不過咧,Dr.嘴叔要argue的是這篇研討會論文寫的不是很好。想知道為什麼的自己去聽我
的podcast。因為這不是討論高委員是不是大數據專家的重點。而且這是一個2017年在台
灣墾丁半的研討會,看網站就知道不是什麼重要的研討會,一般美國的博士生會把研究丟
到這種研討會,來取得學校贊助的台美來回機票,免費回台爽玩一波再回學校,但這一切
都被武漢病毒給毀了。
快速看完這些paper,我決定不再繼續找下去,因為我忽然恍然大悟。
大數據這三個字在非電腦科學領域,實際上是一個行銷用語。任何東西前面擺個大數據,
就會變得高大尚。所以想當然爾,高委員的研究領域用這種方式寫paper,的確就是在發
揮大數據的精神和其專業。
因此,身為職業資料科學家而且擁有博士學位的的Dr.嘴叔在此認定,高委員的確就是大
數據專家,僅代表個人想法,Dr.嘴叔只是一位看數據說話的小宅男,請勿肉搜。