「生技與資工的親密關係 – 跨領域產學見聞」: 統計與生醫科技
統計學,過去較少受到重視,在後基因體時代它將對未來的產學界
帶來什麼?
“對當今畢業生的一個字:統計”(For today’s graduate, just one
word: statistics)是 2009 年刊登於紐約時報的一篇文章。文章內提
到統計這個專業在學術上及職場上的重要性,甚至引用 Google 首席經
濟學家 Hal Varian 的話,「我不斷強調未來十年最性感的職業將是統
計學家,而且我不是在開玩笑。」(I keep saying the sexy job in
the next 10 years will be statistician. And I am not kidding.)
下一世代的職場對統計學家的需求源於資料量的爆炸,當資料的規模大
量膨脹,肉眼的觀察,或所謂的 Eyeball test 可能就不敷所需。舉一
個例子,在駭客任務(Matrix)裡的尼歐(Neo) 可以直接將透視那些
綠綠的符碼成實體,但一般的凡夫俗子如坐在主機艙的 operator ,所
面對的螢幕有無數的資料流動,相信他需要很好的軟體來分析歸納這個
龐大的資料,統計推論(statistical inference )即是分析資料重要
的基礎。
在台灣求學時,曾遇到很好的統計老師(蕭朱杏教授),但礙於課程的
結構設計,能汲取的知識相當有限。另外,統計系所在台灣的大學並不
普及,也反映出這個學門所受到的冷落。然而統計這個專業在過去較少
被重視的現象並非只發生在台灣,事實上在美國亦是如此。在美國高中
有所謂的大學先修課程(Advanced Placement),在高中時代所修的先
修課程學分對申請大學有幫助,也可以抵掉部份大學入門課程。先修課
程中與計量科學相關的有微積分及統計,但是美國的學生,包括不少我
的導生都認為,微積分是比較有趣的,而統計相對比較乏味,或者是次
等於微積分的一門學問。
既然統計有市場的需要,為何在教育上較少被重視呢?統計包含了最理
論的數理統計及最應用的資料分析,著重數理統計的研究及教育可能存
在於數學系,著重資料分析的則散布於其應用的學科,如流行病學、演
化學、農學院、金融或經濟學。另外一個有趣的思考是,與統計有著姊
妹關係的學門是資訊工程裡的機器學習(Machine learning)。美國著
名的統計學家 Robert Tibshirani 曾做了一個表格比較這兩門學問,
從這個比較裡觀察到的是工程師使用的名詞都比較酷、比較生動,而統
計學家的使用的名詞都相當枯燥,例如,統計學家建構統計模型時說他
們在 Regression(迴歸,英文又叫退化!),而工程師說他們在
Learning(學習!)。這項差異也反映在它們在生醫科學上的應用,生
物資訊(Bioinformatics)及生物統計 (Biostatistics)。前者通常是
酷炫實用的演算法,而後者常是艱澀的公式推導。能樂見的是隨著後基
因體時代的來臨,兩個領域的對話越來越多,區隔應該也會越來越不明
顯。
總結來說,統計是門可以跨許多領域的學問,但它缺乏亮麗的光鮮外表,
過去也較少被重視。但資料的大量累積已經讓統計學越發重要,就生醫
領域來說,舉凡生物資訊、臨床試驗、生態演化、流行病學,都需要統
計學。在資源相對缺乏的時代,在我們投注大量資金生產更多生醫資料
的同時,或許也該想想如何用更好的分析,在已公開分享的資料庫中挖
取更多有用的知識。後者的金錢投資相對是較少的,更需要的是人才,
這應該是台灣較豐沛的資源。