※ [本文轉錄自 Statistics 看板 #1PWVY5Mo ]
作者: lsshno1 ( ) 看板: Statistics
標題: [分享] Statistics Programming in CRO
時間: Thu Aug 3 00:06:22 2017
在統計版/生科產業板受過很多前輩的幫忙, 該是時候回報大家一下了,
也許在這個畢業季節可以對大家有一些幫助.
我先提一下我的經歷, 大學主修統計, 研究所是公衛所生物統計組畢業.
服役後, 進入了外商CRO的統計程式設計部門服務(Statistical Programming)
將近五年的時間.
此篇文章會有比較多的英文縮寫, 我會盡量一起解釋其含義,
但有些比較困難翻譯, 請多多包涵.
CRO是Contract Research Organization的縮寫, 如同字面的定義,
接受藥廠的委託並提供新藥開發時臨床試驗的專業服務.
流程從開site, 收案, 數據分析到最後協助藥廠進行
FDA(美國食藥署)的新藥送審(submission).
統計程式設計部門(Statistical Programming),
顧名思義就是將個案所搜集的資料, 依據計畫書(Protocol),
SAP及Mock-up Shell進行統計程式分析, 最後產出統計報表(TFL).
Protocol指的就是每一個臨床試驗的計畫書,
裡面會有整個臨床試驗應該如何收案, 分析的所有細節.
SAP指的是Statistical Analysis Plan, 通常是計畫書中關於統計分析及報表的章節,
裡面會有關於統計分析所有的資訊.
Mock-up Shell比較難解釋, 有點像空白的統計報表, 你要根據Mock-up Shell的範例,
依照你計畫的SAP及資料產出一樣的統計報表.
TFL(或TLF)其實是三種統計報表的縮寫, 分別是Table, Figure及Listing.
也有公司稱作TGL - G為Graph的簡稱.
一般來說區分TFL可以用下列方式理解 -
Table是指將資料做過處理, 例如個數, 加總, 改變值, 差異百分比, 信賴區間,
存活分析, Odds Ratio等等的結果.
Listing是直接將資料呈現出來, 通常不做任何處理.
Figure或Graph, 就是將資料利用圖表的方式呈現出.
提完了基本架構, 我來稍微解釋一下data flow和我們的日常工作.
通常Protocol出來後, 會設計CRF (Case Report Form, 裡面就像問卷一樣,
會詳細的記載所有需要搜集的問題, 從身高體重, 用藥時間, 不良事件反映等等),
填入CRF的資料接著進到資料庫 (順道一提, 資料庫也有很多不同的架構),
資料被DB programmer (Database Programmer, 也有公司稱作DM - Data Manager)
整理後, 會轉給統計分析部門做進一步處理.
接著, 我們便會依照SDTMIG (Study Data Tabulation Model Implementation Guide,
此準則由CDISC所建立, 其宗旨是希望建立一個一致的資料格式, 以方便FDA統一審驗,
可以參考這個網址有更詳細的說明,
https://www.cdisc.org/standards/foundational/sdtmig)產出SDTM資料集.
產出SDTM資料集後,
繼續根據ADaMIG (Analysis Data Model Implementation Guide,
同樣此準則由CDISC所建立, 但發展沒有SDTM來得完整, 目前還在慢慢增加中,
也可以參考CDISC的網站(網址太長, 自行google即可)
產出ADaM資料集.
當然, SDTM及ADaM資料集都要先寫好specification, 裡面會清楚定義每一個變量的名稱,
長度, Format及如何產出這個變量的敘述等等. 當然, 在寫SDTM或ADaM spec的時候,
一定會參考各個計畫的SAP及Mock-up Shell來處理各個變量.
因為我們通常會希望在最後的TFL的時候, 不會有太大量的計算.
我們會儘量把比較複雜的運算放在ADaM資料集中
(例如缺失值的差補, 天數計算, 改變值等等)
經過千辛萬苦, 我們便可以開始進行TFL的產出了. 通常根據專案的進行,
會有不同的delivery, 每次交的數量也會根據性質差異很大,
例如期中分析可能主要看一下安全性, 少許的有效性.
但是在最後的CSR (Clinical Study Report)中, 數量可能會到上百張之多.
工作實際操作內容部分, 基本上根據每家公司會有很大的出入,
我就先以我的經驗來分享一下, 大家可以參考看看.
統計軟體使用的是SAS, 主要是由於FDA的關係, 因此基本上這個產業都是使用SAS.
但FDA在前陣子有提到可以使用R做submission. 其他會用到R的時候,
有可能是SAP中的統計方法現在SAS還沒有proc, 只能先使用R的package作分析.
SDTM/ADaM spec都是要經過QC(Quality Control)的, 也就是一位同事寫,
另一位同事做檢查. SDTM/ADaM/TFL的資料集, 都要經過double programming處理,
所謂double programming指的是, 兩位同事在根據同一份spec的情況下,
獨立完成資料集的編寫, 並兩者的數值要完全一樣方可叫做passed QC.
當passed QC後, 我們會將資料集或TFL的結果, 給統計師(biostatistician)做QC.
一般來說統計師會自己編寫程式來檢查報告中比較重要的部分, 例如有效性的結果.
當統計師沒有進一步的問題後, 這次的報告就可以準備交給Sponsor(藥廠)了.
當然Sponsor也會有對應的員工來檢查我們交出去的結果,
如果我們對於定義有歧異的時候, 我們就會需要很大量的信件來往或直接線上開會的需
要了.
拉拉匝匝說了很多, 有很多東西可能要真正進到這個產業才會知道,
但是我總覺得在生技版上, 大家提的比較多可能都偏重在臨床方面, 例如CRA等等.
其實Programming/Biostatistis的需求不管在台灣或者是中國都是非常大的.
希望藉由我一點點的經驗分享可以讓大家一起進入這個發展越來越蓬勃的產業.
如果文章有不足的地方, 還請各位前輩補充指教的.
有什麼問題都歡迎提問, 我有時間也會盡量回答大家的.