→ birdy590: 以後會變成協助醫師做出判斷的好工具~ 119.14.42.10 12/14 17:58
推 widec: 當然主要就輔助醫師,AI比人類更細心 1.165.15.7 12/14 18:00
→ widec: 只是相對的人類會變懶,AI出錯時人類會忽視 1.165.15.7 12/14 18:00
→ xbearboy: 然後診斷出包看要甩鍋那邊了118.161.218.228 12/14 18:01
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
Large Language Model Influence on Diagnostic Reasoning:
A Randomized Clinical Trial
今年10/28 史丹佛大學醫學院發表的研究 下面提到的數字都是用中位數
找來24位住院醫師(正式菜鳥,助理教授的概念),26位主治醫師(封頂,教授概念)
行醫年數是三年
使用過去已經確定病因的病例給他們診斷
1:1 隨機分配給兩組,一組使用傳統的診療方式,另一組使用傳統加上GPT4(付費plus)
傳統診斷組的正確率是73.7% (IQR 63-84%),每個個案耗時565秒
傳統診斷搭配GPT4的正確率是76.3% (IQR 66-87%),每個個案耗時519秒
這樣使用AI輔助只增加 2.6%準確率??? 跟節省82秒
p只有0.2根本沒差。吹那麼大的AI 花那麼多資源跟電費的成效只有這樣?????
→ jovi8401: 人看錯的機會比較大 61.64.6.63 12/14 18:55
你是對的
因為如果只有GPT的話,正確率是92% (IQR 82-97%)
跟只用傳統方法的相比p=0.03 有顯著差異
耗時....沒看到 大概很傷人
因此史丹佛這篇的最後結論是 醫師跟AI之間要發展新的信任關係才對
另外各大醫院開始買H200,自己煉丹過去收集的病例成ai資料庫不要太意外