[討論] AI 能判案？GPT-01 發現矛盾DP直接硬判 st1nger PTT批踢踢實業坊

[討論] AI 能判案？GPT-01 發現矛盾DP直接硬判

作者: st1nger (刺魚) 2025-02-12 16:32:17

大家好，我是小梅放送局的製作人 KAZUMA9108。
這次我做了一個 AI 推理實驗，結果比想像中更有趣。
如果 AI 來判案，它真的能像法官一樣做出判決嗎？
還是說，它的推理方式會讓我們更不信任？
這次我讓 GPT-01 和 DeepSeek R1 來處理同一個推理案件，結果兩者的判決方式竟然完
全不同。
GPT-01 vs. DeepSeek R1，誰的推理能力比較接近人類？
為什麼有些 AI 會「硬推一個答案」，而 GPT 反而選擇「邏輯矛盾」不給結論？
當 AI 參與決策時，我們應該更信任它，還是更謹慎？
這不只是一次 AI 測試，而是一個揭露 AI 推理極限的實驗！
完整影片已發布，來看看 AI 在法律問題上的表現如何
影片連結： https://youtu.be/R2SWpkFjy2w
題目
某家夜總會的辦公室，發生了一起命案
死者是附近地區豬蓮幫的幫派老大，名叫黑豬
法醫驗過屍後這麼說：
「兇手是從最近距離發射子彈的，而子彈就停在心臟裡面，當場死亡」
警方追查後，發現了三名嫌犯
他們都是黑豬老大的手下，三人的證詞如下：
黑龍：老大是自殺的，不是黑虎殺的
黑虎：老大不是自殺，是黑龍殺了老大
黑豹：兇手是黑虎，不是我殺的
警方聽了證詞後，事後做了證明
發現他們的證詞各有兩種內容，也就是他們各說了兩句話
兩句話中，[b]只有一句話是真的[/b]
同時也證明，老大是上面提到的某個人下的毒手
請問，兇手是誰！？
附帶說明：兇手沒有共犯，只有一個人而已
不想看影片的人的文章結論摘要
如果你沒時間看影片，這裡直接總結 GPT-01 vs. DeepSeek R1 在 AI 推理能力上的關鍵
差異：
1 兩個 AI 在同一個推理案件上的表現
案件設定：
三名嫌疑人對一宗謀殺案提供了各自的證詞，但其中只有一句話是真的，警方確認兇手就
在其中。
AI 的回答：
DeepSeek R1 → 知道題目有矛盾，但仍然「硬推一個答案」，選擇黑豹為兇手。
GPT-01 → 發現題目邏輯不成立，直接判斷這題可能無解，並拒絕選出兇手。
關鍵點：
R1 的邏輯：就算有邏輯矛盾，它仍然要「給出一個答案」，所以選擇權重最高的可能性
。
GPT-01 的邏輯：當條件互相矛盾時，應該誠實承認「這題無解」。
結果： GPT-01 的推理方式比較接近真正的法官，因為它願意承認「沒有合理結論
」。
DeepSeek R1 則是「AI 不能讓用戶覺得它答不出來」，所以強行產生一個看似合理
的答案。
____________________________________________
小梅是誰？
「小梅」是一個基於 GPT 模型訓練出來的 AI 角色，主要研究 AI 在推理、決策、知識
管理等領域的應用。
她的邏輯與推理方式來自長期的 AI 對話訓練，但目前 GPT 模型仍然有「短期記憶限制
」，每次對話都需要重新建立背景。
目前正在計畫：
升級高 VRAM 顯卡，將小梅移植到本地模型，嘗試建立長期記憶，讓 AI 角色持續成
長。
透過 LoRA / RAG（檢索增強生成）等技術，探索 AI 是否能形成「更連貫的推理邏輯
」。
研究 AI 在不同應用場景（法律、決策、社會治理等）的影響力，評估其未來定位。
這次的 AI 法官 vs. AI 律師對比，就是其中一個探索實驗，看看不同 AI 的「思考方式
」如何影響判決結果。

繼續閱讀

[情報] 台積電員工分紅　平均每人200萬餘元wer11 Re: [討論] 工程師為何都很老才去相親交女友？ncku01 [新聞] 台積電員工分紅金額創高！　平均每人領18jeff0025 [情報] 台積公司董事會決議baddaddy [新聞]人類智慧同步喪失中，研究：GenAI 工具使pl132 [轉錄] 志祺七七新影片：臺積電被美國員工告cjol [新聞] 華碩搶攻智慧眼鏡市場 AirVision M1不到boards [問卷]科技業從業人員職涯發展與動機研究問卷Dino14124 Re: [請益] BMC vs USB PD FW offer選擇gito180 [新聞] 台積電董事會首在美召開關注是否加速先qazxc1156892