Re: [閒聊] DeepSeek是不是真的很強? arrenwu PTT批踢踢實業坊

Re: [閒聊] DeepSeek是不是真的很強?

作者: arrenwu (鍵盤的戰鬼) 2025-02-01 19:56:52

※ 引述《attacksoil (第三方程式)》之銘言：
: → lanjack: 所以我說我看起來像是openai嗎？人家查出是怎麼偷的也沒 02/01 19:14
: → lanjack: 講，我會通靈是吧？ 02/01 19:14
: → zwxyzxxx: 還有保密文件跟紙糊的一樣,對岸民間的隨便公司都能偷到 02/01 19:14
: 好像真的很多人不知道偷資料是怎麼偷
:
: 稍微說明一下好了如果要偷偷的方法就是花錢用openai 的api 然後用他產生qa pairs
: 來做測試資料集
:
: 看起來跟正常使用差不多真的沒那麼好抓也跟傳統意義上的資安沒有關係
: 推 Peurintesa: 確實畢竟openai都沒版權意識了== 02/01 19:15
: 推 ZMTL: 其實OpenAI研發副總也在推特上稱讚DS的模型蒸餾，所以OpenAI 02/01 19:15
: → ZMTL: 「指責」DS偷我蠻好奇出自哪裡的 02/01 19:15
: → ZMTL: 然後如果模型蒸餾侵權能被搞成，OpenAI比較需要擔心他們被美 02/01 19:16
: → ZMTL: 國一堆出版社告偷資料訓練模型會不會成 02/01 19:16
: 他稱讚的模型蒸餾是指拿R3來蒸餾llama3還有qwen吧
: 至於拿openai 的輸出來重新訓練（蒸餾）是否可以告成功我也不清楚但據我所知官方
: 是禁止的但還是有漏洞可鑽 (shareGPT之類的）
一般人心目中的正常訓練大概是這樣
https://i.imgur.com/Ph3DlNC.png
1. 透過網路爬蟲拿到很多資料組
2. 把資料組送到AI架構進行訓練後得到一個LLM
我看到的「偷資料的指控」則是這樣
https://i.imgur.com/OgkvURx.png
1. DS有使用ChatGPT來生成一些回答
2. DS把ChatGPT生成的回答做成新的訓練資料，用在訓練DS上面
所以這裡所謂的「被偷出來的東西」，是那些ChatGPT的回答
...這個是著作權該保護的東西嗎？
那ChatGPT在當網路爬蟲的時候怎麼就很ok？
我記得當初對於網路爬蟲訓練AI最有利的辯護之一是：
如果訓練的資料庫的訓練素材全部都要付錢，
那以後訓練模型就只有超有錢的集團能做，其他人都吃屎。
這類精神也能用在DS上吧？

作者: Peurintesa (芙琳泰沙) 2025-02-01 19:58:00

我在想openai嘗試用它被告的經驗拿來告別人試試看吧==

作者: lianginptt (我要發了) 2025-02-01 19:59:00

不管啦！阿共就是只會偷，不偷就不是阿共了！

作者: Richun (解放左手的OO之力) 2025-02-01 20:00:00

照那個偷資料的指控來看，OpenAI可以告一堆模型了。

作者: spfy (spfy) 2025-02-01 20:00:00

其實這串後來還在推文的都比較認真討論了就算只是想酸也會找一些論點能反串這麼多篇也是辛苦了欸

作者: attacksoil (擊壤) 2025-02-01 20:02:00

我也覺得沒道德瑕疵但openai 的policy 就是禁止有沒有告成功過不知道https://i.imgur.com/gLWH1Wf.jpeg

作者: SRNOB (SRNOB) 2025-02-01 20:05:00

誰管你closeAI 商用當然被告到死人家開源有金身