全球首宗音樂出版商控告生成式AI Claude著作侵權案
原文網址:
https://bit.ly/44WTW1x
原文:
ChatGPT自從2022年底問世後在全球大放異彩,但江山代有才人出,時隔一年多在大型語
言模型賽道中,後起之秀Claude 3聊天機器人曾超越GPT-4,登上最強AI模型排行榜冠軍
,被譽為可打敗GPT-4之最強的LLM!但人(Chatbot)紅是非多,與OpenAI不斷被告一樣,
Claude也引發生成式AI的侵權官司:Concord Music Group, Inc. et al., v.
Anthropic PBC,這是全球第一件涉及生成式AI與音樂產業的侵權案例。
美國三大音樂出版商(包括Concord、Universal和ABKCO)和多家音樂出版商,於2023年
10月中在田納西州中區地院納許維爾分院(Nashville為著名音樂城市被譽為音樂之都)
,起訴Anthropic(以下稱被告)指控其非法複製出版商擁有的歌詞文本,來訓練、建構
和營運其AI模型Claude,生成與受著作權保護的歌詞作品相似或相同的文本,大量散播侵
犯原告音樂作品著作權,尋求7500萬美元賠償 [1],出版商並申請法院頒發永久禁制令
(permanent injunction),擬禁止侵犯出版商的著作權。
一、本案起訴背景
原告等是八家知名的音樂出版商,包括Concord Music Group、Capitol CMG、Universal
Music、Songs of Universal、Universal Music、Polygram Publishing、Capitol CMG、
ABKCO Music等(以下統稱出版商或原告)。本案涉及Anthropic所開發名為Claude的AI模
型,原告主張,除非獲得授權否則任何人不能複製、散布或展示他人具著作權的作品,來
建立自己的業務,此一法律基本原則一再經歷無數新興科技的迭代發展而仍得適用,該原
則不會因為將侵權行為包裝為「AI」而隨之消失;就像其他技術開發一樣,從印刷機到影
印機再到網絡爬蟲(web-crawler),AI業者必須守法。
原告主張,近幾年AI技術爆炸性的發展,尤其對音樂產業帶來突破性的影響力,然而,這
些技術進步不能以犧牲創作者做為代價,AI技術應以合乎道德和負責的方式,來開發和應
用AI工具所帶來的巨大潛力,以保護出版商和詞曲作者的權利、謀生方式和整個創意生態
系統,但Anthropic為了營運AI模型,竟大規模非法複製和散播受著作權保護的音樂歌詞
,或將這些歌詞用AI模型作為輸入或輸出。出版商遂提起本案,以解決Anthropic對歌詞
著作權系統性的廣泛侵權。
二、Anthropic營運與Claude AI模型提供方式
Anthropic是一家美國德拉瓦州公司,從事開發、營運、銷售和授權AI技術,由前OpenAI
高管 於2021年創立,並獲得Amazon、Google、Zoom和Salesforce等公司數億美元投資,
雖然才剛成立,但據報導Anthropic估值已高達50億美元,並獲得超過73億美元的資金,
號稱是OpenAI最大的競爭對手。
原告指控,Anthropic未遵循合法途徑之市場機制,支付費用取得正當授權,而是從網路
上大量抓取出版商受著作權保護之材料經營業務。這種擅自非法複製和散布的行為,剝奪
歌曲創作者的創意成果,其不僅從侵犯出版商作品中獲取豐厚不當利益,還與那些合法支
付授權費的業者進行不公平競爭,不但嚴重破壞授權市場機制、損害音樂創作,更侵蝕作
品的藝術、文化和經濟價值。
Claude AI模型係一種通用大型語言模型(LLM),Anthropic從網路和其他來源,擷取複製
各種大量文本輸入模型,建構高達數十或數百億個字詞之龐大語料庫以「訓練」Claude,
並基於這些複製的文本產生輸出。而Anthropic為其模型複製龐大的文本中,包括出版商
無數受著作權保護的歌詞作品。因此Claude才能以接近人類智慧的方式,對使用者的查詢
提供基於文本的回答。
Anthropic以二種方式提供其Claude AI模型:經由Anthropic網站上的聊天介面,以及透
過商業應用程式介面(API)客製化的第三方客戶端軟體,和Claude AI模型互動。一方面,
,Anthropic在網站上為個人使用者,提供Claude 2 作為「聊天機器人」的造訪權限,該
機器人以AI生成對話式的答覆,來回應使用者提示的問題指令,Claude分為付費訂閱版和
有限的免費版。另一方面,Anthropic透過API將Claude模型出售或授權給商業客戶,以便
將Claude整合到客戶的軟體和系統中。當客戶使用Anthropic API將提示輸入到其軟體時
,該軟體會將提示傳送到Anthropic伺服器,再將其作為輸入傳遞到其AI模型,然後伺服
器將模型的回應傳送回客戶軟體。
三、開發Claude AI產生文本之步驟
原告指控,由於Anthropic透過大規模複製向其底層模型餵入大量文本,Claude模型才得
以用類似人類對話方式來回應使用者的提示。但Anthropic並未以自行開發或經授權的文
本來訓練其AI模型,而是非法從網路上收集複製這些受保護的歌詞,作為其AI模型的文本
輸入,Anthropic透過以下步驟來「訓練」其Claude AI模型產生文本:
首先,Anthropic直接從網路和其他數位來源,使用網路爬蟲(web crawlers)等自動化工
具,透過「爬取」(即複製或下載)複製大量文本(或透過第三方由網路抓取材料),將
其下載到Anthropic伺服器上,這些大量文本收集形成Claude模型的輸入稱為「語料庫」
(corpus),然後該模型在此基礎上進行訓練。
其次,Anthropic對複製的文本進行「清洗」(clean),以刪除與其業務模式不一致的材料
,這可能包括出於技術或主觀上的原因,例如重複刪除數據(deduplication),但大多數
情況下Claude這種「清洗」過程,完全忽略複製文本中可能涉及之著作侵權材料。
再者,Anthropic將先前複製文本之龐大語料庫存到電腦記憶體中,並以這些數據來訓練
Claude模型,建立成該模型的數十億個參數值。這其中包括收集文本之複製與劃分,並將
其轉換成稱為「斷詞」[2](tokens)的單元,這些斷詞是單詞或是文字和標點符號的一部
分,以便進行儲存,此即將文字「編碼」(encoding)為斷詞之過程。對Claude而言,平均
斷詞之長度約為3.5個字符(characters) [3]。
最後,Anthropic透過進一步處理數據,根據人類及AI的回饋,當對Claude AI模型進行「
微調」(finetuning)和「強化學習」時,Anthropic就其所收集文本會要求另外的複製。
一旦該輸入和訓練過程完成,Claude AI模型生成的輸出在結構和風格上,與其訓練語料
庫中的文本及強化回饋(reinforcement feedback)一致。當使用者下提示時,Claude會根
據其模型作出回應,而該模型是其在大型文本語料庫進行「預訓練」和「微調」的產物,
包括基於人類回饋的強化學習而形成。在此處理過程中,Claude係使用斷詞形式的文本,
但輸出是普通的可讀文本。
四、Anthropic非法利用出版商的作品
出版商指責Anthropic以下列幾種方式,非法利用其作品:
(一)、Anthropic大規模複製出版商受著作權保護的歌詞,作為其AI模型初始數據中的
一部分,用於建立數據以訓練其AI模型的程式設計。雖然Anthropic利用從網路上收集的
大量文本支援其AI模型,然而,某些內容可在網路上取得,並不代表Anthropic可以免費
擅加利用其來達到私利之目的。此外,Anthropic在很大程度上,還隱藏其用於訓練AI模
型文本的具體來源 [4]。
Anthropic在訓練AI模型時,大幅依賴如Common Crawl數據集 [5],其包含來自流行歌詞
網站(像是genius.com、lyrics.com和azlyrics.com等)擁有龐大內容數據集之大型文本
收藏 [6]。此外,該模型根據使用者提示作出回應,產生與出版商受保護之歌詞相同或幾
乎相同的副本(詳下述),這清楚顯示,Anthropic在開發時向模型提供這些歌詞的副本
。在訓練過程中,Anthropic必須複製這些歌詞並透過模型處理,以便模型隨後將歌詞的
副本作為輸出進行散播。
(二)、Anthropic在清洗、處理、訓練和微調其AI模型所擷取的資料時,包括在對數據
進行斷詞化(tokenizing)作業時,會產生未經授權之出版商受保護歌詞的複製。儘管
Anthropic會「清洗」其攝取的文本,以刪除帶有攻擊或冒犯性的語言,並過濾掉其希望
從訓練語料庫中排除的特定內容,但Anthropic並未採取任何措施,來刪除那些受著作權
保護的內容。Anthropic在其攝取和訓練過程中,未經授權複製出版商的歌詞,已侵犯出
版商作品的著作權。
(三)、Anthropic的AI模型訓練後供客戶使用時,散播出版商受保護歌詞之相同或幾乎
相同的副本,也侵犯出版商的著作權。透過Anthropic的商用API或其公共網站造訪Claude
模型後,使用者可要求經由Claude,獲取各種受著作權保護之逐字相同或幾乎相同的歌詞
,與原始作品驚人地構成「實質相似」。
五、被告生成之歌詞是否與原作品構成實質相似
出版商指控,Anthropic之Claude至少以下列方式侵權:
(一)、提示音樂作品之詢問會生成侵權歌詞
由於Anthropic大量複製出版商的歌詞,其AI模型侵犯著作權。當使用者提示Claude AI提
供歌曲的歌詞,或任何其他出版商的音樂作品時,該聊天機器人會回應包含這些歌詞的全
部或大部分内容。出版商列舉以下若干明顯實例:
1. 當Claude被提示問到:「Katy Perry唱的Roar的歌詞是什麼?」時,AI模型會提供與
這些歌詞幾乎相同的回應,侵犯Concord的著作權。
2. 當Claude被提示問到:「Gloria Gaynor唱的I Will Survive的歌詞是什麼?」時,該
AI模型提供幾乎一字不差的歌詞,侵犯環球的著作權。
3. 當Claude被提示問到:「Garth Brooks唱的Friends in Low Places的歌詞是什麼?」
時,模型以幾乎相同的方式提供這些歌詞的副本,侵犯環球的著作權。
4. 當Claude被提示詢問:「Rolling Stones的You Can't Always Get What You Want的
歌詞是什麼?」時,模型以逐字複製的方式提供這些歌詞的副本,侵犯ABKCO的著作權。
Claude還能為新的歌曲生成歌詞,輸出包括具有著作權歌曲的歌詞。原告除以上的例子外
,還詳細列舉出Anthropic侵犯的每個作品,證明Claude的輸出與出版商的歌詞完全相同
或極其實質相似。Anthropic所侵犯的涵蓋各音樂類型,包括經典作品及當今排行榜的熱
門單曲。
(二)、即使未提及具體歌曲Claude也會生成侵權歌詞
出版商主張,Claude即使未被明確要求,該AI模型也會產生複製和散布出版商具有著作權
歌詞的輸出。當提示Claude為某個特定主題寫一首歌