声明:本文来自于微信公众号 硅星人Pro,作者:黄小艺,授权站長之家转载发布。
AI大模型的秘密配方是什麽?答案可能很簡單:海量的“盜版內容”。
這幾乎是行業內公開的秘密。2023年,《紐約時報》一紙訴狀將OpenAI和微軟告上法庭,正式拉開了這場戰爭的序幕。很快,戰火燒遍了整個矽谷。Meta因其Llama模型涉嫌使用盜版書籍而面臨集體訴訟;Anthropic同樣因其模型Claude的訓練數據而被告,一時間,幾乎所有頭部玩家都被推上了被告席。
这场大模型与版權方的核心争议是:在未经授权的情况下,将海量的受版權保护作品用作AI訓練數據,究竟是合法的“变革性使用”,还是“侵权盗用”?
在衆多懸而未決的案件中,進展最快是Anthropic案,在2025年6月的裏程碑式裁決中,法院給出了一個極其重要的參考信號:模型训练这一行为本身,因其能够创造出功能完全不同的新事物,具有高度的“变革性”,可能不构成侵权;然而,获取訓練數據的方式,如果涉及盗版网站或未经授权的复制,则几乎无法被“合理使用”原则所豁免。
根據計算,Anthropic或將因此面臨著7500億美元的天價訴訟賠款。這個信號,讓所有AI公司都捏了一把汗。大模型廠商們“先汙染,後治理”的野蠻生長,或許要到頭了。
大模型的N種數據“盜取”路徑
爲了滿足無止境的數據需求,各大模型廠商各自走出了一條充滿爭議甚至堪稱“腦洞大開”的野路子,每一種都遊走在法律邊緣。
一、從公開抓取到蓄意“清洗”
这是AI数据积累最原始、最普遍的方式。AI公司利用强大的网络爬虫,像撒下一张覆盖全球互联网的巨网,不加区分地将新闻网站、专业博客、学术论坛、社交媒体上的公开内容尽数捕捞,构建起初期的訓練數據集。
例如,OpenAI在構建其著名的WebText数据集时,就抓取了社交新闻网站Reddit上用户分享的数百万个外部链接,间接将海量受版權保护的内容纳入囊中,《纽约时报》的文章赫然在列。
除了抓取,更致命的是清洗行爲。
在《纽约时报》和Daily News等媒体的诉讼中,原告指出,OpenAI在抓取新闻内容时,主动并系统性地移除了版權声明、作者署名、页脚等关键的版權管理信息(CMI)。這一行爲被判定爲數據獲取行爲的性質發生了根本性的轉變——從可能無意的“順手牽羊”,升級爲具有明確規避意圖的“數據清洗”。
二、格式轉換:從視頻和紙書中提取文本
隨著高質量的公開文本數據日益枯竭,廠商們將目光投向了其他格式的內容載體,通過技術手段,將其轉換爲可供模型訓練的純文本,這種做法更爲隱蔽。
一种典型手法是OpenAI对其语音识别工具Whisper的“妙用”。据称,OpenAI利用Whisper转录了超过一百万小时的YouTube视频内容。这意味着,无论是深度访谈、专业课程还是纪录片解说,这些视频中最核心的“语言资产”,在未经视频创作者许可的情况下,被悄然提取出来,直接“喂”给了GPT-4,绕过了视频本身的视听版權。
Anthropic也采用了一种戏剧性的手法。在意识到直接使用盗版书库的巨大法律风险后,Anthropic专门聘请了前谷歌图书扫描项目的负责人Tom Turvey,启动了一项成本高昂、操作复杂的“物理世界洗白计划”:
第一步,批量采購:斥巨資從圖書分銷商和零售商處,購買數百萬本紙質書,其中不乏二手書。
第二步,物理轉化:將這些書運至服務商處,由機器拆掉裝訂、裁切書頁,然後逐頁進行高速掃描,生成包含圖像和可機讀文本的PDF數字文件。
第三步,銷毀原件:掃描完成後,紙質原件被直接丟棄。此舉的核心目的,是在法律上論證這是一種“格式轉換”,而非創造了“額外的副本”,從而規避侵權指控。
第四步,數據建庫:为这些数字化的图书建立详细的书目信息数据库,并进行分词、清理等一系列复杂的预处理,最终形成一个来源上看似“合法”的高质量訓練數據集。
但這一行爲,恰恰證明了:第一,AI公司已充分认识到高质量数据的版權价值;第二,获取合规数据的成本,远比想象中要惊人得多。
三、“影子圖書館”
在爭分奪秒的技術競賽和巨大的性能壓力下,部分公司選擇了一條最高效,也最高風險的捷徑——直接擁抱明確的盜版資源庫。
Meta在训练其开源模型Llama时,就被直接指控使用了来自“影子图书馆”(如Library Genesis、Books3)的非法书籍副本。无独有偶,Anthropic的内部文件也显示,其联合创始人在公司创立初期,就下载了包含近20万本书的盗版库Books3,并对这些资源的盗版性质心知肚明。
四、平台借助隱私協議獲取數據
與上述幾種“硬核”盜版方式不同,巨頭們展示了一種更具平台特色的“陽謀”。它不依賴于外部抓取或盜版,而是利用其龐大的用戶生態系統,通過服務條款來“合法”地將用戶數據內化爲自己的訓練資源。
谷歌的隐私政策中,明确表示可能会使用用户公开分享的信息来训练其AI模型。这意味着,当一个普通用户在Google Docs上协作一份文档,在Google Maps上写下一段评论,或是在Blogger上发布一篇文章时,这些内容都可能在用户不经意间,被纳入谷歌的AI訓練數據池,由此谷歌也构建起了一道竞争对手难以逾越的数据护城河。
這些五花八門、遊走在法律邊緣的數據獲取方式,顯示出在AI發展的“圈地”階段,大模型們都在以最低的成本、最快的速度,獲取最大规模的数据,数据来源的合规风险置于次要位置。然而,版權方的一系列诉讼彻底打破了这种默契,他们将攻击焦点精准地对准了最脆弱的一环:数据的原始获取路径。
一個更昂貴的AI時代來了
AI版權战爭的真正轉折點,是訴訟焦點的變化:不再糾纏AI“如何使用”數據,而是直擊它“從何獲取”數據。
最初,雙方的法律攻防主要圍繞AI“使用”數據的性質展開。
AI公司认为,它们的行为并非传统意义的“复制”,而是“学习”,模型在内化数据中的模式、语法和知识,就像一个学生阅读海量书籍以形成自己的写作风格,其目的是创造全新的东西,因此是一种高度“变革性”的使用。版權方则反驳,AI的商业化产品会直接与原作形成市场竞争,替代用户对新闻订阅和书籍购买的需求,从而损害其核心商业利益。
然而,在这两个战场上,版權方都打得异常艰难。在这种胶着状态下,版權方的诉讼策略发生了一次决定性的转向,他们找到了一个更根本、也更致命的攻击点——数据的来源合法性。
法院的階段性審理,也給出了一個極其微妙且影響深遠的信號:一方面,初步裁決認爲AI的輸出內容和訓練行爲本身,因其“變革性”,或許不構成直接侵權,這在某種程度上爲大模型的發展留下了空間,避免了技術創新被徹底扼殺;但另一方面,法院對“來源合法性”劃出了明確的紅線,嚴厲打擊了使用盜版資源的行爲。
而面對如雪片般飛來的訴訟,大模型廠商中的激進派也在向保守派轉變。
保守派的代表就是蘋果,它從一開始就將用戶隱私和規則置于更重要的位置,甯願在AI競賽中起步較晚,也要通過明確授權許可(如與圖片庫Shutterstock的合作)和自有數據來規避法律風險。
而激進派的Meta和早期的OpenAI,則是信奉“移動快,打破規則”的矽谷信條,將潛在的法律訴訟視爲一種可以計算和承受的商業成本。但在訴訟纏身後,OpenAI迅速轉變爲積極的數據“購買者”,斥巨資與美聯社、金融時報等數十家媒體簽署內容許可協議;Anthropic則上演了從使用盜版書庫,到斥巨資購買、掃描、銷毀實體書的“苦力式洗白”。
這些都意味著,“數據免費”的黃金時代已一去不複返,數據將成爲AI公司財報上一個明確且高昂的成本項。
從整個行業來看,手握優質內容的內容出版商、新聞機構,將從被動的受害者,轉變爲AI産業鏈上遊一個手握籌碼、擁有強大議價權的關鍵參與者;這反過來又會急劇擡高行業的競爭壁壘,擁有強大現金流和頂尖法務團隊的科技巨頭相比AI創業公司將有著更強的競爭優勢。AI行業的競爭,已從單純的算法和算力競賽,擴展到了一場關于數據供應鏈管理、商業談判和法務合規能力的全面戰爭。
當那些充滿爭議的盜版“野路子”被一條條堵死,一個更加昂貴的AI時代,已經來了。
(舉報)