21世纪经济报道记者 肖潇 实习生 刘欣 北京报道
OpenAI到底有没有“偷用”谷歌旗下的YouTube视频训练AI,这场无止尽的猜疑游戏可能终于要结束了。
当地时间8月2日,一位YouTube主播代表在美国加利福尼亚州北区地方法院正式递交了集体诉讼文件,指控OpenAI擅自转录了数百万个YouTube 视频来训练大模型,目前有超过100人参与该集体诉讼。截至发稿,OpenAI对该集体诉讼没有发表回应。
起诉书写道,创作者们拥有YouTube视频的所有权,OpenAI的行为违反了YouTube的平台条款,并且从创作者们的损失中获得了不正当利益,要求OpenAI赔偿超过500万美元。
YouTube作为全球最大视频网站,早就禁止了抓取视频,甚至连视频商业下载、批量下载都有严格限制。谷歌发言人Matt Bryant曾公开评论,谷歌的服务条款和 robots.txt文件(一种网页文件,告诉爬虫哪些内容不能抓取),明确禁止了未经授权抓取YouTube 内容。谷歌在有明确的法律或技术依据的情况下,会采取“技术和法律措施”来防止此类使用。
尽管有严格的警戒线,但不妨碍YouTube作为数据“金矿”的诱惑力,尤其是在AI训练数据匮乏的情况下。人工智能研究机构Epoch曾预测,高质量的语言训练数据集将在2026年耗尽,业内普遍认为文本、视觉、听觉等结合的数据集能弥补AI训练数据匮乏的问题。
过去半年中,OpenAI就一直深陷在“偷用”YouTube视频的争议漩涡里:今年4月,《纽约时报》发文指出,OpenAI在2021年耗尽了所有文本类训练数据,转而开发文转音的大模型Whisper,以此把YouTube的视频、播客等影像数据转录成文字,进而继续优化大模型。
半个月前,媒体又发现多家AI公司在训练中都使用了名叫the Pile的开源数据集,其中一个子集叫作“YouTube Subtitles(YouTube字幕)”。该数据集由纯文本组成,主要是视频里的文字简介和YouTube自动转录的文字字幕,覆盖了17.35万个YouTube视频,超过4.8个频道。
非营利组织 EleutherAI 是the Pile的创建者,初衷是为了降低巨头之外的普通开发者们训练AI的门槛。但讽刺的是,OpenAI、英伟达、苹果、Anthropic等巨头都在自己的研究论文中详细描述了如何使用the Pile的数据训练AI。
不过,OpenAI 高管始终拒绝正面回答,是否使用 YouTube 视频来训练自家的AI 产品——尤其是训练 Sora。今年年初,OpenAI 首席技术官米拉·穆拉蒂头一次在采访中松口,表示自己“不确定”到底有没有用YouTube视频。
天元律师事务所合伙人李昀锴在此前跟21记者分析,训练素材的版权争议得不到解决,根本难题是技术黑盒。“怎么才能证明大模型到底有没有拿你的素材?去做了哪些训练?”李昀锴表示,在这种情况下,能让平台责任更轻、更稳妥的方案其实就是“闭口不谈”,只要平台不说,创作者就证明不了。对于版权方来说,最大的困难也在于无法举证。
值得注意的是,本次集体诉讼的起诉书中也没有具体说明OpenAI是如何获得和转录YouTube视频的,只提到了《纽约时报》对whisper大模型转录YouTube视频的报道。但一个积极的信号是,更多证据和公司的正面回应会在之后的法律程序中揭示。这次集体诉讼或许能撕开一个口子,把训练数据这一暗角摆在台面上讨论。
海量资讯、精准解读,尽在新浪财经APP责任编辑:郭明煜 杠杆证券利息