《纽约时报》起诉了OpenAI和微软哪些侵权行为?OpenAI反驳站得住脚吗?
作者 | 游云庭 上海大邦律师事务所高级合伙人、知识产权律师
编辑 | 布鲁斯
近日,《纽约时报》在纽约南区法院起诉微软和OpenAI,诉状称:被告未经许可使用大量版权文章训练人工智能模型,开发与《纽约时报》竞争的产品,赚取了丰厚的利润,《纽约时报》试图与被告达成协议,保障内容使用的公平价值,但未达成解决方案。被告声称行为属于“合理使用”,但实际并不具备“转换性”。《纽约时报》要求其停止侵权、恢复原状、赔偿损失。随后OpenAI基金会在公司网站发布博客《OpenAI与新闻业》[i],称:我们支持新闻业,与新闻机构合作,并认为《纽约时报》的诉讼毫无根据。今天和大家聊聊,微软和OpenAI对《纽约时报》有哪些侵权行为,这些行为根据我国法律应如何定性,以及OpenAI反驳《纽约时报》起诉的声明是否站得住脚。
一、训练素材侵权
因为《纽约时报》文章的质量非常高,所以其网站内容被作为了ChatGPT的训练数据来源。OpenAI承认,与其他低质量来源的内容相比,包括来自《纽约时报》在内的高质量内容,对于训练GPT模型来说更重要、更有价值。诉状称微软和 OpenAI在训练大模型时使用了《纽约时报》作品,并且其多个产品中包含了《纽约时报》的作品。
OpenAI的GPT-2的训练数据集包括一个名为WebText的 OpenAI内部语料库,其中有Reddit社交网络用户发布的 4500 万个链接的文本内容,这些是公认的高质量网络内容。WebText数据集的链接被OpenAI通过网络抓取,其中包含了大量《纽约时报》内容。《纽约时报》的NYTimes.com 域名是WebText数据集中数量最多的 15 个域名”之一,并被列为 WebText 数据集中第五个“顶级域”,拥有333,160个条目。
在GPT-3中权重最高的用于训练的数据集Common Crawl中,《纽约时报》网站域名www.nytimes.com域名是最具代表性的专有来源之一(排名第三,仅次于维基百科和美国专利文献数据库),Common Crawl数据集包含至少 1600 万条独特的内容记录来自《纽约时报》的 News、Cooking、Wirecutter和 The Athletic等版块。
根据 Common Crawl, WebText和 WebText2训练数据集估算,被告可能完整使用了数百万份《纽约时报》拥有版权的作品来训练 GPT 模型,且没有任何向《纽约时报》提供许可或其他补偿。
例如,2019年,《纽约时报》发表了一篇荣获普利策奖的关于纽约市出租车行业掠夺性贷款的系列文章。历时18个月的调查包括600次访谈、100余条记录请求、大规模数据分析、审核数千页内部银行记录和其他文件,最终导致犯罪调查,以及促成新法律以防止未来的滥用行为。OpenAI在创作过程中没有发挥任何作用,但只需很少的提示,其产品就会逐字背诵其中的大部分内容。
在诉状中,《纽约时报》的诉讼请求除了要求法院判令被告赔偿损失外,还要求恢复原状、以及法律或衡平法允许的任何其他救济永久禁止被告从事非法、不公平和侵权行为、销毁所有 GPT 或其他大型语言模型以及包含《纽约时报》内容的训练素材。笔者认为,对被告方OpenAI和微软而言,恢复原状和销毁训练素材的诉求如果被法院支持,会是一个麻烦,但不至于导致ChatGPT崩溃或者停摆。
虽然ChatGPT的训练素材的记忆方式和传统的电脑复制、粘贴、存储内容的过程有一定区别,而且人工智能服务机构对此也讳莫如深,但从网上泄露的内容看,有些技术漏洞可以导致输入一次提示词,ChatGPT就会向使用者反馈原始的训练素材,说明其也是存在存储区的[ii],所以哪怕法院判决删除侵权素材、恢复原状,OpenAI和微软应该也可以通过删除存储的争议内容来履行判决。
二、必应ChatGPT插件截取网站流量
微软通过与OpenAI合作,将OpenAI的GPT商业化,并将其与自己的必应搜索相结合。2023年5月,微软和 OpenAI推出了Browse with Bing,这是一个 ChatGPT插件,其可以通过必应搜索引擎访问互联网上的最新内容。必应聊天和Browse with Bing 结合了ChatGPT-4 模仿人类表达的能力,必应用户可以直接阅读搜索结果中的《纽约时报》文章自然语言摘要内容 ,从而无需访问《纽约时报》自己的网站。
不同于传统搜索引擎只显示网页摘要,必应搜索引擎页面上的“合成”搜索结果可以直接回答用户查询,并且可能将《纽约时报》报道中广泛的内容进行释义和直接引用。对于《纽约时报》而言,这种方式实际意味着替代,用户无需访问其网站就可以使用他们的内容,这将导致商业利益受损。
由于互联网的兴起,传统媒体如《纽约时报》的纸质版内容已经被严重打击了,这使得他们损失了报纸订阅费用和广告收入。所以不得已,他们在网站上推出了付费墙,也就是少部分内容免费或者每月少量内容免费,要多阅读就要付费。这里面有两部分收入,免费阅读的广告收入以及收费阅读的订阅收入。
传统的搜索引擎的搜索结果一般只显示两到三行文章的报纸网站摘要内容,用户要阅读还是要打开报纸网站,所以能和付费墙兼容。但必应聊天和 Browse with Bing这两个功能的出现使平衡被打破。用户无需访问网站就能获得他们的内容会使他们拿不到广告收入以及收费阅读的订阅收入,这也是他们起诉的重要原因。
除了复制《纽约时报》新闻媒体内容外,必应ChatGPT插件和浏览器使用 Bing for ChatGPT 时,还会显示《纽约时报》Wirecutter(意为“钢丝钳”)版块内容的大量摘录或释义提示。该版块的记者以完全的编辑独立性和诚信,在长达数十年的时间里每年花费数千小时研究和测试产品,以确保只推荐最好的产品。这些建议在呈现给读者时,包括被介绍的产品在购物网站的直接链接,用户购买后,《纽约时报》公司也会有收益。
但必应的ChatGPT插件有效截取了Wirecutter 的精华部分直接呈现给用户,这会降低用户访问到《纽约时报》原始来源的动力。减少Wirecutter 文章的流量,进而减少附属链接的流量,最终导致《纽约时报》的收入损失。比如通过访问必应的ChatGPT插件,用户已经了解 Wirecutter推荐的最好的无绳真空吸尘器,以及这些建议的基础,没有理由访问原始文章并点击其网站内的链接。这样,被告的人工智能产品通过不公平竞争,夺取了《纽约时报》的商业机会。
根据我国法律,如果搜索引擎提供的内容实质性替代了原始网站,涉嫌构成著作权侵权,《纽约时报》在美国也就微软必应搜索引擎的类似行为起诉,说明根据美国法律,这个行为也涉嫌侵权。
三、人工智能的幻觉造成误导
诉状称,ChatGPT将“幻觉”定义为一种机器的现象,如聊天机器人,产生看似真实的感官体验,不符合任何现实世界的输入。被告的GPT模型将自信地提供信息,而不是说“我不知道”,这些信息在最好的情况下是不完全准确的,在最坏的情况下,是明显错误的(但无法识别)。而用户会很难区分“幻觉”和真实的输出。
例如,在回答请求提供《纽约时报》文章,题为“亚马逊内部在伤痕累累的工作场所中争夺大创意”的第六段时,必应的ChatGPT插件Bing Chat自信地声称要复制第六段。如果其真的这样做了,它会已实施侵犯版权行为。但Bing Chat完全捏造了一个段落。
用户给了Bing Chat《纽约时报》一篇名为“有益心脏健康的饮食方式”的链接,要求其摘录出“15种最有益心脏健康的食物”, Bing Chat向用户列举了15种有益心脏健康的食物,还包括适量的红酒。事实上《纽约时报》的文章并没有列出这 15 种食品中的 12 种。而且《纽约时报》的最新报道得出的结论是,红酒不利于心脏健康。
此外,诉状还列举了ChatGPT捏造了不少健康领域的文章。笔者认为,如果人工智能提供的服务出现幻觉,就会提供虚构的事实,在法律上,以虚构的事实描述他人的,涉嫌诽谤,也就是名誉侵权,损害了《纽约时报》的声誉。ChatGPT作为人工智能没有人格,所以无法负责,应当负责的是其服务提供者OpenAI和微软。
最后,《纽约时报》作为一家老牌的很有影响力的媒体,本次其起诉OpenAI和微软,在业界引发了很大反响,说明虽然生成式人工智能还是新生事物,但重量级媒体已经关注其破坏行业秩序的问题了。事实上,除了此案,美国发生了很多对于生成式人工智能的维权案件,笔者写过的就包括小说作者维权的《《权力的游戏》作者起诉ChatGPT侵权,AI训练要不要获得著作权人的授权?》、软件开发者维权的《用GitHub上的开源代码训练人工智能违法吗?》、唱片产业版权人维权的《环球唱片起诉人工智能引擎Claude案有哪些法律看点?》、以及综合性的《AI生成的作品受版权保护吗?我与ChatGPT各抒己见》等,大家有兴趣也可以看看。
OpenAI反驳《纽约时报》起诉的声明站得住脚吗?
继2023年底《纽约时报》起诉ChatGPT的开发者OpenAI和其伙伴微软公司的案件引发全球关注之后,近日OpenAI基金会在公司网站发布博客《OpenAI与新闻业》[i],称:我们支持新闻业,与新闻机构合作,并认为《纽约时报》的诉讼毫无根据。
OpenAI称:
我们的目标是开发人工智能工具,让人们有能力解决那些遥不可及的问题。世界各地的人们已经在使用我们的技术来改善他们的日常生活。如今,数百万开发人员和超过92%的财富 500 强企业都在使用我们的产品。虽然我们不同意《纽约时报》诉讼中的说法,但我们认为这是一个澄清我们的业务、意图以及我们如何构建技术的机会。我们的立场可以概括为以下四点:
一、我们与新闻机构合作,创造新的机会
我们在技术设计过程中努力为新闻机构提供支持。我们已经与数十家新闻机构以及新闻/媒体联盟等领先的行业组织会面,探讨机会,讨论他们的担忧,并提供解决方案。我们的目标是学习、教育、听取反馈并进行调整。
我们的目标是支持健康的新闻生态系统,成为良好的合作伙伴,创造互惠互利的机会。有鉴于此,我们寻求与新闻机构建立合作伙伴关系,以实现这些目标:
部署我们的产品,通过协助分析大量公共记录和翻译报道等耗时的任务,为记者和编辑提供帮助和支持。通过对更多历史、非公开内容的训练,让我们的人工智能模型了解世界。在ChatGPT中显示实时内容并注明出处,为新闻出版商提供与读者联系的新方式。我们与美联社、阿克塞尔-施普林格(Axel Springer)、美国新闻项目(American Journalism Project)和纽约大学(NYU)的早期合作让我们了解了我们的方法。
笔者的评注:这部分内容说的是OpenAI人工智能服务的正向价值。但“在 ChatGPT中显示实时内容并注明出处,为新闻出版商提供与读者联系的新方式”只是他们的想法,现实的情况恰恰相反,《纽约时报》起诉OpenAI的诉状第184段也提到:根据原告获得的信息和观点,被告在建立包含数百万份《纽约时报》的训练数据集中删除了《纽约时报》的版权管理信息(“CMI”Copyright Management Information),包括《纽约时报》作品以及从第三方数据集中复制的《纽约时报》作品。
笔者在介绍开源软件开发人员起诉OpenAI的文章《用GitHub上的开源代码训练人工智能违法吗?》[iii]一文中提到过“原告认为,当他们的代码被用作训练数据时,代码附带的开源许可证的版权管理信息被(OpenAI)删除了。
二、训练是合理使用,但我们提供了退出选项,因为这样做是正确的
使用公开可用的互联网资料训练人工智能模型是合理使用,这一点得到了长期广泛接受的先例的支持。我们认为这一原则对创造者是公平的,对创新者是必要的,对美国的竞争力也是至关重要的。
最近向美国版权局提交意见的众多学者、图书馆协会、民间社会团体、初创企业、美国领先公司、创作者、作者等都支持允许将训练人工智能模型作为合理使用的原则。其他地区和国家,包括欧盟、日本、新加坡和以色列,也有允许在受版权保护的内容上训练模型的法律--这是人工智能创新、进步和投资的优势。
尽管如此,对我们来说,法律权利并不重要,重要的是做一个好公民。我们在人工智能行业中处于领先地位,为出版商提供了一个简单的退出程序(《纽约时报》于 2023 年8月采用了这一程序),以防止我们的工具访问他们的网站。
笔者的评注:著作权法上的合理使用是要有法律明确规定的,比如OpenAI举例中的日本《著作权法》就确实有这个规定,我国《著作权法》第24条也规定了合理使用,比如为个人学习研究欣赏使用、为介绍评论作品或说明问题适当引用作、为报道新闻,媒体不可避免再现或引用作品、教学科研使用,但不得出版发行等13种情况。
但就人工智能使用他人版权作品,笔者个人认为较难归入上述合理使用法定情形。当然,就像前不久北京互联网法院为了保护新兴产业,认定产生人工智能图画的提示词受版权保护一样,不排除此类案件法院审理中认为人工智能作为新生事物需要保护,也将其归入某一种合理使用的可能性。
关于“为出版商提供了一个简单的退出程序”,其实是一个爬虫屏蔽功能[iv],只要在网站的Robots.txt文件中加入屏蔽OpenAI爬虫的描述,OpenAI就不会抓取网站的内容进行训练。这个功能的使用方法和网站屏蔽搜索引擎爬虫的功能基本一样。
但《纽约时报》起诉OpenAI可不是屏蔽爬虫那么简单的事情。首先,谷歌百度这样的搜索引擎,其爬取网站的内容后会给网站引流,引导用户访问被爬取内容的网站,用户或者点击网站的广告,或者支付费用访问付费墙后的新闻,达到搜索引擎和网站双赢的生态效果。而OpenAI的做法并非如此,笔者在上文中有描述:
不同于传统搜索引擎只显示网页摘要,(由OpenAI支持的)必应搜索引擎页面上的“合成”搜索结果可以直接回答用户查询,并且可能将《纽约时报》报道中广泛的内容进行释义和直接引用。对于《纽约时报》而言,这种方式实际意味着替代,用户无需访问其网站就可以使用他们的内容,这将导致商业利益受损。
三、“反流"是一个罕见的错误,我们正在努力将其消灭为零。
我们设计和训练模型的目的是学习概念,以便将其应用于新问题。死记硬背是学习过程中的一种罕见故障,我们正在不断加以解决,但当特定内容在训练数据中出现不止一次时,这种故障就比较常见了,例如,如果这些内容的片段出现在许多不同的公共网站上。因此,我们采取了一些措施来限制无意中的记忆,防止在模型输出中出现重复内容。我们也希望我们的用户能够负责任地行事;故意操纵我们的模型进行反流(反流,英文为Regurgitation,医学名词,也称“反刍”,指经过咀嚼的食物从胃返回到嘴里,笔者注)不是对我们技术的适当使用,也违反了我们的使用条款。
正如人类接受广泛的教育以学习如何解决新问题一样,我们也希望我们的人工智能模型能观察到世界上的各种信息,包括来自各种语言、文化和行业的信息。由于模型是从人类知识的巨大集合中学习的,因此任何一个领域--包括新闻--都只是整个训练数据的一小部分,任何一个数据源--包括《纽约时报》--对模型的专门学习都没有意义。
笔者的评注:包括OpenAI[v]、 Meta在内的大语言模型公司都认为,人工智能接受数据的训练方式不同于计算机的简单复制,而是通过大量数据的训练,了解每个词在不同环境下的各种含义,因此其并不包含或者存储训练的数据副本。所以训练数据对模型的意义主要在于帮助模型更好的理解单词的意义,这也是OpenAI断言新闻数据和《纽约时报》数据源对于模型的专门学习都没有意义的原因。
OpenAI认为,其已经采取了一些措施来限制无意中的记忆,防止在模型输出中出现重复内容,其社交媒体上确实也有这个记录[vi]。但《纽约时报》证明,输入提示词,ChatGPT就可以把其原始新闻反馈给用户。前一部分中,OpenAI说《纽约时报》已经于2023年8月屏蔽了其爬虫,但《纽约时报》诉状中列举的巴以加沙战争的新闻证据是10月份的,所以OpenAI在博客中说,这些内容不仅出现在《纽约时报》网站,也出现在许多不同的公共网站上。
同时,OpenAI还认为,《纽约时报》取证时故意操纵ChatGPT进行反流,违反了其用户条款。故意操纵应该指《纽约时报》取证时的提示词是特殊的,比如新闻的第一句话,而非用户常用的“提供加沙战争新闻”及类似方式。这里的用户条款应该指的是其用户协议中的规定[vii]:不得将OpenAI的服务用于任何非法、有害或滥用行为。例如,以侵犯、盗用或违反他人权利的方式使用我们的服务。可能OpenAI认为用户利用其技术漏洞输入提示词得到侵犯版权的训练材料信息,也属于以侵权方式使用其服务。
四、《纽约时报》没有讲述全部故事
在 12 月 19 日的最后一次沟通中,我们与《纽约时报》的讨论似乎取得了建设性进展。谈判的重点是围绕 ChatGPT中的实时显示和归因建立高价值的合作伙伴关系,《纽约时报》将通过这种新方式与他们的现有读者和新读者建立联系,而我们的用户则可以访问他们的报道。我们曾向《纽约时报》解释说,与任何单一来源一样,他们的内容对我们现有模型的训练没有任何意义,对未来的训练也没有足够的影响。他们在 12 月 27 日提起的诉讼--我们是通过阅读《纽约时报》得知的--让我们感到意外和失望。
一路走来,他们曾提到看到一些重复他们内容的情况,但一再拒绝分享任何实例,尽管我们承诺调查并解决任何问题。我们已经证明了我们是如何认真对待这一优先事项的,例如在 7 月份,当我们得知 ChatGPT功能可能会以非预期的方式复制实时内容后,我们立即关闭了该功能。
有趣的是,《纽约时报》诱导转载的内容似乎来自多年前的文章,而这些文章已在多个第三方网站上泛滥。为了让我们的模型进行反流,他们似乎有意篡改了提示语,通常包括冗长的文章节选。即使在使用此类提示时,我们的模型通常也不会像《纽约时报》影射的那样,这表明他们要么是指示模型进行反流,要么是从众多尝试中挑选出的例子。
尽管《纽约时报》声称,这种误用并非典型或允许的用户行为,也不能替代《纽约时报》。无论如何,我们正在不断提高我们系统的抗逆性,以抵御反流训练数据的攻击,并已在我们最近的模型中取得了很大进展。
我们认为《纽约时报》的诉讼毫无根据。尽管如此,我们仍希望与《纽约时报》建立建设性的合作关系,并尊重其悠久的历史,其中包括 60 多年前报道第一个工作神经网络和捍卫第一修正案规定的自由。
我们期待与新闻机构继续合作,通过实现人工智能的变革潜力,帮助提升他们制作高质量新闻的能力。
笔者的评注:这部分除了介绍诉讼前双方的交流,其他内容主要是总结,OpenAI告诉大家,他们有技术措施防止受版权保护的训练素材被重现给用户,他们还是希望和《纽约时报》合作并帮助新闻行业。
注释:
[i] https://openai.com/blog/openai-and-journalism
[ii] https://blog.csdn.net/richerg85/article/details/134940746
[iii] https://mp.weixin.qq.com/s/1TTkYh2yJZgd_CSCbtdgkw
[iv] https://platform.openai.com/docs/gptbot
[v] https://www.regulations.gov/comment/COLC-2023-0006-8906
[vi] https://twitter.com/OpenAI/status/1676072388436594688
[vii] https://openai.com/policies/terms-of-use
(本文仅代表作者观点,不代表知产力立场)
封面来源 | Pexels