关于使用版权作品训练AI侵权认定及合理使用问题分析
作者 | 王兴 北京市乾坤律师事务所
【内容摘要】罗斯公司使用汤森路透公司2234份Westlaw判例摘要训练自创的法律服务AI,法官在2023年判决中,倾向于认可罗斯公司引用“中间复制”相关判例来证明自己也是合理使用。但在2025年判决中,法官进行了修正,认为罗斯公司不满足美国版权法规定合理使用的四要素,构成版权侵权。
【关键词】AI训练、判例摘要、版权、中间复制、合理使用
当下,法律、科技和文艺界对未经许可利用受版权保护作品训练AI是否侵权,是否为合理使用等问题都极为关注,存在广泛争议。2025年2月11日,美国第三巡回上诉法院斯蒂芬诺斯·⽐巴斯(Stephanos Bibas) 法官针对汤森路透公司和西部出版公司(Thomson Reuters Enterprise Centre GMBH and West Publishing CORP.,以下简称TR公司和WEST公司)诉罗斯信息公司(Ross Intelligence INC.,以下简称ROSS公司)案作出简易判决,认定ROSS公司利用TR公司Westlaw系统的判例摘要训练其AI系统构成版权侵权,不是合理使用。此判决为类似争议的解决提供了参考,本文进行分析。
一、案情背景简介
TR公司是全球知名的信息服务供应商,提供法律、税务、科技、风险管理等商务和专业智能信息服务,主营地位于瑞士楚格。(注1)WEST公司主营地位于美国明尼苏达州伊根市,所运营的综合性在线法律信息平台Westlaw包含大量判例、州和联邦法律法规、法律期刊论文,以及WEST团队编辑组织策划的专有法律材料等,是美欧律师和法官们的重要工具。(注2)Westlaw内容版权归TR公司所有。
ROSS公司是一家开发法律领域AI的初创公司,由毕业于加拿大萨斯喀温彻大学法学院的多伦多律师安德鲁·阿鲁达(Andrew Arruda),毕业于多伦多大学的计算机专家吉莫·欧比亚杰尔(Jimoh Ovbiagele)和帕尔格尔斯·达洛吉奥(Pargles Dall'Oglio),三人在2014年共同成立。ROSS公司开发的AI程序(以下简称ROSS或ROSS系统)可以让律师用自然语言,而不是布尔术语(Boolean terms)或关键词向ROSS系统询问法律问题,检索相关法律、案例摘要和案件处理方法,ROSS通过阅读法律、判例和证据,进行推理并输出答案。该AI程序能简化法律研究,节省律师时间和客户金钱。大成律师事务所(Dentons)的协作创新平台Nextlaw Labs最早投资ROSS公司;ROSS公司在2015年获得430万美元种子轮融资后,又在2017年获得了870万美元A轮融资。(注3)诉讼时,ROSS公司是根据美国特拉华州法律组建并存在的公司,受本案影响,ROSS系统于2021年1月25日关闭。(注4)
ROSS公司为创建法律服务AI,需要获取大量法律、判例和法律内容描述等法律材料,以及组织法律内容的方法进行训练。TR公司拒绝ROSS公司获得Westlaw使用许可后,2017年,ROSS公司与法律服务公司LegalEase合作构建数据集以训练其AI,而LegalEase与TR公司有长期合同关系并有访问Westlaw授权。原告指出:2017年7月之前,LegalEase平均每月约有6000笔Westlaw交易;2017年7月之后,LegalEase的Westlaw使用量激增,最后高达到每月约236000笔交易,增加近40倍,比美国排名前100律师事务所的平均月使用量高出近五倍;调查显示LegalEase某些账户使用机器人软件程序批量下载存储Westlaw内容。LegalEase解释正与一家机器学习法律研究公司(后来发现是ROSS公司)合作,为其提供大量数据以帮助创建新的法律研究产品。2018年1月,WEST公司起诉LegalEase并向ROSS公司送达传票,还申请法院强制ROSS公司出示与LegalEase的合同和使用LegalEase提供的数据情况。2020年5月4日,WEST公司与LegalEase在明尼苏达州法院达成同意判决和约定永久禁令;LegalEase同意禁止其复制Westlaw内容、使用机器人访问内容和共享其Westlaw许可的禁令。两天之后,TR公司和WEST公司起诉ROSS公司。
二、诉讼主要进程
2020年5月6日,两原告在特拉华州法院对ROSS公司提起版权侵权和侵权性干扰合同两项诉讼。(注5)诉状称:WEST公司创建Westlaw内容,其中包括独特的West关键编码系统(West Key Number System,以下简称WKNS)和West判例摘要(West Headnotes,诉状中将此二者统称为Westlaw内容);版权所有人TR公司拒绝ROSS公司访问并使用Westlaw内容研究竞品后,ROSS公司“明知和故意诱使”(intentionally and knowingly induced)LegalEase违反其与WEST公司的合同,非法复制原告受版权保护内容并将分发给ROSS公司。ROSS公司复制原告内容并基于此创建衍生作品构成直接版权侵权,WEST公司和LegalEase之间存在近十年的有效合同关系,ROSS公司诱使LegalEase违反合同复制下载Westlaw内容构成侵权性干扰合同;诉请寻求禁令救济和损害赔偿。
2020年7月13日,ROSS公司以原告没有复制版权材料证据和侵权性干扰合同已过诉讼时效为由,向法院提交驳回TR公司的动议(motion)。8月10日,TR公司对该驳回动议提交答辩状。
2020年12月14日和2021年1月25日,ROSS公司向法院提交答辩反诉状和修改的答辩反诉状。ROSS公司反诉称:83%的美国律师事务所有Westlaw许可账号,全美营收前100的律师事务所中此比例高达95%,TR公司在法律研究市场形成垄断;TR公司通过限制性许可、排他禁令、虚假诉讼索赔等方式维护垄断控制,其不公平竞争行为违反了谢尔曼反垄断法(the Sherman Act)第2节和第1节规定;此外,Westlaw平台存在捆绑公法数据库和法律检索工具(反诉状统称为法律检索工具)的搭售行为。
2021年3月25日,TR公司针对ROSS公司反诉提交答辩状。3月30日,特拉华州联邦地区法官伦纳德·斯塔克(Leonard P. Stark)认为TR公司的版权侵权诉讼符合:索赔主体的原始作品、是作品版权所有权人、在版权局注册、ROSS公司被控侵犯版权行为四要素。法官对ROSS公司要求驳回TR公司版权侵权的动议,作出简易判决(memorandum opinion)予以驳回。
2022年4月25日,斯塔克法官对ROSS公司反诉垄断作出简易判决:没有证据表明TR公司通过虚假诉讼索赔以维持垄断,ROSS公司基于谢尔曼法第2节的反诉不成立;但ROSS公司根据谢尔曼法第1节反诉TR公司搭售垄断继续审理。
斯塔克在2022年被任命为联邦巡回上诉法院法官,本案由⽐巴斯法官审理。2023年9月25日,⽐巴斯法官在简易判决(注6)(以下简称2023判决)中认定ROSS公司事实上至少复制了Westlaw部分判例摘要;但ROSS公司是否侵犯版权,是否存在实质性相似,是否为合理使用等争议焦点,需由陪审团裁决。双方在诉状及答辩中也都同意“本案可由陪审团裁决的问题,则请陪审团裁决”。
诉讼期间,双方动用了多名法律和AI专家证人提供证词/专家意见。2024年8月2日,⽐巴斯法官对双方专家证人的意见作出简易判决:TR公司专家乔纳森·克雷因(Jonathan Krein)介绍选取对比数据(ROSS公司数据集与Westlaw判例摘要)的方法,以及实质性相似分析方法,尽管其结论认为“可能不是完全复制的”,但法院只要求专家的方法可靠性,而不是使用“最好的方法或无懈可击的研究”,且克雷因的方法没有不可靠的明显瑕疵或让陪审团感到困惑;TR公司专家詹姆斯·马拉科夫斯基(James Malackowski)关于版权侵权损害赔偿(实际损害赔偿+侵权者利润/法定损害赔偿)的法律意见有帮助;ROSS公司专家芭芭拉·弗雷德里克森-克洛斯(Barbara Frederiksen-Cross)引入新观点的法律报告在之前就已完成且不会损害TR公司;(注7)TR公司专家艾伦·考克斯(Alan Cox)关于侵权方收益(总收入及扣减成本、费用)和被侵权方利润损失计算,没有充分界定、解释或说明数据集之间的差异,其意见不可靠。法官采信克雷因、马拉科夫斯基和弗雷德里克森等专家的意见,同意排除考克斯的意见。
2024年9月27日,⽐巴斯法官作出不支持ROSS公司反诉TR公司搭售垄断的简易判决。法官认为:非法搭售必须是两个独立的产品且需定义各产品的相关市场;ROSS公司以TR公司线上销售公法数据库曾经以印刷书籍形式出售,类比二者是独立产品的证明错误;若按此,在线搜索工具也好比是印刷书籍搜索工具——目录、索引和页码;此外,如同马车演进为汽车,现今以汽车为主要交通工具(马车虽存在,仅为娱乐),印刷书籍形式的公法市场存在,并不意味着在消费者易于理解使用的网络搜索工具世界里,仍然存在单独的公法市场,极少有用户将两者分开。
2025年2月11日,⽐巴斯法官作出简易判决(注8)(以下简称2025判决),认定ROSS公司侵犯了Westlaw判例摘要版权,驳回了ROSS公司合理使用的抗辩。
三、本案判决版权侵权分析
本文主要讨论ROSS公司使用版权作品训练AI所涉侵权和合理使用问题,对原告“侵权性干扰合同”诉请和ROSS公司反诉不做分析。
(一)原告的诉请和主张
长久以来,WEST公司聘请律师编辑总结法律关键点,撰写和原创性的判例摘要。同时,通过WKNS独有的层次结构顺序和分类编码方法,把法律问题、判例摘要及判例、法律规定组织链接起来,在Westlaw平台输入检索法律问题的关键词,相关法律主题、判例信息等以结构化形式呈显。起诉状附图并举例:“遗弃和丢失的财产”主题中关键编码是“性质和要素”“供陪审团参考的证据和问题”及“实施和效力”;而“性质和要素”主题关键编码又包括“概述”“意图”及“作为与不作为”等法律问题和原则相关子主题;其中“概述”关键编码为1k1.1,当前共收录了603个相关判例,每个判例又有一个关键编码。点击关键编码可显示相同判例列表,点击判例摘要可显示在判例文书中对应段落。WKNS可使案例、主题、法律问题等无限组合排列,给用户提供精准法律导航,让法律研究变得高效轻松,是Westlaw搜索工具的支柱。Westlaw平台每天增加无数新判例,编辑律师定期审查判例摘要和 WKNS以确保准确性,原告为此投入大量人力、时间、金钱,TR公司每三个月向美国版权局注册一次数据库。因此,Westlaw内容具有原创性和创造性,是受版权保护作品。
LegalEasel因只提供法律研究和写作支持服务,与Westlaw不形成竞争,从2008年起就获得Westlaw访问许可。双方服务协议明确禁止LegalEase在WEST产品或网络上运行或安装任何计算机软件,禁止向第三方批量销售、再许可、分发、显示、存储或传输Westlaw信息。ROSS公司训练其创建的法律服务AI需要获取大量法律内容、内容描述和组织法律内容的方法,在没有访问权限情况下,明知和故意诱使LegalEase下载储存Westlaw内容。根据美国版权法(1976)/美国法典第17卷第101条规定,ROSS公司未经授权复制和使用Westlaw内容创建竞品系故意、恶意,且全然无视原告权利,应承担版权侵权直接责任(Direct liability)、帮助责任(Contributory liability)和替代责任(Vicarious liability);对诱使LegalEase侵权承担替代责任;损失赔偿包括律师费、ROSS公司因侵权而获得的任何收益、利润、优势及法定赔偿,其中ROSS公司侵权所获收益包括但不限于显著降低开发成本。
(二)ROSS公司的抗辩
ROSS公司开发的是基于AI且更先进强大的自然语言搜索引擎,在判例文书等法律材料的实际文本中寻找自然语言训练AI,而不依赖于体现法律文本的概念列表(如判例摘要)。根据美国法典第17卷第102(b)条规定,版权作品必须是原创性且富有创意的作品,原创性要求作品源自作者而不是从过去来源复制,创意则要求作品具有超越平庸或琐碎的“火花”;判例摘要两者都不具备。它只是对不受版权保护的判例文书和法律法规中有关主题、规则、概念的直接复制引用、背诵或注释;即便证明判例摘要与判例文书文本间有细微差异,这种“明显和典型”的选择也不应得到版权保护,否则使WEST对判例文书的商业出版产生垄断。
WNKS按字母顺序排列法律主题和子主题(子主题包括基本法律文本定义、法律分析和推理中通常概念等),根据主(子)题出现顺序依次分配关键编码完全是基于功能考虑。由功能考虑决定如何以普通法法律制度规定方式,使用传统的法律分析、推理模式和属于公共领域的判例,这种法律分析内在体系和常见方法是法学院一年级学生就要学到的,也是律师面对新案件和法律问题所必须做的。WNKS结构反映了基本法律本身如何组织、法律的构成要素和思想,之所以有效是法律读者、研究人员都可期望和能预见。WNKS整体安排和结构没有原创性或创造性。
原告未证明有版权和复制的事实,未证明复制了作品中受保护的原创元素,仅声称可推断发生了复制事实和两作品有共同的目的或功能是不够的;原告注册版权似乎涵盖了整个Westlaw数据库,包括判例、教学大纲、判例法段落,而这些不是版权法保护范围。根据合理使用原则四要素,原告没有证明本案可排除合理使用原则;ROSS公司或LegalEase的行为属于合理使用,不构成直接或间接侵权。
(三)法官认定的事实
比巴斯法官在2023和2025判决中认定:ROSS公司为了研发法律领域AI,申请Westlaw许可被拒后求助于LegalEase;ROSS公司委托LegalEase创建包括大约25000个问答的批量备忘录(Bulk Memo),每个备忘录有一个律师会问到的法律问题和4~6个答案,答案直接引自判例文书并有相关性评分。LegalEase开始手动创建、后通过文本抓取机器人创建备忘录,ROSS公司将备忘录转换为可用于AI训练的数据,该过程首先将书面语言编码为数值化数据,然后通过特征生成器(Featurizer)对文本执行多种数学……运算。这套程序核心源于批量备忘录。ROSS公司承认判例摘要影响了备忘录的“问题”,但表示是律师最终起草而非复制这些问题。TR公司则称25000个备忘录都是复制(备忘录的“问题”基本上是在判例摘要末尾加上问号),TR公司只对两个子集的判例摘要(分别包含5367份和2830份)申请简易判决,侵权索赔仅限于2830份备忘录。专家弗雷德里克森报告中包括3384份判例摘要(含TR主张且陪审团认定版权有效的2830份判例摘要,以及TR公司未列入侵权但ROSS公司专家认定且ROSS公司作出回应的判例摘要)。比巴斯法官仔细对比3384份判例摘要后,认定ROSS公司实际复制2243份。此外,LegalEase向ROSS公司发送了一份来自WKNS的91个法律主题清单,和500份包括Westlaw判例摘要、关键编码及注释的判例;ROSS公司承认在创建实验项目(项目最终放弃)的38个主题时考虑了该清单,而判例则没有什么作用。
(四)法官两次判决对比
比巴斯法官认为版权侵权索赔有三要素:(1)有效版权的所有权;(2)实际复制;(3)实质性相似。法官在2023判决认为第2个实际复制要素存在,而第1、3个要素需由陪审团裁决;在2025判决中则认定Westlaw判例摘要、关键编码有原创性而版权有效,备忘录“问题”与2243份判例摘要实质性相似。
比巴斯法官认为,根据美国法典第17卷第107条判断合理使用的四因素:(1)使用的目的和性质;(2)受版权保护作品的性质;(3)与受版权保护作品整体相关的使用数量和实质性相似;(4)对受版权保护作品潜在市场影响。其中第1个和第4个因素最重要的,2023判决将四因素都交陪审团裁决;在2025判决则判定TR公司在第1、4两因素获得支持,并在整体因素平衡方面占上风。
比巴斯法官在2025判决中用略带自省和谦逊的语气解释为何修正了2023判决。现就法官两次判决中关于版权侵权及合理使用认定分析对比如下。
1.版权侵权认定三要素的两次判决对比
(1)关于Westlaw内容版权范围及有效性
法官在2023判决表示:ROSS公司主张Westlaw注册版权为汇编作品,包括数十万个判例摘要和WKNS,仅仅复制几千个判例摘要不足以构成侵权;ROSS公司的观点很难得到支持。汇编作品版权延伸到所汇编的受版权保护作品(汇编组件),汇编作者通过原创文字陈述事实,他人可以复制其中基本事实但不能复制呈现事实的确切词语;汇编组件虽属于不受版权保护的公共领域,但汇编人对选择、组织编排材料的方法是有“薄弱”版权,尽管“原创性门槛很低”。因此,WKNS的原创性、是否受保护、受何种保护范围等争议由陪审团决定。TR公司主张判例摘要是其律师编辑原创(总结案件重要事实、突出关键问题、描述证据),ROSS公司则举证证明TR公司要求判例摘要“遵循或密切反映判例文书的语言”,此争议涉及ROSS公司复制的是判例摘要还是判例文书;判例摘要表达了不受版权保护的判例文书,其版权强度取决于判例摘要与判例文书的重叠程度。如果仅是复制判例文书则无版权,若判例摘要是“雕凿”判例文书且是比“微不足道”更大变化的简短书面作品,则版权有效。必须在每个判例摘要层面而不是Westlaw汇编层面上考虑判例摘要版权侵权问题。
法官在2025判决认为:版权有效性是法律问题而非事实问题,原创性是版权核心但门槛较低,只要“最低限度的创造力……一些创造性的火花”而非“额头汗水”。首先,汇编者使用“最低程度的创造力”对事实(判例文书)进行选择和安排,事实汇编满足原创标准。其次,不受版权保护的判例文书就像一块大理石原料,雕刻家通过选择判断切凿掉什么、留下什么,创作成为受版权保护的雕塑;Westlaw编辑律师从冗长判例文书中逐字摘录形成每份判例摘要,也是从整体中精心挑选和确定重要词句(如同雕凿石材原料),并通过提炼、综合或解释观点引入创造性,表达对判例文书重要观点的想法,这有足够“创意火花”而具有原创性;且每份判例摘要都是独立的、受版权保护作品。我改变之前认为原创性取决于判例摘要和判例文书之间重叠程度的错误观点,但不会对任何逐字复制的判例摘要做出简易判决。组织法律主题、法律问题有许多可能、合乎逻辑、按不同粒度级别的常见方法,TR公司选择一个特定类型并独立创建,也具有最低限度的原创性“火花”而无需强调新颖性(novel)。所以,WNKS也是原创的。
(2)关于实际复制问题
法官在2023判决表示:实际复制考察重点是ROSS公司是否使用了受版权保护作品创作自己的作品,真正独立创作的作品,无论相似性如何都没有侵权。TR公司可提供直接证据和间接证据——LegalEase承认直接复制了部分判例摘要,ROSS公司不否认LegalEase访问了Westlaw判例摘要,陪审团也没有说这些相似之处至少不能证明某些复制。在法律上,ROSS公司实际上复制了判例摘要部分内容。
法官在2025判决认为:在评估复制时我会考虑专家意见;弗雷德里克森专家分析报告指出本批次(3384份)备忘录的“问题”与判例摘要文本非常相似,且判例摘要与判例文书有很大不同;专家意见表明这些备忘录“问题”是复制判例摘要,而非通过总结基本观点所创建,这是有力的实际复制间接证据,陪审团没有不同结论。因此,LegalEase访问权加上这些判例摘要的相似性分析,我认定2243份实际复制。
(3)实质性相似问题
法官在2023判决表示:版权侵权认定实质性相似是一个非常接近的事实问题,需要“善于察觉和常识”(good eyes and common sense),要站在普通消费者视角来看待作品差异和美学吸引力。批量备忘录与判例摘要有共同的潜在来源——判例文书,因此,(a)需要确定ROSS公司的工作与TR公司受保护表达(而非观点)是否基本相似;(b)双方产品的普通消费者都是律师,应该适应律师可能注意而外行没有注意到的差异;(c)第三巡回法院(通常)拒绝专家关于实质性相似意见,所以,我不太关注各方专家对此问题的意见。TR公司所列实质性相似判例摘要是否为受保护的表达,批量备忘录的问题复制这些判例摘要是否构成侵权,由陪审团裁决。
法官在2025判决认为:作为律师和法官,我也是Westlaw判例摘要的普通用户,完全有能力确定实质性相似,并对陪审团无法得出相反结论的那些判例摘要进行审查。我采纳第九和第二巡回上诉法院有关判例中的概念:作品包含的可保护表达越不容易受到保护,被控侵权作品必须与它越相似。按此标准,2243份判例摘要和批量备忘录“问题”用语基本相似且如此明显(而不是判例摘要与判例文书用语相似),这些判例摘要实质性相似。
2.认定合理使用四要素的两次判决对比
(1)使用的目的和性质
法官在2023判决表示:为盈利的商业性使用不满足合理使用,而传达了与原始内容不同的新事物或扩展其效用的转换性使用有利于增加公共知识,是合理使用。TR公司引用沃霍尔视觉基金诉戈德尔史密斯案,(注9)主张ROSS公司是与Westlaw竞争的商业性使用不是合理使用。ROSS公司描述批量备忘录转换处理过程:(a)将接收的批量备忘录存入数据库;(b)将简明语言条目转化为数字数据;(c)这些数据被输入机器学习算法用以训练AI理解法律语言。其AI的核心理念和逻辑在于:通过分析“问题-答案对”(the question-answer pairs)的模式特征不仅能回应预设问题,(注10)还能识别潜在规律,从而应对用户提出的各类法律问题(即便这些问题在初始训练数据库中没有)并给予反馈。ROSS公司引用世嘉公司诉Accolade案(注11)、索尼公司诉Connectix案(注12)和谷歌诉甲骨文案(注13)等“中间复制”判例,这些判例都使用复制材料作为输入,但复制材料是为了发现不受保护的信息,或是开发全新产品的一小步,最终输出是转换性的,ROSS公司复制用途与判例相似。TR公司认为这些判例的复制者试图“研究功能或创造兼容性”,而ROSS公司复制Westlaw的创造性内容训练AI。
法官指出:参照世嘉案、索尼案等“中间复制”判例,使用是否具有转换性取决于行为的确切性质;按ROSS公司所述,使用判例摘要和观点引文只是为了分析和学习语言模式而非复制表达,将人类语言“翻译”成计算机可以理解的东西,生成引用高度相关判例文书回答自然语言问题(且AI输出不会包含侵权材料),这是开发全新产品的一个步骤,是转换性使用;但如果ROSS公司复制使用未经转换的判例摘要和再现 Westlaw律师编辑的创造性成果,那么与世嘉案和索尼案等比较就不合适了。这个事实问题由陪审团决定,ROSS是否主观恶意并不重要,可忽略。
法官在2025判决中做出修正:本案不同于世嘉案等中间复制判例。首先,这几个判例都是复制计算机代码,而ROSS公司从TR公司复制的材料不是计算机代码。与书籍、影视及其他文学作品的版权不同之处,这些计算机程序几乎都是用于功能目的,考虑其合理使用因素并不总是适用于复制书面文字情形。其次,“中间复制”计算机编程判例有因素——复制是竞争对手创新的必要条件,而本案没有。谷歌案的中间复制是“不同程序相互对话所必需”;索尼案的中间复制是对程序中不受保护的功能元素进行逆向工程所必需;世嘉案则是为解决和“发现兼容性的功能要求”而产生中间复制。这些判例一是计算机编程复制判例;二是部分建立在必须通过复制才能获取(计算机程序)底层逻辑的必要性基础上。本案不存在计算机代码的底层逻辑必须通过复制其表达方式才能获取情形,这种复制对于实现用户新目的并非合理必要。因此,最高法院在沃霍尔案提出的新框架更适合本案。ROSS公司在此因素上未获支持并非因其商业性使用,而是其使用没有“进一步的目的或不同的特征”,不具有转换性。比巴斯法官特别强调,鉴于AI领域迅猛发展,本判决只是针对本案审理非生成式AI系统所作出的。
(2)受版权保护作品的性质
法官在2023和2025两次判决对此因素认定基本一致:作品涉及“信息性”而不是更具“创造性”,其合理使用范围更大;当作品越接近“预期版权保护的核心”,则会得到更多保护。WKNS在法律材料组织方法上即使具有原创性,也只是信息材料的一种安排方式(事实汇编),与传统文学或视觉艺术作品相比,其创造性或原创性表达要少得多、“想象力”低得多,WKNS不是版权的核心。判例摘要标记出法律要点,较多直接引用判例文书语言并放在段落开头,尽管编辑们可能已创造性地选择需要总结的法律观点并在适当位置附上判例摘要,但这些选择是受到限制的,远不如小说家或艺术家从头开始起草作品的创造力,绝非最具创造性的作品;判例摘要接近但不是非常接近版权保护核心。
(3)使用数量和实质性相似
法官在2023判决表示:复制数量对汇编作品来说不是那么重要;当复制是版权作品创意表达的核心,即便少量也可能超出合理使用范围,如果复制部分没有捕捉到作品的创造性表达,大量复制仍可以被视为合理使用。本案复制数量应从每个判例摘要的层级考察,每个判例摘要核心是其原创表达而非与对应判例文书观点的联系性。此外,复制的数量也与有效的转换性使用目的有关,如果侵权作品的表达几乎没有传递原作的实质性内容,那么就不符合实质性相似标准。原告主张ROSS公司复制的数量远超它所需,ROSS公司表示它需要大量的多样性材料训练其AI。虽然ROSS公司不用证明每个判例摘要都是绝对必要的,但它必须证明复制的规模(如果有的话)事实上是必要的,并进一步推动了其转换性目标。此因素取决于陪审团。
法官在2025判决认为:本案重要的是ROSS公司由此向公众提供输出内容的数量和实质性相似,作为竞品,ROSS的AI向最终用户输出内容事实上不包括Westlaw判例摘要;ROSS公司使用判例摘要数量和比例不是关键,是否使用原作品的核心才是关键。ROSS公司在这个因素上获得支持。
(4)受版权保护作品的潜在市场影响
法官在2023判决表示:无法确定该作品的使用对市场的影响;侵权损失赔偿需要考虑原作品市场及衍生作品市场的损害,但并非所有损失都是平等的,还需要考虑“损失的来源”;损失的来源可能不是原作品的表达被挪用,原告假设的销售损失类型通常也会与不受版权保护的利益有关,转换性使用促成这一因素。复制越是为了实现与原作品不同的目的,复制作品成为原作替代品的可能性就越小;ROSS公司全新的AI可能是转换性的而非Westlaw替代品。本案争议焦点之一是:允许使用受版权保护的材料进行AI训练是否符合公共利益?即使潜在的好处和风险都很大,各方都会提出合理而有力的解释,很难独立评估。判断保护创作者还是保护复制者更符合公众利益不仅很危险,也使法院陷入两难处境。此因素由陪审团决定。
法官在2025判决认为:当前法律研究平台市场是肯定的,潜在的衍生市场——用于训练合法AI的数据市场也是显而易见,并考虑“复制可能产生的公共利益”影响,ROSS公司没有证据表明这些市场不存在或不会受到影响。TR创建的内容是ROSS公司无法自己创建或聘请LegalEase为其创建而不侵犯TR公司版权的。综合考虑四因素,比巴斯法官对合理使用作出有利于TR公司的简易判决。
四、延伸和思考
根据本案双方主张和两次判决对比,本文作者有以下几点思考:
(一)本案ROSS公司的不利因素
1.ROSS公司复制版权作品的事实显而易见。ROSS公司用于训练其AI的批量“问题-答案对”中的“问题”,法官认定有2243个是复制Westlaw判例摘要(TR公司称就是在判例摘要后面加上问号),这些判例摘要是有版权的原创性作品,尽管原创性很低。
2.ROSS公司转换性使用目的在起诉时未完成,未能充分体现。原告2020年5月起诉时,用户虽可用自然语言向ROSS提出法律问题,但输出的答案仍类似传统搜索引擎的搜索结果方式呈现,(注14)不像Westlaw那样结构化,也还不能像今天ChatGPT或Deepseek等生成式AI以更接近自然语言方式提供答案。即当时ROSS公司AI系统对Westlaw判例摘要的转换性使用目的尚未完成,或未能充分体现,如果能再给ROSS一定时间,或不因诉讼影响关闭,其法律AI或能像现今那些性能优秀生成式AI。这是ROSS的不幸。
(二)法官的认识和态度
1.法官对判例与本案差异认识改变是本次判决关键。比巴斯法官在2023判决中,参照最高法院认定“中间复制”为合理使用的判例,认为本案复制判例摘要也类似;但法官在2025年判决中意识到软件程序虽有版权,保护的力度却不同。如果软件程序本身是功能性的,复制程序代码并对其逆向工程是了解该软件程序的底层逻辑和思想,复制是让自己的产品能与该软件/产品兼容,或创造更多不同产品,则这种“思想”复制属于合理使用。本案从技术角度讲有中间复制,但ROSS公司为训练AI,复制借用的是判例摘要的表达。
2.法官是谨慎和谦抑的。随着AI技术迅猛发展和广泛应用,使用版权作品训练AI过程中是否侵权,合理使用的界限和范式是什么,此问题争议很大。法官意识到本案判决可能的影响,谨慎而谦抑地提示本判决是依据本案事实所做出的,不适用于生成式AI。
(三)延伸
1.相比于ChatGPT或Deepseek等通用生成式AI,专业领域的垂类AI使用版权作品训练,可能涉嫌版权侵权的风险更大。
2.使用版权作品训练AI,“中间复制”和使用的是版权作品的思想,还是版权作品的表达,此过程还需法律、科技界等进行更多探讨辨析和定性。如,2023年5月,美国国会举行的AI与知识产权听证会上,软件工程师兼美国版权局前法律总顾问、版权注册官达姆勒(SY Damle)作证指出,AI模型训练是将语料集内容分解成离散的片段,通过检查提取、统计字符的频率、重要性和彼此之间的语义关系,原始内容/表达已被丢弃。(注15)因此,比巴斯法官对本案此关键问题的分析或仍有商榷之处。
3.使用版权作品训练AI的版权纠纷案中,原告方主张复制侵权、侵权损害等举证难度很大;随着AI公司算法优化和风险意识加强,使用版权作品训练AI产品,其输出答案与版权作品表达的实质性相似可能会极大减少,被告或更为有利;审理中双方也许都要大量借助专家证人。
五、结束语
金庸先生武侠小说《倚天屠龙记》中,武功高强的张无忌在灵蛇岛初遇波斯人圣火令诡异奇妙功夫,被打得手忙脚乱。危急关头小昭译出圣火令武功口诀,“张无忌乍然听闻,犹如满天乌云之中,骤然间见到电光闪了几闪,虽然电光过后,四下里仍是一团漆黑,但这几下电闪,已让他在五里浓雾之中看到了出路……隐隐约约的似乎想到了,但似是而非,终究不对”。张无忌又挨一记圣火令击打,剧痛后“登时心头雪亮”。
在涉及公共利益的AI技术发展和版权人权利保护之间,如何寻求平衡,产生出普遍适用/认可的新规则,各界都在探索,当下还混沌不清。比巴斯法官的判决“犹如满天乌云之中骤然间电光惊闪,电光过后虽仍是一团漆黑,但已隐约看到、想到出路”,本判决虽有参考借鉴意义,但还不够。相信用不了多久,再产生几个此类案件的经典判例,此争议问题会“登时雪亮”明晰。
注释
注1:汤森路透公司官网,https://www.thomsonreuters.com/en/about-us。
注2:westlaw网站,https://www.westlaw.com › search › home.html。
注3:大成律师事务所(Dentons)最早投资ROSS公司,
https://www.dentons.com/en/about-dentons/news-events-and-awards/news/2017/october/dentons-nextlaw-labs-helps-first-portfolio-company-secure-millions-in-series-a-funding。
注4:ROSS公司于2021年1月25日关闭业务及网站,https://blog.rossintelligence.com/。
注5:TR公司和WEST公司的起诉状,
https://storage.courtlistener.com/recap/gov.uscourts.ded.72109/gov.uscourts.ded.72109.1.0_1.pdf。
注6:2023年9月25日,⽐巴斯法官作出的简易判决,
https://storage.courtlistener.com/recap/gov.uscourts.ded.72109/gov.uscourts.ded.72109.547.0_5.pdf。
注7:专家弗雷德里克森引入新观点的专家意见/报告是什么,在⽐巴斯法官2024年8月2日对专家证人意见的简易判决中表述并不明确;但根据2025年2月11日简易判决及检索相关信息可知,弗雷德里克森是有44年工作经验的计算机程序专家,在多起重要案件中担任专家证人,她的专家意见主要涉及分析判定侵权作品与在先版权作品是否实质性相似。专家证人网站关于弗雷德里克森的介绍,
https://expertwitnessprofiler.com/expert-witness/Barbara-Frederiksen-Cross/1552838。
注8:2025年2月11日,比巴斯法官作出的简易判决,
https://storage.courtlistener.com/recap/gov.uscourts.ded.72109/gov.uscourts.ded.72109.772.0_1.pdf。
注9:美国最高法院裁判沃霍尔视觉基金诉戈德史密斯案[Andy Warhol Foundation for the Visual Arts,Inc. v.Goldsmith,143 S. Ct. 1258(2023)]。1981年,戈德史密斯为已故艺人普林斯(Prince)拍摄肖像照片,并授权杂志《名利场》使用,后《名利场》又委托安迪·沃霍尔基于该照片创作插画,沃霍尔基于戈德史密斯照片创作丝网印刷、版画和素描等系作品,并从中选取创作插画,后交由安迪·沃霍尔基金会(AWF)管理。戈德史密斯认为沃霍尔基金会侵犯版权,沃霍尔基金会称其作品传递了不同于照片的信息和意义,是合理使用。但美国最高法院未支持沃霍尔基金的主张。
注10:the question-answer pairs译为“问题答案对”“成对问题答案”或“自定义问答”,是AI训练中一种预设问题,并提供答案以便机器学习和训练。可参见
https://link.springer.com/article/10.1007/s10489-021-02348-9。
注11:世嘉公司案[Sega Enterprises Ltd. v. Accolade,Inc.,977 F.2d 1510(9th Cir. 1992)] ;世嘉公司(Sega Enterprises Ltd.)是一家视频娱乐系统和视频游戏卡带的开发和营销商,Accolade,Inc.是一家计算机娱乐软件开发商,Accolade对世嘉公司的游戏卡带进行了逆向工程,以使其游戏与世嘉公司的Genesis游戏机兼容而无需被许可,这一过程涉及复制和逆向编译世嘉公司游戏程序代码;第九巡回上诉法院裁判中指出,由于计算机程序的性质,如果是为了研究受版权保护的软件中包含的不受保护的思想,并且如果这是访问和理解这些思想的唯一途径,则对计算机程序代码的反汇编可以属于合理使用;裁判Accolade不构成版权侵权。
注12:索尼公司案[Sony Computer Entertainment Inc. v. Connectix Corp.,203 F.3d 596 (9th Cir. 2000)];Connectix生产开发的软件,以允许用户在他们的计算机上玩Sony PlayStation视频游戏,索尼公司指控Connectix在其逆向工程过程中复制PlayStation BIOS系统不构成合理使用。法院裁定Connectix在逆向工程中复制索尼公司的程序代码,第九巡回上诉法院最终裁判Connectix不构成版权侵权。
注13:谷歌诉甲骨文案(Google LLC v. Oracle America, Inc., 141 S. Ct. 1183, Supreme Court 2021);2005 年,谷歌收购Android, Inc.,以便基于Android开发智能手机应用程序,谷歌与Sun Microsystems谈判以获得流行的Java编程语言技术许可,谈判未果,谷歌独立创建Android平台。为了确保程序员熟悉Java以有助于开发Android应用程序,谷歌从Java API复制了大约11500行代码(“声明代码”),并独立编写实际执行该命令的代码(“实现代码”),且占谷歌为Android创建API的绝大部分;声明代码将程序员键入的命令与实际执行该命令的代码相匹配,声明代码还反映了Java的创建者如何“安排和分组”不同的任务。美国最高法院从合理使用四因素分析认为谷歌的复制在法律上属于合理使用。
注14:鉴于ROSS系统已于2021年1月关闭无法再现,本文作者根据原告起诉状附图所示推测认为:在2020年5月起诉时,对于用户用自然语言提出法律问题,ROSS公司AI所输出答案仍类似传统搜索引擎的结果的展现,当时尚不能像今天ChatGPT或Deepseek等生成式AI,以更接近于自然语言的方式输出回答;因此,起诉时ROSS公司AI系统较当时的Westlaw,还未能充分展现“变革性”或“转换性”。本文作者此推测或有误,请读者自行斟酌。
注15:2023年5月1日-7日,美国国会众议院司法小组委员会举行“人工智能与知识产权”听证会,软件工程师、美国版权局前总法律顾问和版权注册官、Latham & Watkins LLP律师事务所合伙人达姆勒(SY DAMLE)作证,
https://judiciary.house.gov/sites/evo-subsites/republicans-judiciary.house.gov/files/evo-media-document/damle-testimony.pdf。
(本文仅代表作者观点,不代表知产力立场)
封面来源 | Pexels 编辑 | 有得