“我的语料,你没有资格用” 字节跳动被告,AI 训练规则正在反转

2026-01-05 11:22:00
过去,AI 训练的争议只有一个问题:用得合不合理?现在,美国法院开始换一个问法:你有没有资格用?

过去,AI 训练的争议只有一个问题:用得合不合理?

现在,美国法院开始换一个问法:你有没有资格用?

2025年12月23日,YouTube 创作者联盟,绕开版权侵权,直接动用一条被冷落多年的老法——DMCA §1201,把AI 训练拦在了“数据入口”之外。

这是美国AI 诉讼里出现了一个非常有意思的变化。于是,一个现实问题摆在所有人面前:DMCA §1201,到底能不能管AI 训练?

一、先把DMCA §1201 讲清楚:它到底在管什么?

DMCA §1201 的核心只有一句话:禁止未经授权,规避对受版权保护作品所采取的“技术保护措施”。

注意,这里有四个关键词:

1.技术保护措施(TPM)

2.规避(circumvention)

3.未经授权

4.与版权保护“有效相关”

它不是在保护作品内容本身,而是在保护——“进入作品的防盗门”。

二、为什么它突然在AI 训练中变得“好用”了?

原因只有一个:AI 训练,天然绕不开“规模化获取内容”。

而规模化获取,几乎必然会触碰:

●登录限制

●API 限制

●反爬虫机制

●DRM / 加密

●平台访问控制

一旦你为了“拿数据”,绕过了这些版权保护机制,DMCA §1201 就有了出手的空间。具体到前文提到的诉讼有个有意思的细节。在字节案中,原告怎么证明“字节真的用过我的YouTube 视频训练模型?”

答案来自一个非常经典、但经常被忽视的证据来源——

被告自己写的论文。 关键证据,来自字节员工公开论文。

在论文 《MagicVideo: Efficient Video Generation With Latent Diffusion Models》 中,字节员工明确披露:

●使用了HD-VILA-100M 数据集

●用于训练其视频生成模型MagicVideo

而这个数据集,是微软亚太研究院在2022 年发布的。

HD-VILA-100M是什么?

一个包含约330 万个YouTube 视频的大规模公开视频数据集。而这些视频,大量来自普通创作者,并未单独授权用于AI 训练。

于是,原告完成了一个非常关键的推理闭环:

论文披露的数据集 → 数据集来源于YouTube → 视频受平台技术措施保护 → 训练前必然存在规避行为,这正是DMCA §1201 所瞄准的核心。

三、适用边界1:必须存在“有效的技术保护措施”

这是 §1201 的第一道硬门槛。如果是下述三种情况:

●公开网页,任何人无需登录即可访问

●没有访问频率限制、没有技术阻断

●单纯的“使用条款禁止”,但无技术配合

法律结论: 只有文字表述,没有“技术措施”,§1201 很难适用。

在既有判例框架下,以下情形通常会被认为是TPM(技术保护措施):

●登录/ 账号验证机制

●加密、DRM

●API key + 访问限制

●反爬虫(IP 封禁、速率限制等)

在AI 训练案件中,YouTube 的技术体系正是权利人重点抓住的对象。

四、适用边界2:必须存在“规避行为”,而非合理使用

这是 §1201 的第二道门槛。

一个关键区分:“使用了受保护内容” ≠ “规避了技术措施”

举例:

●你通过正常账号观看视频,不算规避

●你用工具批量下载、绕过速率限制,这是高风险行为

在AI 训练语境下,原告通常会主张:

模型训练前的数据抓取,本身就需要绕过平台为“人类用户”设计的访问限制。这正是争议焦点所在。

五、适用边界3:AI 训练是不是“与版权保护有关”?

这是 §1201 在AI 案件中最核心、也最有争议的一点。

被告最常见的抗辩是合理使用:

“我们不是为了看作品,也不是为了传播作品,我们只是为了训练模型。”但在 §1201 条款下,法院关注的不是你的主观目的,而是:你客观上是不是绕开了权利人的技术保护措施。

如果答案是“是”,那么即便你的最终用途是AI 训练,也不排除 §1201 的适用。

六、适用边界4:fair use,在 §1201 里几乎没用

这是很多人最容易踩坑的地方。

在版权侵权案件中,fair use 是“王牌抗辩”;

但在 §1201 框架下——fair use 通常不是有效抗辩理由。

美国法院长期以来的态度是:

●§1201 是独立于版权侵权的责任

●即便最终使用可能是fair use

●规避行为本身,仍可能违法

这也是为什么原告喜欢这条路径。

七、适用边界5:例外条款,但对AI 很不友好

DMCA§1201 当然也有例外,比如:

●安全研究

●逆向工程

●无障碍访问

●图书馆/ 教育用途

但现实是:这些例外,几乎都很难自然覆盖商业AI 训练。

尤其是当:

●训练目的具有商业性

●数据规模巨大

●与产品直接相关

法院往往会采取非常保守的解释。

八、总结一句话版“适用边界地图”

如果用一句话总结DMCA §1201 在AI 训练中的适用逻辑,那就是:它不管你“学到了什么”,它只管你“是怎么拿到的”。可以适用的典型场景:

●受保护平台

●存在明确技术访问控制

●为规模化训练绕过技术限制

难以适用的场景

●完全公开、无技术门槛的数据

●合法授权/ API 合规调用

●无“规避”事实,仅存在用途争议

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
评论区

    下一篇

    这场跨越二十载、牵动中韩两国数家大厂核心利益的《传奇》版权争夺战,随着韩国最高司法机关的一纸裁决,正式画上了句号。

    2026-01-04 17:09:07