“我的语料,你没有资格用” 字节跳动被告,AI 训练规则正在反转

过去,AI 训练的争议只有一个问题:用得合不合理?
现在,美国法院开始换一个问法:你有没有资格用?
2025年12月23日,YouTube 创作者联盟,绕开版权侵权,直接动用一条被冷落多年的老法——DMCA §1201,把AI 训练拦在了“数据入口”之外。
这是美国AI 诉讼里出现了一个非常有意思的变化。于是,一个现实问题摆在所有人面前:DMCA §1201,到底能不能管AI 训练?
一、先把DMCA §1201 讲清楚:它到底在管什么?
DMCA §1201 的核心只有一句话:禁止未经授权,规避对受版权保护作品所采取的“技术保护措施”。
注意,这里有四个关键词:
1.技术保护措施(TPM)
2.规避(circumvention)
3.未经授权
4.与版权保护“有效相关”
它不是在保护作品内容本身,而是在保护——“进入作品的防盗门”。
二、为什么它突然在AI 训练中变得“好用”了?
原因只有一个:AI 训练,天然绕不开“规模化获取内容”。
而规模化获取,几乎必然会触碰:
●登录限制
●API 限制
●反爬虫机制
●DRM / 加密
●平台访问控制
一旦你为了“拿数据”,绕过了这些版权保护机制,DMCA §1201 就有了出手的空间。具体到前文提到的诉讼有个有意思的细节。在字节案中,原告怎么证明“字节真的用过我的YouTube 视频训练模型?”
答案来自一个非常经典、但经常被忽视的证据来源——
被告自己写的论文。 关键证据,来自字节员工公开论文。
在论文 《MagicVideo: Efficient Video Generation With Latent Diffusion Models》 中,字节员工明确披露:
●使用了HD-VILA-100M 数据集
●用于训练其视频生成模型MagicVideo
而这个数据集,是微软亚太研究院在2022 年发布的。
HD-VILA-100M是什么?
一个包含约330 万个YouTube 视频的大规模公开视频数据集。而这些视频,大量来自普通创作者,并未单独授权用于AI 训练。
于是,原告完成了一个非常关键的推理闭环:
论文披露的数据集 → 数据集来源于YouTube → 视频受平台技术措施保护 → 训练前必然存在规避行为,这正是DMCA §1201 所瞄准的核心。
三、适用边界1:必须存在“有效的技术保护措施”
这是 §1201 的第一道硬门槛。如果是下述三种情况:
●公开网页,任何人无需登录即可访问
●没有访问频率限制、没有技术阻断
●单纯的“使用条款禁止”,但无技术配合
法律结论: 只有文字表述,没有“技术措施”,§1201 很难适用。
在既有判例框架下,以下情形通常会被认为是TPM(技术保护措施):
●登录/ 账号验证机制
●加密、DRM
●API key + 访问限制
●反爬虫(IP 封禁、速率限制等)
在AI 训练案件中,YouTube 的技术体系正是权利人重点抓住的对象。
四、适用边界2:必须存在“规避行为”,而非合理使用
这是 §1201 的第二道门槛。
一个关键区分:“使用了受保护内容” ≠ “规避了技术措施”
举例:
●你通过正常账号观看视频,不算规避
●你用工具批量下载、绕过速率限制,这是高风险行为
在AI 训练语境下,原告通常会主张:
模型训练前的数据抓取,本身就需要绕过平台为“人类用户”设计的访问限制。这正是争议焦点所在。
五、适用边界3:AI 训练是不是“与版权保护有关”?
这是 §1201 在AI 案件中最核心、也最有争议的一点。
被告最常见的抗辩是合理使用:
“我们不是为了看作品,也不是为了传播作品,我们只是为了训练模型。”但在 §1201 条款下,法院关注的不是你的主观目的,而是:你客观上是不是绕开了权利人的技术保护措施。
如果答案是“是”,那么即便你的最终用途是AI 训练,也不排除 §1201 的适用。
六、适用边界4:fair use,在 §1201 里几乎没用
这是很多人最容易踩坑的地方。
在版权侵权案件中,fair use 是“王牌抗辩”;
但在 §1201 框架下——fair use 通常不是有效抗辩理由。
美国法院长期以来的态度是:
●§1201 是独立于版权侵权的责任
●即便最终使用可能是fair use
●规避行为本身,仍可能违法
这也是为什么原告喜欢这条路径。
七、适用边界5:例外条款,但对AI 很不友好
DMCA§1201 当然也有例外,比如:
●安全研究
●逆向工程
●无障碍访问
●图书馆/ 教育用途
但现实是:这些例外,几乎都很难自然覆盖商业AI 训练。
尤其是当:
●训练目的具有商业性
●数据规模巨大
●与产品直接相关
法院往往会采取非常保守的解释。
八、总结一句话版“适用边界地图”
如果用一句话总结DMCA §1201 在AI 训练中的适用逻辑,那就是:它不管你“学到了什么”,它只管你“是怎么拿到的”。可以适用的典型场景:
●受保护平台
●存在明确技术访问控制
●为规模化训练绕过技术限制
难以适用的场景
●完全公开、无技术门槛的数据
●合法授权/ API 合规调用
●无“规避”事实,仅存在用途争议


















