“我的语料，你没有资格用” 字节跳动被告，AI 训练规则正在反转

2026-01-05 11:22:00

过去，AI 训练的争议只有一个问题：用得合不合理？现在，美国法院开始换一个问法：你有没有资格用？

过去，AI 训练的争议只有一个问题：用得合不合理？

现在，美国法院开始换一个问法：你有没有资格用？

2025年12月23日，YouTube 创作者联盟，绕开版权侵权，直接动用一条被冷落多年的老法——DMCA §1201，把AI 训练拦在了“数据入口”之外。

这是美国AI 诉讼里出现了一个非常有意思的变化。于是，一个现实问题摆在所有人面前：DMCA §1201，到底能不能管AI 训练？

一、先把DMCA §1201 讲清楚：它到底在管什么？

DMCA §1201 的核心只有一句话：禁止未经授权，规避对受版权保护作品所采取的“技术保护措施”。

注意，这里有四个关键词：

1.技术保护措施（TPM）

2.规避（circumvention）

3.未经授权

4.与版权保护“有效相关”

它不是在保护作品内容本身，而是在保护——“进入作品的防盗门”。

二、为什么它突然在AI 训练中变得“好用”了？

原因只有一个：AI 训练，天然绕不开“规模化获取内容”。

而规模化获取，几乎必然会触碰：

●登录限制

●API 限制

●反爬虫机制

●DRM / 加密

●平台访问控制

一旦你为了“拿数据”，绕过了这些版权保护机制，DMCA §1201 就有了出手的空间。具体到前文提到的诉讼有个有意思的细节。在字节案中，原告怎么证明“字节真的用过我的YouTube 视频训练模型？”

答案来自一个非常经典、但经常被忽视的证据来源——

被告自己写的论文。关键证据，来自字节员工公开论文。

在论文《MagicVideo: Efficient Video Generation With Latent Diffusion Models》中，字节员工明确披露：

●使用了HD-VILA-100M 数据集

●用于训练其视频生成模型MagicVideo

而这个数据集，是微软亚太研究院在2022 年发布的。

HD-VILA-100M是什么？

一个包含约330 万个YouTube 视频的大规模公开视频数据集。而这些视频，大量来自普通创作者，并未单独授权用于AI 训练。

于是，原告完成了一个非常关键的推理闭环：

论文披露的数据集 → 数据集来源于YouTube → 视频受平台技术措施保护 → 训练前必然存在规避行为，这正是DMCA §1201 所瞄准的核心。

三、适用边界1：必须存在“有效的技术保护措施”

这是 §1201 的第一道硬门槛。如果是下述三种情况：

●公开网页，任何人无需登录即可访问

●没有访问频率限制、没有技术阻断

●单纯的“使用条款禁止”，但无技术配合

法律结论：只有文字表述，没有“技术措施”，§1201 很难适用。

在既有判例框架下，以下情形通常会被认为是TPM（技术保护措施）：

●登录/ 账号验证机制

●加密、DRM

●API key + 访问限制

●反爬虫（IP 封禁、速率限制等）

在AI 训练案件中，YouTube 的技术体系正是权利人重点抓住的对象。

四、适用边界2：必须存在“规避行为”，而非合理使用

这是 §1201 的第二道门槛。

一个关键区分：“使用了受保护内容” ≠ “规避了技术措施”

举例：

●你通过正常账号观看视频，不算规避

●你用工具批量下载、绕过速率限制，这是高风险行为

在AI 训练语境下，原告通常会主张：

模型训练前的数据抓取，本身就需要绕过平台为“人类用户”设计的访问限制。这正是争议焦点所在。

五、适用边界3：AI 训练是不是“与版权保护有关”？

这是 §1201 在AI 案件中最核心、也最有争议的一点。

被告最常见的抗辩是合理使用：

“我们不是为了看作品，也不是为了传播作品，我们只是为了训练模型。”但在 §1201 条款下，法院关注的不是你的主观目的，而是：你客观上是不是绕开了权利人的技术保护措施。

如果答案是“是”，那么即便你的最终用途是AI 训练，也不排除 §1201 的适用。

六、适用边界4：fair use，在 §1201 里几乎没用

这是很多人最容易踩坑的地方。

在版权侵权案件中，fair use 是“王牌抗辩”；

但在 §1201 框架下——fair use 通常不是有效抗辩理由。

美国法院长期以来的态度是：

●§1201 是独立于版权侵权的责任

●即便最终使用可能是fair use

●规避行为本身，仍可能违法

这也是为什么原告喜欢这条路径。

七、适用边界5：例外条款，但对AI 很不友好

DMCA§1201 当然也有例外，比如：

●安全研究

●逆向工程

●无障碍访问

●图书馆/ 教育用途

但现实是：这些例外，几乎都很难自然覆盖商业AI 训练。

尤其是当：

●训练目的具有商业性

●数据规模巨大

●与产品直接相关

法院往往会采取非常保守的解释。

八、总结一句话版“适用边界地图”

如果用一句话总结DMCA §1201 在AI 训练中的适用逻辑，那就是：它不管你“学到了什么”，它只管你“是怎么拿到的”。可以适用的典型场景：

●受保护平台

●存在明确技术访问控制

●为规模化训练绕过技术限制

难以适用的场景

●完全公开、无技术门槛的数据

●合法授权/ API 合规调用

●无“规避”事实，仅存在用途争议

该文观点仅代表作者本人，知产力平台仅提供信息存储空间服务。

“我的语料，你没有资格用” 字节跳动被告，AI 训练规则正在反转

下一篇