美国版权局称AI训练使用“海量版权作品”不构成合理使用

美国版权局对AI行业最常用的法律论点之一提出了反驳：即使用受版权保护的材料训练AI模型通常属于合理使用范畴。

在一份新报告中，该机构驳斥了行业的几个关键辩护理由——例如将AI训练类比人类学习，或声称这是”非表达性使用”。后一种论点认为模型仅识别数据中的统计模式，而非复制创造性表达。

版权局对此不予认同。如果AI模型生成的输出在风格、功能或表达方式上与人类创作相似，则该输出被视为”具有表达性”。若这些输出还在市场上与原作形成竞争，将进一步削弱合理使用的辩护立场。

报告的核心论点是：AI系统处理信息的方式与人类存在本质差异。版权局指出，人类仅保留对创意作品片面、经过过滤的印象——这些印象受记忆、个性和情境影响；而AI模型会完整复制作品内容，近乎即时地进行分析，并以”超人类的速度和规模”生成新内容。

应推动授权机制而非诉讼

这份完整报告为某些特殊情况留有空间。某些训练用途若具有足够的”转换性”，可能符合合理使用标准，具体需考量多重因素：使用作品的类型、获取方式、训练目的，以及生成内容是否受控或与原作竞争。例如在研究分析场景中，生成内容不太可能替代原作，更倾向认定为合理使用。

但对于那些使用”海量版权作品生成表达性内容，并在现有市场与原作竞争”的商业AI系统，版权局划出了明确界限，指出这种行为”已超出合理使用的既定范围”。

训练数据的获取途径同样关键。该机构强调，使用非法来源作品——如盗版网站或付费墙后的内容——将严重削弱合理使用论点，而现有部分数据集确实包含此类材料。

版权局并未呼吁设立新的法律限制，而是敦促发展自愿授权市场。目前个别领域已出现早期个体与集体授权形式，对于尚未建立授权体系的领域，该机构建议采用扩展性集体授权等替代方案。