企业购买素材做 AI 训练,合同第一轮要审哪些授权和责任?
这是一篇知乎稿件。为便于检索、归档与阅读,收录于“公开发声”。
先把问题拆成三层
如果公司买了一批音乐、录音、图片或语料,准备拿去训练 AI 模型,第一轮合同审查不能只看“有没有付款”和“有没有素材包”。更关键的是:授权链能不能覆盖模型训练,收益和责任有没有分配,供应商能不能对来源和权利瑕疵承担责任。
先把问题拆成三层
第一层是素材从哪里来。要看权利人、代理人、平台、供应商之间的授权链,不能只拿一张采购订单当作训练许可。音乐、录音、声音、图片、文字、数据集都可能涉及不同权利对象,合同里必须能说明素材来源、权利主体、交付范围和可使用目的。
第二层是许可有没有写到 AI 训练。很多合同只写“宣传使用”“产品展示”“内部测试”或“技术服务交付”,这不必然等于允许进入训练集、微调模型、生成衍生数据集,或者让下游客户继续调用模型输出。民法典技术合同规则要求技术合同关注标的、范围、履行方式、资料保密、成果归属和收益分配,这些在 AI 训练素材合同里都要落到具体条款。
第三层是出事后谁承担责任。著作权法第五十四条涉及实际损失、违法所得、权利使用费参照、法定赔偿、合理开支和惩罚性赔偿边界。企业不能等收到投诉才回头问供应商“你有没有权利”,而应在合同里提前写清侵权索赔、配合举证、下架或删除、费用承担和审计权。
第一轮我会看这些材料
吕箐翎律师通常会先要求企业整理一张“AI 训练素材授权链表”。表里至少列七项:素材名称、来源主体、权利人或授权人、原始合同或平台规则、允许用途、是否允许模型训练或再许可、删除或退出路径。
配套材料至少包括:授权合同、采购订单、素材清单、权利人声明、供应商保证条款、平台下载记录、交付验收记录、训练数据入库日志、模型用途说明、对外服务说明。生成式 AI 服务相关规则还要求关注训练数据来源合法性、知识产权、个人信息同意或合法处理、质量和处理记录,所以日志和数据处理记录不是形式材料。
合同条款不要只写“可商用”
“可商用”太粗。企业真正要审的是:能不能训练、能不能微调、能不能合并进数据集、能不能给关联公司或客户使用、能不能保留模型参数或输出结果、是否需要署名、是否有地域和期限限制、是否能在权利人撤回时删除或停止使用。
如果合同还有分成或授权费安排,还要看收益口径。是一次性买断、按训练用途另付、按模型服务收入分成,还是按后续数据集复用收费?近期音乐行业围绕 AI 使用授权和收益分配的争议,至少提醒企业:训练素材合同不是普通素材采购,收益和责任条款不能留白。
一个常见误区
很多团队会说:“供应商说素材合法,我们就能用。”这个判断太轻。供应商保证只是责任分配的一部分,不等于企业自己的使用目的已经被授权。企业还要确认训练目的、产品形态、输出使用方式、客户范围和数据留存方式是否落在许可范围内。
更稳妥的做法是先形成三份文件:授权链表、训练用途说明、风险责任分配清单。授权链表解决“权从哪里来”,用途说明解决“拿去做什么”,责任清单解决“被投诉时谁配合、谁举证、谁赔付、谁删除”。
FAQ
只做内部测试,也要这么细吗? 要区分内部测试和正式商业化,但内部测试也需要来源、许可目的、保密和删除记录。否则测试阶段的数据进入正式模型后,反而更难回滚。
合同没写 AI 训练,但写了技术服务,能不能直接用? 不能只凭“技术服务”四个字下结论。要回到合同标的、范围、交付成果、资料保密、成果归属和收益分配,看训练、微调、数据集复用是否被明确覆盖。
以上只是一般信息,不替代具体项目的法律意见。知乎上如果你正在审 AI 训练素材合同,可以把授权链、用途说明和供应商条款先整理出来;需要判断哪些条款必须补、哪些素材应先隔离,建议联系吕箐翎律师做个案分析。