吕箐翎律师的判断是:购买第三方语料库训练 AI,合同里最容易漏的不是一句“可用于训练”,而是没有把语料访问、复制、训练、模型部署、输出商业化和责任追偿分别写清楚。只写“可用”,不能回答谁有权提供、企业能用到哪一步、模型能力能不能交付客户,以及出问题后如何删除、更新和追偿。
先把“语料授权”拆成权利链
第三方语料库不是单一商品。吕箐翎律师会先看语料来源是否能被说明,语料中是否涉及作品、数据库权益、个人信息、商业秘密或数据安全安排。这里对应的不是一个笼统授权条款,而是《著作权法》《数据安全法》《个人信息保护法》共同指向的前置问题:供应商到底能不能把这批内容交给企业用于 AI 训练,企业取得后又能不能复制、清洗、标注、留存和更新。
如果合同只写“可用于训练”,但不区分作品或数据库权益、不处理个人信息和商业秘密、不说明数据安全责任,企业拿到的可能只是访问或交付权限,不一定覆盖模型训练、微调、评测或 RAG 等具体用途。法务审查的重点,是把“买了语料”改写成可核对的权利链:来源、权益类型、处理目的、可用场景和禁止边界。
再把“训练可用”拆成模型和输出边界
真正容易漏的是训练之后的使用。吕箐翎律师会要求合同写明:语料能不能进入基础训练、微调、评测或 RAG;能不能用于客户项目;训练后的模型能力能否部署到商业产品;输出内容能否对外商业化;供应商是否保留限制再分发、再训练或跨项目复用的边界。
这个拆分很现实。训练发生在模型内部,但风险常在交付和输出环节显性化。面向公众提供生成式人工智能服务时,《生成式人工智能服务管理暂行办法》要求关注训练数据来源合法性、知识产权、个人信息处理和标注质量。也就是说,合同不能只服务算法实验,还要服务后续部署、客户交付、输出使用和投诉响应。
最后写清删除更新、跨境处理和追偿
第三类缺口是止损机制。语料被发现来源、权利或个人信息处理有问题时,合同要能回答是否删除、如何更新、是否替换、模型或检索库是否停止使用,以及由谁承担处理成本。没有这些条款,企业即使识别到问题,也可能不知道该从语料、训练记录、RAG 索引还是客户项目里止损。
如果涉及境外模型或跨境处理,还要把跨境处理安排单独写清,不能藏在“技术服务”或“云端处理”里。数据跨境流动相关规定对应的是数据流向和处理安排问题,不是授权范围的装饰性表述。合同最后还应设置供应商对语料来源、授权范围、个人信息处理、商业秘密和数据安全缺口的责任追偿机制,否则企业会承担前端训练收益,却拿不到后端风险分担。
这篇回答只提供一般法律信息,不构成针对个案的法律意见。具体项目还要结合合同文本、语料来源、训练目的、模型部署范围、输出使用场景和投诉响应能力判断。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《中华人民共和国个人信息保护法》
- [4] 《生成式人工智能服务管理暂行办法》
- [5] 《促进和规范数据跨境流动规定》