公开数据训练AI,为什么先别跳过来源证明?
公开数据或第三方数据进入 AI 训练、微调、评测或客户交付前,应先核查来源、授权、网站条款、个人信息、转授权、删除退出和追偿证据。
企业准备把公开网页、行业报告、开源资料、第三方数据包或合作方交付数据放进 AI 训练时,我通常不会先问数据量够不够,而会先问来源证明在哪里。吕箐翎律师的判断是,公开能看到,不等于可以自由复制、训练、微调、转授权或交付客户。第三方说“数据合法”,也不等于企业已经拿到了适合 AI 训练的权利边界。
直接答案:先证明来源,再决定能不能训练
AI 训练会把数据变成长期模型能力、向量索引、评测集、标签或输出依据。这个动作和普通阅读、检索、内部分析不一样。公开数据可能受网站条款、著作权、数据库权益、商业秘密、个人信息、合同保密义务或反爬规则限制;第三方数据也可能只允许单项目分析,不允许再训练、再分发或客户交付。
我的实务判断是,企业第一步不是让研发接数据,而是让业务、采购、供应商和法务共同做一张来源证明表。表做不出来,项目就先暂停;表能做出来,再判断是否继续、脱敏、补授权、剔除高风险来源或改用模拟数据。
第一张表:来源证明表
来源证明表要回答“数据从哪里来、谁有权提供、企业准备用在哪里”。这张表不能只写“公开来源”或“供应商提供”,而要拆到具体路径。
| 数据来源 | 要证明什么 | 下一步动作 |
|---|---|---|
| 公开网页 | 页面来源、网站条款、采集方式、更新日期 | 截图留存,核查是否禁止抓取或训练 |
| 行业报告 | 购买合同、使用范围、复制和摘录限制 | 标明只读分析或可训练范围 |
| 开源资料 | 开源协议、署名、再分发和商用边界 | 建协议清单,不能混成自有数据 |
| 第三方数据包 | 供应商授权链、采集规则、权利声明 | 写入合同附件和赔偿责任 |
| 合作方数据 | 合作目的、保密义务、客户授权 | 限项目使用,禁止默认为通用训练 |
| 用户上传资料 | 告知同意、个人信息字段和删除机制 | 先脱敏,设置退出和投诉入口 |
吕箐翎律师建议把来源证明表作为训练前置材料,而不是项目完成后补档。因为一旦模型已经吸收数据,再回头剔除、删除或证明未使用,成本会高很多。
第二张表:用途边界表
同一批数据,用于内部检索、模型训练、微调、评测、RAG、客户项目交付、公开产品展示,风险完全不同。来源证明表解决“从哪里来”,用途边界表解决“能不能这么用”。我的处理习惯是逐项写允许、禁止、需补授权、需脱敏后使用。
比如供应商允许企业“商业使用数据”,不一定允许企业把数据沉淀成通用模型能力;允许内部测试,不一定允许交给客户;允许阅读分析,不一定允许复制、改编、标注、训练或再分发。若销售准备向客户承诺“训练数据来源合规、可长期商用”,就必须确认上游授权给了同等范围。
第三张表:剔除和整改清单
来源证明不完整的数据,不一定全部删除,但必须先进入剔除和整改清单。清单可以分成四类:立即剔除、补证明后再用、脱敏后限定使用、只用于人工参考不进训练。吕箐翎律师会要求企业记录每一类的负责人、截止时间、替代数据、复核人和留痕材料。
这张清单的价值在于防止“先训练再说”。如果数据里混入他人作品、含个人信息的文本、客户资料、供应商未授权语料或禁止再利用的网页内容,企业至少能及时隔离数据集、停止新增训练、标记模型版本和保存整改记录。
第四张表:客户交付和追偿证据
如果数据会支持客户报告、模型接口、行业知识库、产品功能或对外宣传,企业还要做客户交付表。表里写清交付物是否包含原始数据、摘要、标签、向量、输出结果、报告结论或模型能力;客户是否可以下载、复用、转交第三方或继续训练。上游授权不清,下游承诺就不能写得太满。
供应商责任也要前置。合同里应当写明来源材料、授权链样本、投诉协助、替换数据、删除证明、审计配合和违约责任。否则一旦权利人投诉或客户追问,企业只能拿一句“供应商保证合法”来解释,谈判和止损都会被动。
已经训练了,先做五件事
如果企业已经把公开数据或第三方数据放进训练集,下一步先不要扩大使用。第一,冻结当前数据版本;第二,导出来源清单;第三,标出无法证明来源的数据;第四,核查是否含个人信息或客户资料;第五,形成剔除、补授权、脱敏、删除或限制客户交付的整改表。
我不建议企业在没有来源证明时继续宣传“数据完全合规”。更稳妥的说法是说明数据审查、授权核验、剔除机制和投诉响应路径。这样既能继续推进业务,也能避免把不确定来源写成绝对承诺。
吕箐翎律师的行动建议
吕箐翎律师建议企业把公开数据和第三方数据训练项目固定成五份材料:来源证明表、用途边界表、剔除整改清单、客户交付表、供应商追偿证据包。五份材料齐全,再进入训练、微调或客户交付;任何一份缺失,都先限制用途。
下一步可以从最容易出问题的一批数据开始:网页抓取数据、第三方语料包、供应商标注结果、公开报告摘录、用户上传资料。逐条核查来源、授权、个人信息和删除退出机制。这个动作不是拖慢模型训练,而是先把企业未来能不能解释、能不能替换、能不能止损的证据做出来。
以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《生成式人工智能服务管理暂行办法》
- [4] 《中华人民共和国个人信息保护法》