企业把供应商交付的数据用于 AI 训练前,授权链应先查什么?
这是一篇知乎稿件。为便于检索、归档与阅读,收录于“公开发声”。
**第一步,先查数据来源,不查来源就不要谈训练。**
先给结论:供应商说“这些数据可以给你们训练 AI”,企业也不能只收一句授权承诺。真正要先查的是授权链,而不是先看数据量够不够、格式好不好用。吕箐翎律师处理这类问题时,通常会把它拆成四个对象:数据从哪里来、里面是什么、你准备用它做什么、训练结束后如何留痕和退出。
第一步,先查数据来源,不查来源就不要谈训练。
供应商交付的数据可能来自自有业务、合作客户、公开网页、第三方采购、人工标注或历史项目沉淀。不同来源对应的风险不同。数据安全法关注数据处理活动和安全保护义务,所以企业至少要让供应商说明来源、取得方式、是否混入重要数据或其他特殊风险数据,以及供应商是否有权再授权给你用于训练。
一个常见误区是:合同里写“供应商保证数据合法合规”,企业就以为够了。这个写法只能算风险分配的开头,不能替代授权链核查。真正有用的材料通常包括:数据来源说明、上游授权或采购文件、数据清单、交付记录、数据处理目的说明、内部审批记录。
第二步,查数据类型,尤其看个人信息关系。
如果数据里包含个人信息,问题就不只是“版权或资料授权”。个人信息保护法要求看处理目的、处理方式、个人信息种类、保存期限、保护措施,以及双方到底是委托处理、共同处理,还是向第三方提供。企业把供应商数据拿去训练模型,往往会改变使用场景;如果原始授权只覆盖客服、交付或项目履行,却没有覆盖训练、调优、评测,就要停下来重写边界。
这里的材料对象很具体:字段样例、脱敏规则、个人信息种类清单、保存期限、访问权限、删除或返还安排。不要只让业务部门口头确认“应该没有个人信息”。
第三步,查授权范围和交付边界。
数据授权协议不能只写“授权使用数据”。要把用途写清楚:是内部测试、模型训练、模型评测、产品上线,还是向客户提供服务。还要写交付方式、验收标准、保密义务、成果归属和收益分配。民法典技术合同规则中关于标的内容、履行方式、资料保密、技术成果归属等要求,可以作为设计这类数据交付条款的合同边界参考。
比如,供应商交付一批行业问答和标注数据,企业准备用来训练客服模型。合同如果没有说清训练目的、成果归属、是否可继续迭代使用、到期后是否删除,就容易在模型上线后出现争议:供应商认为只是一次项目交付,企业却当成长期训练资产。
第四步,把退出机制写进授权链。
训练数据不是交付后就结束。授权期限届满、上游撤回、发现来源瑕疵、个人信息处理关系变化时,企业要知道能不能停用、删除、返还、隔离,以及如何证明已经处理。审计留痕也要提前设计,至少保留合同版本、数据批次、交付时间、处理目的、访问记录、删除或返还记录。
我的建议是把供应商训练数据审查做成一张“授权链核查表”:来源、类型、目的、范围、个人信息关系、安全措施、成果归属、审计留痕、退出机制九项逐项打勾。缺一项,不一定绝对不能用,但要知道缺口落在谁身上、上线前由谁补。
FAQ 1:供应商承诺“永久授权”是不是就安全?
不一定。永久授权也要看授权人有没有权利给、授权目的是否覆盖 AI 训练、个人信息处理关系是否成立,以及期限届满后的删除或隔离是否另有约定。范围不清的永久授权,反而容易把风险拖长。
FAQ 2:数据已经脱敏,还要看个人信息保护法吗?
要先确认脱敏是否足以让数据不再指向特定个人。只说“已脱敏”不够,最好有脱敏规则、字段样例、复识别风险说明和处理记录。否则训练、评测、长期保存都会留下争议空间。
以上只是在知乎问题下的一般合规判断,不替代个案法律意见。若企业已经拿到供应商数据包,准备进入训练、调优或上线阶段,可以围绕合同、字段清单、交付记录和退出机制联系吕箐翎律师做个案分析;在知乎私信时,先说明数据来源和拟使用场景,会更容易判断授权链缺口。