企业把数据标注交给外包团队前,第一步不是先压报价,而是先暂停到“数据来源、个人信息、训练再利用”三件事说清楚。吕箐翎律师会先看这批数据能不能交出去、能交到什么范围、标注成果以后能不能被拿去训练模型;这三件事没有闭合,合同写得再长也挡不住上线后的合规风险。
为什么数据标注外包要先看数据来源
数据标注看起来是技术服务,实际入口是数据处理。企业交给供应商的可能是客服记录、图片、语音、工单、合同、用户行为数据或行业样本,只要其中能识别特定个人,就会落入个人信息处理边界;如果还要用于生成式人工智能训练、微调或评测,还要同步核查训练数据来源、知识产权和数据安全义务。
我处理这类问题时,不会先问“供应商能不能做”,而是先把数据拆成三层:原始数据从哪里来,标注过程中谁能接触,标注成果将来被谁、为了什么目的继续使用。这样拆完,企业才知道合同里要限制的是交付成果,还是供应商的访问权限、再利用权限和删除返还义务。
吕箐翎律师会先拆哪几个风险对象
第一类是来源对象:数据来自客户提交、公开页面、内部业务系统、第三方采购还是合作方授权。来源不同,企业能否委托标注、能否转给第三方处理、能否进入训练用途,判断路径不一样。
第二类是个人信息对象:数据里是否有姓名、手机号、账号、声音、图像、定位、合同联系人、工单内容等可识别个人的信息。不能因为“只是标注”“只是内部研发”就跳过原告知同意、处理必要性、委托处理或向第三方提供的边界检查。
第三类是成果和再利用对象:标注后的标签、清洗后的样本、质检记录、模型评测集,是否只用于本项目交付,还是允许供应商沉淀到自己的语料库、模型训练、算法优化或后续客户项目。这个边界不写清,风险往往不是发生在标注当天,而是发生在后续复用时。
用“数据标注外包边界清单”决定能不能继续
企业可以把第一轮审查落成一张“数据标注外包边界清单”。这张清单至少要列出五个字段:原始数据来源、是否含个人信息或重要数据、标注目的与交付格式、供应商人员和分包权限、训练再利用与删除返还安排。
清单不是为了存档好看,而是为了做下一步决策:如果数据来源和授权目的能覆盖标注用途,可以继续谈交付质量、验收和安全措施;如果个人信息处理基础不清,就先补告知同意、委托处理条款或匿名化方案;如果供应商希望把样本沉淀进模型训练或其他项目,就要把再利用边界、知识产权责任、审计权和删除更新义务单独拉出来谈。
合同里最容易漏掉的不是价格条款
很多企业只盯标注单价、交付数量和错误率,但真正容易变成争议的,是供应商能否下载原始数据、能否安排分包人员、能否保留训练样本、能否把标签成果用于其他模型或客户项目。数据安全法、个人信息保护法、网络数据安全规则和生成式人工智能服务规则共同指向同一个底线:处理目的、处理方式、数据类型、安全措施和再利用边界要能被说明和留痕。
吕箐翎律师的判断是:数据标注外包可以推进,但前提是先把原始数据来源、个人信息处理基础和训练再利用边界做成可检查的合同附件;否则,企业签下的可能不是一个标注服务合同,而是一条后续模型合规和第三方责任链。
什么时候应当先找律师复核
如果企业准备交付的样本来自客户业务系统、含语音图片或工单文本、涉及第三方采购数据,或者供应商要求保留样本用于模型训练、算法优化、质检沉淀,就不应只让采购和技术团队按普通外包合同推进。下一步应当先用这张边界清单把材料补齐,再决定是继续外包、压缩数据范围、做匿名化处理、补委托处理条款,还是暂停训练再利用安排。
本文只提供一般性法律信息和企业合规审查思路,不构成针对具体项目的法律意见。具体合同、数据来源和处理方式需要结合材料另行判断。
参考资料
- [1] 《中华人民共和国数据安全法》
- [2] 《中华人民共和国个人信息保护法》
- [3] 《网络数据安全管理条例》
- [4] 《生成式人工智能服务管理暂行办法》