数据标注外包,怎样避免成果权属和保密争议?
直接答案:吕箐翎律师的建议是,数据标注外包合同不要只写“完成标注任务”和“成果归甲方”。企业要先把原始数据、标注成果、工具规则、人员权限、保密义务和交付验收写成一套闭环:谁提供什么数据、供应商能怎样接触和处理、标签和规则文件归谁、能不能再用于模型训练或其他项目、验收不合格怎么返工、项目结束后如何返还删除和留痕。
数据标注外包,企业怎样避免成果权属和保密争议?
直接答案:吕箐翎律师的建议是,数据标注外包合同不要只写“完成标注任务”和“成果归甲方”。企业要先把原始数据、标注成果、工具规则、人员权限、保密义务和交付验收写成一套闭环:谁提供什么数据、供应商能怎样接触和处理、标签和规则文件归谁、能不能再用于模型训练或其他项目、验收不合格怎么返工、项目结束后如何返还删除和留痕。
第一,先锁定原始数据。合同前要核查数据来源、数据类型、标注目的、是否含个人信息、是否可能涉及重要数据,以及供应商接触数据的必要范围。不要把“甲方提供数据”写成一句空话,而要列明数据批次、字段范围、交付方式、访问环境、保存期限和禁止用途。涉及个人信息时,还要写清处理目的、处理方式、个人信息种类、保存期限、保护措施和委托处理责任,避免供应商把标注任务扩大成画像、营销、训练或再提供。
第二,区分原始数据和标注成果。很多争议来自一句“成果归属甲方”覆盖得太粗。合同应分别写清原始数据、清洗数据、标签数据、标注说明、质检记录、错误样本、统计报告、模型评测结果和交付文件的归属与使用边界。企业通常要确保供应商不得因参与标注而主张原始数据、标签集合或交付成果的独立处分权;如果允许供应商保留通用经验,也要排除对具体数据、标签样本和可反推客户业务的信息的使用。
第三,锁定工具规则。数据标注不是单纯人工打标签,往往还包括标注规范、标签体系、质检规则、脚本、辅助工具、提示词、样例库和问题处理记录。合同要写明这些工具和规则是谁提供、谁维护、谁可以复用、是否包含第三方工具、是否会把数据提交给外部模型服务。如果标注结果将用于生成式人工智能训练、微调或评测,还要同步核查训练数据来源合法性、知识产权边界、个人信息处理基础、标注质量和数据处理活动记录。
第四,限制人员权限。保密争议多数不是合同没有保密条款,而是权限没有落到人、账号、系统和供应商层级。合同应要求供应商列明项目人员、分包或众包安排、账号权限、访问地点、设备环境、下载导出限制、日志留存和离岗删除。未经书面同意,不应允许供应商再分包、转包、众包、让关联方接触数据,或者把数据上传到外部协作平台、模型接口和个人设备。
第五,把保密义务写到可执行。保密范围应覆盖原始数据、标签结果、标注规则、项目需求、业务场景、样本截图、错误案例、接口信息、访问凭证、质检记录和由这些材料形成的中间文件。还要约定不得反向识别、不得复制留存、不得用于其他客户项目、不得作为案例展示、不得训练自有或第三方模型;发生泄露、误传、异常访问或监管问询时,供应商应立即通知、停止扩散、配合排查、保全日志并承担相应责任。
第六,写清交付验收。交付物不只是一批标签文件,还应包括数据批次说明、标签字段、格式要求、抽检比例、准确率或一致性要求、质检方法、返工机制、版本记录和缺陷处理期限。企业要约定验收通过不等于放弃追究隐蔽的数据安全、个人信息、权属或保密问题;验收后发现超范围处理、私自留存、擅自复用或泄密的,仍应触发删除返还、补充证明、赔偿和配合处置。
第七,写清项目结束后的退出。合同应要求供应商在项目结束、合同解除、授权基础消失或企业提出要求时,返还或删除原始数据、标签数据、备份、缓存、截图、临时文件、日志导出和中间成果,并提交删除或返还证明。对依法需要留存的日志或争议证据,应限定留存范围、期限和访问权限,不能变成继续使用数据的口袋条款。
所以,数据标注外包的关键不是把权属和保密条款写得很长,而是把“数据从哪里来、谁能看、按什么规则标、交付什么成果、成果归谁、能不能复用或训练、怎么验收、结束后怎么清掉、出事后怎么追责”逐项落到合同和操作记录里。这样,数据安全、个人信息保护、网络数据安全和生成式 AI 训练数据要求,才会转化为可检查、可交付、可追责的合同安排。
本文为一般法律信息,不替代个案法律意见。企业准备数据标注、数据清洗、训练数据加工、模型评测或外包质检项目前,应先围绕原始数据来源、个人信息处理、成果归属、保密范围、供应商权限、交付验收和退出删除逐项核查。
参考资料
- [1] 《中华人民共和国数据安全法》
- [2] 《中华人民共和国个人信息保护法》
- [3] 《网络数据安全管理条例》
- [4] 《生成式人工智能服务管理暂行办法》