数据标注外包签合同前,3 个权属和保密问题怎么查?
这是一篇知乎稿件。为便于检索、归档与阅读,收录于“公开发声”。
1. 先把对象拆开,不要笼统写“数据归甲方”
先给结论:数据标注外包不能只看报价、标注量和交付日期。真正容易出争议的,是原始数据能不能交给供应商处理、标注成果到底归谁、供应商人员接触数据后怎么保密和留痕。合同签前先把这 3 个问题查清,再谈验收。
1. 先把对象拆开,不要笼统写“数据归甲方”
数据标注项目里至少有四类对象:原始数据、标注规则或标注规范、标注后的结果数据、过程中的账号日志和质量记录。很多合同只写“成果归甲方”,但没有说清原始数据是否可复制、标注规则是否可复用、供应商能不能拿样本训练内部工具。
更稳妥的做法,是在合同和附件里逐项列明:哪些数据只是委托处理,哪些交付物可以由企业取得使用权或权属安排,哪些工具、模板、通用经验仍由供应商保留。这样后续发生争议时,双方至少能回到具体对象,而不是争论一句口号。
2. 原始数据来源和处理目的要先过一遍
如果标注数据里包含个人信息、客户资料、图片、音频、业务记录或第三方内容,企业要先确认自己有没有合法来源和处理基础。《个人信息保护法》《数据安全法》《网络数据安全管理条例》都指向一个底层要求:数据处理活动不能脱离来源、目的、必要性和安全义务。
所以,签合同前要形成一张材料表:数据来源说明、是否含个人信息或重要数据、标注目的、是否用于训练、微调或评测、授权或告知同意依据、供应商是否再委托。缺哪一项,就不要只靠供应商承诺“我们会合规”。
3. 权属条款要和验收条款连在一起
权属不是一句“归甲方所有”就够。企业真正要拿到的,通常是可使用、可追溯、可复验的交付包。至少要把样本范围、标注字段、质量标准、返工规则、交付格式、版本记录、验收期限、缺陷处理和争议样本复核机制写清楚。
例如,一个图像标注项目交付 10 万条结果,但没有保留抽检记录、标注人员批次、返工日志和规则版本。后面如果模型效果异常,或者供应商主张标注规则是其通用资产,企业很难证明自己取得了什么、验收了什么、问题从哪里来。
4. 保密和权限控制要落到人、账号和记录
保密条款不要只写“乙方应保密”。数据标注的风险常常发生在分包、兼职人员、临时账号、下载副本和离线传输环节。合同里应当明确接触数据的人员范围、账号权限、访问方式、禁止复制下载、留痕要求、离职或项目结束后的权限回收。
如果供应商需要使用自动化工具或生成式人工智能工具辅助标注,还要写清能不能上传企业数据、能不能用于训练或改进工具、输出结果是否进入第三方系统。《生成式人工智能服务管理暂行办法》相关要求也提醒企业关注训练数据来源合法性和知识产权边界。
5. 很多人容易错在把“验收通过”当成风险结束
误区是:只要供应商按期交了标注文件,企业就认为权属和保密问题结束了。反例是,交付后发现标注数据混入未经授权的第三方素材,或者供应商把同一批标注样本用于其他客户项目。此时企业需要的不是口头解释,而是合同、权限记录、删除返还确认和审计留痕。
处理顺序可以简单记成三步:第一步查数据来源和处理目的;第二步查成果、规则、工具、日志分别怎么归属和使用;第三步查人员权限、保密、删除返还和争议复核材料是否能拿出来。
6. 常见问题
问:是不是所有标注成果都必须归企业所有?
不一定。关键要看项目目标和交易安排。企业至少要确保自己取得业务所需的使用、复制、修改、训练或交付权利,并能证明供应商不能把受限数据和专属成果转给别人用。
问:供应商承诺合规,企业还要查吗?
要查。承诺只能降低沟通成本,不能替代来源证明、权限记录和验收材料。尤其涉及个人信息、重要数据或 AI 训练用途时,企业仍要保留自己的审查链条。
以上是一般法律信息,不替代具体项目的法律意见。若你在知乎提问的数据标注外包已经涉及客户数据、训练用途或供应商再利用争议,可以围绕合同、账号日志、交付包和删除返还记录联系吕箐翎律师做个案分析。
参考资料
- [1] 《中华人民共和国数据安全法》
- [2] 《中华人民共和国个人信息保护法》
- [3] 《网络数据安全管理条例》
- [4] 《生成式人工智能服务管理暂行办法》