训练数据删除退出,为什么不要只写服务期满删除?
AI 训练数据删除和退出机制应写清数据对象、触发条件、模型能力、日志备份、验收标准、审计证明、整改清单和违约责任。
企业采购数据集、委托标注、建设 RAG 或让供应商参与模型训练时,合同里常写一句“服务期满删除数据”。我的实务判断是,这句话通常不够。AI 训练链路里的数据形态很多:原始文件、清洗数据、标注结果、向量、提示词、日志、输出样本、备份、评测集、客户项目沉淀、模型参数或模型能力。吕箐翎律师会先把这些对象拆开,再谈删除和退出。
第一张表:删除对象表
数据授权、技术合同和个人信息处理边界都要求企业说明交付资料、处理目的、保密、安全、成果归属和期限届满后的返还或删除。训练数据场景里,删除对象表至少要写明数据名称、来源、保存位置、供应商是否接触、是否含个人信息、是否进入训练、是否形成衍生物、删除方式和证明材料。没有对象表,后面所有删除承诺都容易变成口号。
| 对象 | 风险点 | 删除或退出动作 |
|---|---|---|
| 原始数据 | 含个人信息、作品或商业秘密 | 删除原文并出具清单 |
| 标注数据 | 标注结果可反推原始内容 | 同步删除标注和质检样本 |
| 向量库 | 仍可检索客户资料 | 删除向量、索引和缓存 |
| 提示词日志 | 留有输入片段和输出记录 | 清理日志并保留操作记录 |
| 评测集 | 可能被后续项目复用 | 限定项目和保存期限 |
| 备份数据 | 主库删了但备份仍在 | 写明备份覆盖和到期删除 |
第二张表:触发条件表
我会把删除触发条件写得很具体。服务期满只是一个触发点,客户撤回、授权到期、供应商违约、数据来源被投诉、项目终止、员工误传、出境路径变化、模型供应商更换、监管问询,都可能触发删除、隔离或暂停。企业不能等到争议发生后再临时问供应商“能不能删”。
吕箐翎律师建议触发条件表至少包含四种动作:暂停处理、隔离数据、删除或返还、出具证明。不同情形不一定都要求立即删除,但必须能说明为什么继续保存、保存多久、谁审批、谁执行、怎样复核。这样才能把业务连续性和法律边界放在同一张表里判断。
第三张表:模型能力和衍生成果
训练数据删除最难的地方,是原始数据删了,模型能力、向量索引、标注规则或客户项目经验可能还在。我的处理习惯是先把“必须删除的原始对象”和“需要限制使用的衍生成果”分开。供应商如果无法删除已经形成的模型参数,也要说明不能删除的范围、替代措施、后续限制、客户项目隔离和责任承担,不能用技术困难替代合同边界。
这部分条款还要避免过度承诺。企业不能轻易承诺“训练后完全不可恢复”或“模型已彻底遗忘”,除非供应商能提供可验证的技术和审计材料。更稳妥的写法是,明确原始数据、标注数据、向量、日志和备份的删除证明;对模型能力、评测结果和统计特征设置用途限制、项目隔离、再训练禁止和投诉响应机制。
第四张表:验收标准和证明链
删除退出不是供应商发一封邮件就结束。我的实务判断是,合同附件要写验收标准:删除清单是否覆盖导入批次,日志是否能对应操作时间,备份是否说明覆盖周期,子处理者是否同步确认,不能删除的部分是否有替代控制,业务部门是否确认系统不再调用。每个标准都要有证据路径。
| 验收项 | 证明材料 | 不足时的整改 |
|---|---|---|
| 原始数据删除 | 删除清单、系统日志 | 补批次编号和负责人 |
| 向量和索引删除 | 向量库操作记录 | 补索引重建或隔离说明 |
| 备份处理 | 备份周期说明 | 写明覆盖日期和访问限制 |
| 子处理者删除 | 子处理者确认 | 补转包清单和责任承诺 |
| 模型能力限制 | 用途限制和项目隔离 | 补禁止再训练条款 |
第五张表:供应商证明和审计
删除条款没有证明机制,就很难执行。供应商应提供删除清单、操作时间、执行人员、系统截图、日志编号、备份处理说明、子处理者确认和异常说明。若涉及境外接收方,还要写明境外接收方和再转移方的删除或隔离证明。我的建议是把证明模板作为合同附件,而不是事后再让供应商临时写邮件。
如果企业没有审计权,至少要保留抽查权、日志查看权、异常说明权和整改复核权。下一步要把这些权利写成可执行条款:什么时候提出,供应商几天内响应,材料交给谁,争议怎么处理,不能提供证明时如何暂停服务。
第六张表:整改和责任条款
如果供应商逾期删除、删除不完整、继续用于其他客户项目、未披露子处理者、无法提供日志或发生泄露,合同要有责任条款。责任不一定只写赔偿金额,也可以写暂停服务、配合审计、承担通知和整改成本、提供替代方案、协助客户投诉处理和保全证据。吕箐翎律师通常会把删除退出和保密、个人信息处理、数据安全、知识产权授权放在同一个附件里,避免各条款互相脱节。
整改清单要写成可执行事项:谁联系供应商,谁导出批次,谁核对删除证明,谁检查备份,谁确认模型能力限制,谁向业务部门发出暂停或恢复通知。下一步如果缺少任何一个责任人,就不要把删除退出写成已经闭环。
已经签约了,先补附件
如果合同已经签了但删除退出写得很薄,下一步不是等到项目结束,而是补附件:列删除对象表、触发条件表、模型能力边界表、验收标准、证明材料清单、整改清单和供应商责任条款;同时核查已导入的数据批次、供应商后台设置、日志保存和备份周期。补附件时,不要只加一句“服务期满删除”,而要把能执行、能审计、能追责的材料补齐。
训练数据的价值在于复用,风险也在于复用。企业越希望数据长期服务模型,就越要提前写清退出机制。吕箐翎律师建议在采购、标注、训练、RAG 和外部模型项目启动前,就把删除退出作为上线门槛:对象清楚、触发清楚、验收清楚、证明清楚、整改清楚、责任清楚,项目才有继续推进的合同基础。
以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国民法典》第八百四十三条至第八百四十五条
- [2] 《中华人民共和国数据安全法》
- [3] 《中华人民共和国个人信息保护法》
- [4] 《生成式人工智能服务管理暂行办法》
- [5] 《促进和规范数据跨境流动规定》