客户数据训练AI,为什么先别让研发直接接库?
客户数据进入 AI 训练、微调、评测或 RAG 前,应先核查数据目录、授权边界、供应商处理、出境路径、止损和整改证据。
企业准备把客户数据放进 AI 模型训练、微调、评测或 RAG 知识库时,我通常不会先问模型效果,而会先问:这批数据原来为什么收集、现在准备让谁处理、训练后会不会变成新的模型能力。吕箐翎律师的判断是,客户数据不是“公司已经有的数据”这么简单。客户姓名、电话、地址、账号、客服语音、订单、合同、投诉截图、售后工单、行为偏好,只要能够识别特定个人,就要先看个人信息处理边界,不能用“内部研发”一句话覆盖新的训练目的。
第一张表:数据目录表
我会先让企业暂停直接接库,做字段级数据目录。目录表至少写明来源、字段、保存系统、原处理目的、拟训练目的、访问人员、供应商、保存期限和删除方式。个人信息处理规则强调目的明确、合理、必要,数据安全和网络数据安全规则也要求企业识别数据类型、风险和保护措施。若企业说不清哪些字段进入训练集,下一步不是训练,而是先建台账、权限表和删除机制。
| 数据对象 | 先看什么 | 下一步 |
|---|---|---|
| 身份联系方式 | 是否能识别特定个人 | 最小化、脱敏、补告知 |
| 客服语音和工单 | 是否含投诉、录音、截图、敏感叙述 | 截断敏感内容、限制权限 |
| 合同和订单 | 原合同目的是否覆盖训练 | 做用途比对表 |
| 行为日志 | 是否形成画像、偏好或轨迹 | 限制字段和保存期限 |
| 供应商接口 | 是否委托处理或第三方提供 | 签处理协议、留日志 |
| 境外模型调用 | 是否跨境传输或远程访问 | 先做出境路径判断 |
第二张表:授权边界表
客户同意注册、下单或接受售后服务,不等于同意企业把资料用于模型训练;客户签过服务合同,也不等于允许企业把合同、工单和语音交给外部算法供应商。我的实务判断是,训练、微调、评测、RAG、标注质检、产品改进、客户交付,应分别判断。授权边界表通常给出四个结论:可以继续、脱敏后继续、补授权后继续、暂停或删除。
这张表还要对应证据包。证据包包括告知文本、同意记录、合同条款、版本截图、审批记录、字段脱敏说明、删除策略和上线前复核记录。没有这些材料,即使模型效果很好,客户投诉或监管问询时也很难解释“为什么当时可以用”。吕箐翎律师建议把授权表交给业务、研发和管理层共同确认,避免法务事后才知道真实训练范围。
第三张表:供应商处理表
只要模型厂商、标注公司、云服务商或外部算法团队接触客户数据,就可能出现委托处理、共同处理或第三方提供的问题。吕箐翎律师通常会看供应商是否保存原始数据、是否默认用于自有模型训练、是否允许转包、是否能按要求删除、是否保留访问日志、是否隔离不同客户项目。供应商页面写“默认不训练”不够,下一步要落到合同附件、权限截图、日志导出方式和删除证明模板。
供应商表还要写异常处理:员工误传客户表怎么办,供应商发生泄露怎么办,客户要求删除怎么办,模型已经训练怎么办,是否能导出版本、时间线、后台截图和访问记录。没有这些材料,企业后续只能靠口头解释,止损、谈判和整改都会被动。
第四张表:出境路径表
使用境外模型 API、境外云端标注、海外团队远程访问境内客户库,或者把训练数据同步到境外环境,都要先判断数据出境路径。数据跨境流动规则要求识别数据类型、个人信息规模、重要数据、境外接收方、处理目的和再转移安排。我的建议是,只要项目里出现境外接口、境外账号、境外团队或远程访问,就先暂停自动同步,补一张路径表,再判断适用路径。
已经上传了,先做止损清单
如果员工已经把客户表上传给 AI 工具,或者供应商已经把数据用于模型训练,下一步不是先写声明,而是先止损:关闭接口、冻结训练任务、导出后台日志、保全上传截图、通知供应商隔离或删除、核查是否需要告知个人。随后再补数据目录、授权表、供应商表、出境路径表、整改审批记录和管理层签字。
管理层签字前,还要问三个业务问题
我通常还会让企业在管理层签字前回答三个问题。第一,训练收益是什么,是降低客服成本、提升检索效率,还是形成对外收费功能;如果只是内部试验,就不应使用完整客户库。第二,失败后怎么回滚,是删除训练任务、替换向量库,还是停用某个供应商接口;如果没有回滚方案,就不要把客户数据放进不可解释的长期训练。第三,客户是否会看到输出结果;如果输出会进入报告、合同、营销文案或客服回复,就要增加人工复核、版本记录和投诉替换机制。
这些问题看似业务问题,其实会反过来决定法律边界。训练收益越高、对外输出越明显、供应商参与越深,企业越需要把授权、脱敏、日志、删除和责任写清。吕箐翎律师建议把这三个问题写进审批记录,连同四张表一起保存。这样后续出现争议时,企业能说明当时不是随意把客户资料交给模型,而是基于目的、范围、风险和止损方案做过判断。
吕箐翎律师建议企业把 AI 训练项目固定成五份材料:数据目录表、授权边界表、供应商处理表、出境路径表、事故止损清单。五份材料齐全,才进入训练或微调;五份材料缺失,先补合同、补权限、补删除机制、补供应商承诺和补审批。这样做不是拖慢研发,而是让企业在模型吸收客户数据之前,把风险边界、证据和下一步动作说清楚。
以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《促进和规范数据跨境流动规定》
- [5] 《生成式人工智能服务管理暂行办法》