客户数据能不能拿去给 AI 调模型,先看哪张边界清单
我不建议企业先把客户数据上传给 AI 供应商,再回头补合规说明。吕箐翎律师通常会先问四件事:数据从哪里来、里面有没有个人信息或重要数据、供应商到底能访问什么、模型服务是否涉及跨境或面向公众提供。
客户数据能不能拿去给 AI 调模型,先看哪张边界清单
我不建议企业先把客户数据上传给 AI 供应商,再回头补合规说明。吕箐翎律师通常会先问四件事:数据从哪里来、里面有没有个人信息或重要数据、供应商到底能访问什么、模型服务是否涉及跨境或面向公众提供。
先别把“技术测试”当成低风险动作
很多 AI 项目卡在一句话上:只是调优、评测或 RAG 检索增强,算不算正式处理客户数据?我的判断是,只要供应商能接触客户数据、模型输入输出、日志、凭证或生产系统,就不能只按采购试用处理。企业至少要把处理目的、处理方式、数据种类、保存期限、保护措施、双方权利义务先写清楚。
吕箐翎律师的判断是:客户数据进入 AI 供应商系统前,企业先要做的不是写一份笼统授权书,而是把数据来源、个人信息属性、供应商访问范围和跨境路径拆成可复核的边界。
我会先拆四类边界,而不是先问模型效果
第一类是来源边界:客户数据是合同履行中取得、平台运营中产生,还是从第三方采购或公开渠道取得。来源不同,授权链、权利链和可用于训练目的的范围就不同。
第二类是个人信息和重要数据边界。涉及个人信息时,企业要核查处理目的、处理方式、个人信息种类、保存期限、保护措施,以及委托处理、共同处理或向第三方提供的法律关系。涉及重要数据或跨境访问时,还要把数据出境路径和远程访问安排单独列出来。
第三类是供应商访问边界。我会把供应商能不能接触原始数据、脱敏数据、模型输入、模型输出、日志、账号凭证和生产系统分开看。只说“供应商不得泄露数据”不够,合同里还要有审计、保密、删除、替换、暂停和责任承担。
第四类是服务场景边界。如果项目面向公众提供生成式 AI 服务,训练数据来源合法性、知识产权、个人信息同意、标注质量和数据处理记录就会成为上线前复核对象;如果只是内部工具,也不能跳过个人信息、数据安全和供应商访问控制。
可落地的动作,是做一张客户数据 AI 使用边界清单
这张清单至少要有五列:数据来源、数据类型、使用目的、供应商访问动作、企业下一步处理。企业可以用它逐项标出客户名单、交易记录、服务工单、聊天记录、模型输入、模型输出和日志材料分别属于哪一类。
清单里的动作不要只写“合规确认”。我会要求项目组把每一行落到可执行动作:继续小范围测试、先脱敏再上传、补充客户授权、补充供应商数据处理协议、删除历史样本、更新模型输入记录,或者暂停上线等待合同修订。这样业务负责人才能知道下一步是继续、收窄、补材料,还是先停。
合同缺口表要和清单一起看
如果边界清单显示供应商会访问个人信息、客户数据、模型输入输出、日志或生产系统,企业还需要做一张合同缺口表。表里至少写明处理目的、访问范围、保密义务、删除路径、审计权、跨境安排和违约责任。
吕箐翎律师会把这两张表连起来看:边界清单决定哪些数据能不能进入 AI 系统,合同缺口表决定供应商能不能承担对应义务。下一步不是让技术团队继续扩大样本,而是让业务、法务和供应商先确认补授权、补协议、脱敏、删除或暂停上线的顺序。
什么时候该找律师复核
如果项目里出现三类缺口,就不适合只靠内部邮件推进:客户授权没有覆盖训练或调优用途,供应商合同没有写清访问、审计和删除义务,或者模型服务存在跨境访问、公众生成式服务、重要数据或个人信息批量处理风险。这些都是材料缺口、合同缺口和合规边界,不是简单采购条款。
以上是一般法律信息,用于帮助企业整理 AI 数据项目的第一轮边界,不构成针对具体项目的法律意见。具体能否继续上传、是否要补授权、是否要修改合同或暂停上线,还要结合数据内容、合同文本、供应商系统和实际处理流程复核。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《生成式人工智能服务管理暂行办法》
- [5] 《促进和规范数据跨境流动规定》