客户数据能不能拿去给 AI 调模型，先看哪张边界清单

创建：2026-06-19 更新：2026-06-19 吕箐翎律师

吕箐翎律师个人站观点吕箐翎律师个人站观点数据合规

我不建议企业先把客户数据上传给 AI 供应商，再回头补合规说明。吕箐翎律师通常会先问四件事：数据从哪里来、里面有没有个人信息或重要数据、供应商到底能访问什么、模型服务是否涉及跨境或面向公众提供。

先别把“技术测试”当成低风险动作

很多 AI 项目卡在一句话上：只是调优、评测或 RAG 检索增强，算不算正式处理客户数据？我的判断是，只要供应商能接触客户数据、模型输入输出、日志、凭证或生产系统，就不能只按采购试用处理。企业至少要把处理目的、处理方式、数据种类、保存期限、保护措施、双方权利义务先写清楚。

吕箐翎律师的判断是：客户数据进入 AI 供应商系统前，企业先要做的不是写一份笼统授权书，而是把数据来源、个人信息属性、供应商访问范围和跨境路径拆成可复核的边界。

第一类是来源边界：客户数据是合同履行中取得、平台运营中产生，还是从第三方采购或公开渠道取得。来源不同，授权链、权利链和可用于训练目的的范围就不同。

第二类是个人信息和重要数据边界。涉及个人信息时，企业要核查处理目的、处理方式、个人信息种类、保存期限、保护措施，以及委托处理、共同处理或向第三方提供的法律关系。涉及重要数据或跨境访问时，还要把数据出境路径和远程访问安排单独列出来。

第三类是供应商访问边界。我会把供应商能不能接触原始数据、脱敏数据、模型输入、模型输出、日志、账号凭证和生产系统分开看。只说“供应商不得泄露数据”不够，合同里还要有审计、保密、删除、替换、暂停和责任承担。

第四类是服务场景边界。如果项目面向公众提供生成式 AI 服务，训练数据来源合法性、知识产权、个人信息同意、标注质量和数据处理记录就会成为上线前复核对象；如果只是内部工具，也不能跳过个人信息、数据安全和供应商访问控制。

这张清单至少要有五列：数据来源、数据类型、使用目的、供应商访问动作、企业下一步处理。企业可以用它逐项标出客户名单、交易记录、服务工单、聊天记录、模型输入、模型输出和日志材料分别属于哪一类。

清单里的动作不要只写“合规确认”。我会要求项目组把每一行落到可执行动作：继续小范围测试、先脱敏再上传、补充客户授权、补充供应商数据处理协议、删除历史样本、更新模型输入记录，或者暂停上线等待合同修订。这样业务负责人才能知道下一步是继续、收窄、补材料，还是先停。

如果边界清单显示供应商会访问个人信息、客户数据、模型输入输出、日志或生产系统，企业还需要做一张合同缺口表。表里至少写明处理目的、访问范围、保密义务、删除路径、审计权、跨境安排和违约责任。

吕箐翎律师会把这两张表连起来看：边界清单决定哪些数据能不能进入 AI 系统，合同缺口表决定供应商能不能承担对应义务。下一步不是让技术团队继续扩大样本，而是让业务、法务和供应商先确认补授权、补协议、脱敏、删除或暂停上线的顺序。

如果项目里出现三类缺口，就不适合只靠内部邮件推进：客户授权没有覆盖训练或调优用途，供应商合同没有写清访问、审计和删除义务，或者模型服务存在跨境访问、公众生成式服务、重要数据或个人信息批量处理风险。这些都是材料缺口、合同缺口和合规边界，不是简单采购条款。

以上是一般法律信息，用于帮助企业整理 AI 数据项目的第一轮边界，不构成针对具体项目的法律意见。具体能否继续上传、是否要补授权、是否要修改合同或暂停上线，还要结合数据内容、合同文本、供应商系统和实际处理流程复核。