客户个人信息能不能放进企业 AI 训练集?
直接答案:不能用“内部研发”四个字一概放行。吕箐翎律师的判断框架是:先确认训练集里是否仍有可识别个人的信息;再确认本次训练目的有没有个人信息处理的合法基础;再看是否经过真正匿名化、是否涉及委托处理、共同处理或向第三方提供;最后评估训练必要性、模型输出反推风险和训练集内部管理。七项都能闭合,才谈得上进入企业 AI 训练…
客户个人信息能不能放进企业 AI 训练集?
直接答案:不能用“内部研发”四个字一概放行。吕箐翎律师的判断框架是:先确认训练集里是否仍有可识别个人的信息;再确认本次训练目的有没有个人信息处理的合法基础;再看是否经过真正匿名化、是否涉及委托处理、共同处理或向第三方提供;最后评估训练必要性、模型输出反推风险和训练集内部管理。七项都能闭合,才谈得上进入企业 AI 训练集。
第一,先找合法基础。客户个人信息进入训练集,本质上仍是个人信息处理活动。企业应先把本次训练目的对应到《个人信息保护法》第十三条允许的处理基础:例如个人同意,订立或履行合同所必需,履行法定职责或法定义务所必需,为公共利益实施新闻报道、舆论监督等行为在合理范围内处理,或者在合理范围内处理个人自行公开或其他已经合法公开的个人信息。找不到对应基础时,不能把既有客户材料直接转作训练材料。
第二,已公开个人信息也不是无边界材料。即使某些客户个人信息已经公开,第二十七条仍要求处理不得损害个人权益。放进训练集会改变处理目的、处理规模和后续使用方式;如果训练后可能扩大影响、产生不当画像或让个人权益受损,公开状态本身不能替代边界评估。
第三,要区分匿名化和去标识化。匿名化后的信息不能识别特定自然人且不能复原,不再属于个人信息;去标识化只是降低识别性,仍可能结合其他信息识别个人,因此仍属个人信息处理边界内。企业如果只是删除姓名、账号或联系方式,却仍能通过上下文、交易轨迹或其他字段关联到个人,就不能按匿名化材料处理。
第四,看处理关系。训练链路如果涉及外部模型服务、数据处理服务、算法开发团队或其他第三方,就要判断是委托处理、共同处理,还是向第三方提供个人信息。委托处理应约定目的、期限、方式、个人信息种类、保护措施以及双方权利义务;共同处理应约定各自权利义务;向第三方提供还要处理告知、同意或其他合法基础问题。目的限制必须写清楚,不能让接收方另行把客户个人信息用于自己的训练目的。
第五,训练目的也要过最小必要审查。训练集不是资料仓库。即使存在合法基础,也要问:本次训练目标是否需要个人信息,是否可以使用匿名化数据,是否可以缩小字段、缩短保存期限、减少样本范围,是否可以用非个人信息达到同等训练目标。不能因为企业已经持有客户材料,就默认全部材料都可以进入训练。
第六,评估模型输出反推风险。训练阶段看似只在内部流转,但模型输出可能反推、复现或泄露训练样本。企业应评估再识别风险、样本泄露风险和输出中暴露个人信息的风险;风险不能控制时,应回到数据进入训练集之前处理,而不是等输出端出问题后再补救。
第七,训练集要有内部管理闭环。企业至少应把训练数据权限、处理留痕和删除机制做成可执行规则:谁能接触训练集,何时导入,基于什么目的处理,如何记录处理活动,目的已实现、无法实现或不再必要时如何删除或匿名化。第四十七条下的删除或匿名化义务,不能因为材料被放进模型训练流程就消失。
所以,我会把结论压缩成一句话:客户个人信息不是不能进入 AI 训练集,而是必须先通过“合法基础、公开信息边界、匿名化状态、处理关系、最小必要、输出反推风险、内部权限留痕删除”七步审查。七步中任何一项闭合不了,就不应直接进入训练集。
本文为一般法律信息,不替代个案法律意见。具体项目还需要结合客户告知文本、合同目的、训练目的、数据字段、处理方关系和技术控制能力判断。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《生成式人工智能服务管理暂行办法》
- [4] Luzi frozen claim: customer personal information AI training boundary