AI 模型评测集上线前,为什么先看数据来源表
吕箐翎律师从来源表、字段表、授权矩阵、样本版本表、删除清单、供应商访问日志、验收证据包和复测记录判断 AI 模型评测集上线前的合规动作。
吕箐翎律师的判断是:AI 模型评测集上线前,不要只问准确率、召回率和覆盖场景。我会先看数据来源表,因为评测集进入训练、微调、回归测试、客户验收、销售演示或对外宣传后,来源表、字段表、授权矩阵、样本版本表、删除清单、供应商访问日志、验收证据包和复测记录,会直接决定下一步是上线、隔离、暂停、补授权、匿名化、删除还是整改。
评测集不是普通测试文件。它可能包含客户工单、聊天记录、语音转写、图片、代码片段、用户评价、供应商标注结果、公开网页内容、后台截图和内部故障材料。企业如果只保留模型分数,不保留样本来源、采集时间、授权合同、脱敏脚本、标注人员权限、比对记录和删除回执,后续很难解释这些材料能不能用于训练、能不能交给客户看、能不能放进销售 PPT,或者收到删除要求时该删哪一个版本。
我的实务判断:先做三张表
我的实务判断是,评测集上线前先做三张表:数据来源表、字段风险表、用途动作表。数据来源表列客户合同、公开链接、采购合同、供应商交付单、采集后台截图和负责人;字段风险表列个人信息、敏感字段、作品素材、商业秘密、脱敏规则、抽检截图和复识别风险;用途动作表列训练、微调、评测、客户验收、销售演示、供应商共享和删除退出。
我通常不会只接受“已脱敏”“仅测试”“不对外”这些口径。更有用的是证据包:样本 ID、原始数据位置、脱敏脚本版本、授权范围、字段清单、标注合同、访问日志、质检报告、返工记录、验收邮件、删除清单和复测截图。证据越具体,越容易判断下一步是放行、隔离、下架、整改,还是先发函要求供应商补材料。
评测集上线前的证据清单
| 核查项 | 要看的证据对象 | 风险边界 | 下一步动作 |
|---|---|---|---|
| 来源表 | 客户合同、公开链接、采购合同、采集截图 | 来源不清不能只靠内部测试覆盖 | 暂停上线,补来源时间线 |
| 字段表 | 字段清单、脱敏脚本、抽检截图、删除回执 | 脱敏说明不等于匿名化完成 | 隔离敏感字段,复测复识别风险 |
| 授权矩阵 | 授权合同、用途范围、转授权、期限 | 可看不等于可训练、可评测、可宣传 | 补授权或移出对外版本 |
| 供应商日志 | 标注合同、人员权限、访问日志、质检报告 | 外包标注可能带来泄露和成果归属问题 | 收回权限,补质检和返工记录 |
| 版本表 | 样本版本、模型版本、评测报告、验收记录 | 评测通过不等于合规放行 | 标注版本,留客户验收证据包 |
| 删除清单 | 删除请求、样本 ID、备份位置、复测截图 | 只删源文件不等于链路关闭 | 删除、复测、留回执并更新清单 |
这张清单的目标,是让企业把评测集从“模型测试材料”变成可审查证据链。没有这些表格和证据包,评测集很容易被复用于训练、销售和客户交付,等到客户投诉、平台通知、供应商争议或删除请求出现时才发现无法定位。
哪些动作要先暂停
吕箐翎律师建议先暂停三类动作。第一类是把含客户个人信息、聊天记录、合同、工单、语音图片的样本直接进入评测后台,却没有授权矩阵、脱敏记录和删除清单。第二类是从公开网页、图库、论坛、开源仓库或竞品页面采集样本,没有来源链接、采集规则、版权比对和过滤记录。第三类是供应商交付标注数据后,企业只拿验收结论,不看人员权限、访问日志、质检报告、返工记录和成果归属。
暂停不是否定项目,而是先止损和分层。高风险样本先隔离,客户数据先限定内部评测,公开素材先做版权和来源比对,供应商数据先补合同和权限日志,已经进入销售演示的版本先下架或换成低风险样本。不能承诺评测通过就等于合规,也不能用“只用于测试”替代个人信息、作品素材和合同目的核查。
如果已经发生客户投诉、平台通知或供应商争议,还要把投诉材料、处理节点、替换样本、沟通截图和整改时间线放入同一证据包,避免后续只剩口头说明。
第一天下一步动作
第一天不要只让算法团队补指标。我的处理习惯是先建立证据包:来源表、字段表、授权矩阵、样本版本表、删除清单、供应商访问日志、质检报告、评测报告、客户验收邮件和复测截图。然后按商业目标分流:如果目标是内部模型调优,下一步是隔离权限和匿名化;如果目标是客户验收,下一步是补授权和版本说明;如果目标是对外宣传,下一步是移除高风险素材并保留替换记录。
具体能否继续使用、是否要补授权、是否需要删除、匿名化或下架,必须结合数据来源、个人信息类型、作品素材、合同目的、供应商权限、评测用途和实际传播范围判断。以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《中华人民共和国著作权法》
- [5] 《生成式人工智能服务管理暂行办法》