RAG 知识库接入客户资料,为什么先看更新删除日志
吕箐翎律师从客户合同、资料清单、入库审批、切片版本、向量索引、访问权限、引用日志、删除回执和复测截图判断 RAG 知识库接入客户资料的合规边界。
吕箐翎律师的判断是:RAG 知识库接入客户资料前,不要只看检索效果和回答准确率。我会先看更新删除日志,因为客户合同、资料清单、入库审批、切片版本、向量索引、访问权限、引用日志、删除回执和复测截图,决定下一步是接入、隔离、冻结版本、撤回权限、通知客户、删除向量、清理缓存、整改还是重新验收。
RAG 项目最容易被低估的风险,是资料被切片、向量化、缓存、召回和引用之后,企业已经说不清哪份客户资料进入了哪个知识库版本。客户资料可能包含个人信息、商业秘密、合同文本、价格策略、技术方案、投诉记录、图片或代码。只在项目启动时签一份合同,不足以覆盖后续新增资料、用途变化、供应商访问、模型调用、客户验收和删除退出。
我的实务判断:先查资料生命周期
我的实务判断是,RAG 知识库至少要有一条资料生命周期线:客户交付、资料接收、入库审批、切片规则、向量化版本、索引版本、调用权限、引用日志、更新记录、删除回执、复测截图和客户验收。没有这条时间线,后续很难解释某个回答引用了哪份材料,资料是否仍在授权期内,客户要求删除时是否真的退出检索链路。
我通常会先问四个问题:资料来自客户、供应商、公开网页还是企业内部;资料中是否含个人信息、作品素材或商业秘密;知识库只服务该客户,还是会被销售、客服、供应商或其他客户复用;删除或更新时,是只删原文件,还是同步删除切片、向量、缓存、索引、备份和引用日志。问题越具体,下一步动作越清楚。
RAG 更新删除日志清单
| 核查项 | 要看的证据对象 | 风险边界 | 下一步动作 |
|---|---|---|---|
| 资料来源 | 客户合同、资料清单、交付邮件、授权范围 | 客户给资料不等于可用于所有模型场景 | 暂停接入,补来源和用途映射表 |
| 入库过程 | 入库审批、切片规则、向量化版本、索引版本 | 只存原文件无法证明检索链路 | 冻结版本,固定处理记录 |
| 权限控制 | 账号权限、访问日志、供应商权限、隔离策略 | 多客户共库会放大泄露和越权风险 | 撤回权限,做权限矩阵 |
| 调用引用 | RAG 引用日志、回答版本、提示词、反馈记录 | 回答准确不等于引用来源合法 | 抽检引用链,保留纠错记录 |
| 更新删除 | 更新单、删除清单、缓存清理、复测截图 | 删除原文不等于切片和向量已删除 | 删除向量、清理缓存、复测召回 |
| 客户验收 | 验收记录、SLA、变更确认、投诉处理 | 验收通过不等于授权永久有效 | 通知客户,重做验收证据包 |
这张清单的目标,是让企业把 RAG 知识库从技术资料库变成可追踪证据链。没有版本表、权限表、删除清单和验收证据包,客户资料很可能在多个版本里反复出现,等到客户投诉、平台通知、泄露事件或合同终止时才发现无法定位。
哪些动作要先停一下
吕箐翎律师建议先暂停三类动作。第一类是把客户资料直接混入通用知识库,让多个客户、销售团队、客服团队或供应商共用,但没有权限矩阵和隔离记录。第二类是把含个人信息、投诉记录、合同、报价、技术文档或图片代码的资料向量化,却没有处理目的、保存期限、删除机制和访问日志。第三类是客户要求更新或删除后,只删前端文件,不处理切片、向量、缓存、索引、备份和引用日志。
这些动作不等于 RAG 不能做,而是要先止损、分库、限权和复测。可以先隔离客户资料,冻结当前知识库版本,撤回供应商权限,删除高风险向量,清理缓存,复测召回结果,向客户发出更正说明,并把验收记录和删除回执放进同一证据包。不能承诺“没有训练模型”就没有个人信息和合同风险,也不能承诺“只做检索增强”就不涉及作品素材和客户资料授权。
第一天下一步动作
第一天不要只让技术团队调召回率。我的处理习惯是先建立三张表:资料来源表、版本日志表、删除退出表。资料来源表列客户合同、资料清单、授权范围、负责人和期限;版本日志表列切片规则、向量化版本、索引版本、引用日志、更新单和验收记录;删除退出表列删除请求、原文件、切片、向量、缓存、索引、备份和复测结果。
如果 RAG 已经接入生产或客户试点,下一步要先查最敏感的资料包:个人信息、合同价格、技术方案、投诉材料、未公开产品资料和第三方作品。对高风险资料先隔离或下线,对知识库版本做冻结,对客户和供应商权限做回收,对回答引用日志做抽检。具体能否继续接入、是否要补授权、是否需要删除、分库或通知客户,必须结合客户合同、资料来源、个人信息、作品素材、访问权限、调用记录和删除机制判断。以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《中华人民共和国著作权法》
- [5] 《生成式人工智能服务管理暂行办法》