RAG知识库导入客户合同资料,为什么先别全量同步?
RAG 知识库接入客户资料、合同、工单和文档前,应先做数据目录、授权边界、供应商权限、检索输出、整改清单和删除退出记录。
企业做 RAG 知识库时,最容易把“内部资料已经在网盘里”误解成“可以直接全量同步到向量库”。我的实务判断是,RAG 不是普通搜索升级,而是把资料变成可被模型检索、组合和输出的长期能力。客户合同、售后工单、会议纪要、项目方案、报价单、图片附件、源代码说明、供应商材料,只要进入知识库,就可能改变原来的处理目的、访问范围和输出对象。吕箐翎律师通常会先叫停全量同步,先做资料分级目录,再列下一步整改清单。
第一张表:资料分级目录
我会先让企业把待导入资料按“能不能导入、是否要脱敏、谁能检索、能不能输出给客户”分成四类。个人信息处理、数据安全、网络数据安全和生成式 AI 服务规则都要求企业关注处理目的、必要性、数据类型、来源合法性和安全保护。合同规则还要求交付资料、保密义务、成果边界和退出安排说清楚。资料分级目录不是形式表,而是决定研发能不能继续同步的第一道门。
| 资料类型 | 先看什么 | 下一步 |
|---|---|---|
| 客户合同 | 原合同目的、保密条款、联系人信息 | 做用途比对和字段脱敏 |
| 售后工单 | 投诉内容、电话地址、截图附件 | 删除敏感段落,限制检索角色 |
| 内部方案 | 是否含商业秘密或第三方素材 | 标注保密级别和授权来源 |
| 产品手册 | 是否含作品、图片、代码片段 | 核查授权和可再利用范围 |
| 会议纪要 | 是否含客户决策、价格、人员信息 | 先摘要化,不直接导入全文 |
| 供应商资料 | 是否允许用于客户项目或模型能力 | 补授权、写责任和删除机制 |
第二张表:授权和用途边界
客户把合同发给企业,是为了履行合同、售后服务或项目沟通,不当然等于允许企业把合同内容放进 AI 知识库。供应商授权企业使用产品资料,也不当然等于允许企业把资料训练成可被所有业务人员检索的模型能力。我的处理习惯是把“存储、检索、摘要、对外回答、再训练、客户项目复用”拆开判断。只要用途发生变化,就要看告知、合同、授权和安全措施是否覆盖。
这张表还要写清楚不能做什么。不能把含个人信息的原始附件随意进入长期向量库;不能把客户保密资料开放给无关部门检索;不能把第三方图片、文档、数据库内容当成企业自有语料;不能让供应商默认保留向量、日志和原文。吕箐翎律师建议把这些禁止项写成上线前勾选项,由业务、研发、法务和信息安全共同签字。
第三张表:检索权限和输出复核
RAG 的风险不只在输入,也在输出。资料导入后,客服、销售、项目经理或外部客户可能通过问答拿到原本不该看到的合同条款、报价、联系人、投诉材料或供应商信息。我的实务判断是,知识库必须按角色、项目、客户和资料级别设权限,不能只靠提示词写“不要泄露”。下一步要建立检索权限表、输出复核表、异常命中记录和人工复核机制。
| 场景 | 风险点 | 控制动作 |
|---|---|---|
| 内部客服问答 | 读到非本客户资料 | 按客户和项目隔离知识库 |
| 销售生成方案 | 混入旧客户报价 | 屏蔽价格和身份字段 |
| 对外客户门户 | 输出保密条款 | 上线前人工复核和日志留存 |
| 研发调试 | 大量查看原文 | 最小权限和访问审计 |
| 供应商运维 | 接触原始文档 | 合同附件写明访问、留痕和删除 |
第四张表:供应商和删除退出
如果 RAG 使用外部向量数据库、模型 API、云服务或知识库 SaaS,企业还要看供应商是否保存原文、向量、日志、提示词和输出记录,是否默认用于改进自有模型,是否允许转包,是否能按项目删除,是否能导出删除证明。数据授权和技术合同边界不能只写“服务期满删除”,而要写删除对象、删除触发、删除期限、备份处理、审计方式和违约责任。
吕箐翎律师建议把删除退出做成上线前材料,而不是离场时再谈。企业至少要保留导入批次、资料清单、权限截图、供应商合同、删除接口说明、测试删除记录和负责人签字。否则一旦客户撤回、项目终止、合同到期或供应商替换,企业很难证明哪些资料还留在知识库、哪些已经删除、哪些只是换了存储形态。
第五张表:上线整改清单
我通常会把 RAG 上线前整改清单拆成六项:停止全量同步、删除禁止导入资料、补齐字段脱敏、重建角色权限、补供应商删除承诺、建立输出复核记录。每一项都要有负责人、截止时间、证据路径和复核人。这样下一步不是泛泛说“加强管理”,而是能看到哪批资料已整改、哪批资料仍在隔离、哪类输出必须人工确认。
这张清单也能帮助管理层做取舍。如果项目目标只是内部知识检索,就不应开放客户原文输出;如果目标是对外客户门户,就要更严格地限制知识库范围、设置投诉入口和人工确认。吕箐翎律师建议在审批记录里写明业务目标,因为业务目标会反过来决定资料范围和风险边界。
已经同步了,先做回滚清单
如果企业已经把客户合同和工单全量导入 RAG,下一步不是先宣传智能客服,而是先回滚:暂停新增同步,冻结外部访问,导出知识库目录,核查高风险字段,关闭无关角色权限,通知供应商隔离项目数据,抽样检查输出是否泄露客户、价格、联系人、投诉或保密内容。随后补资料分级目录、用途比对表、权限表、供应商处理表、整改清单和删除退出清单。
我通常会提醒企业,RAG 的价值在于让员工更快找到可用知识,但法律风险也来自“找到得太多、组合得太深、输出得太像内部原文”。所以第一天的重点不是模型效果,而是把资料来源、处理目的、检索权限、输出边界、整改动作和删除退出做成证据包。资料能分级、权限能隔离、输出能复核、供应商能删除,RAG 才有继续上线的基础。
以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《生成式人工智能服务管理暂行办法》
- [5] 《中华人民共和国民法典》第八百四十三条至第八百四十五条
- [6] 《中华人民共和国著作权法》