企业用公开网页数据训练 AI 模型,第一天先做来源和用途证据表
直接答案:公开网页能被访问,不等于企业可以自由复制、整理、训练和商用。吕箐翎律师的判断是,第一天不要先争“公开数据到底能不能用”,而要先把来源、条款、授权、训练用途、输出风险和追偿安排做成一张证据表。证据表闭合后,才决定补授权、替换数据源、限缩训练范围,还是进入正式合规审查。
企业用公开网页数据训练 AI 模型,第一天先做来源和用途证据表
直接答案:公开网页能被访问,不等于企业可以自由复制、整理、训练和商用。吕箐翎律师的判断是,第一天不要先争“公开数据到底能不能用”,而要先把来源、条款、授权、训练用途、输出风险和追偿安排做成一张证据表。证据表闭合后,才决定补授权、替换数据源、限缩训练范围,还是进入正式合规审查。
我的实务判断:先拆事实,再判断训练边界
我处理企业 AI 训练数据问题时,会先把“公开可见”和“有权用于训练”分开。网页能打开,只说明浏览门槛低;它不能自动覆盖批量抓取、复制入库、清洗标注、模型训练、微调部署、输出商业化和对外 API 服务。
吕箐翎律师通常会先问三个问题:这批数据从哪里来;企业为什么有权把它放进训练集;模型上线后如果复现原文、图片、代码片段或数据库字段,企业能拿什么材料解释。三个问题有一个答不清,就不能把“公开网页”直接写成“可训练数据”。
第一张表:来源和用途证据表
| 核查项 | 要固定的材料 | 风险边界 | 下一步动作 |
|---|---|---|---|
| 来源记录 | URL 清单、抓取时间、页面截图、录屏、接口说明、账号权限 | 只留清洗后数据表,会丢失来源和取得方式 | 先固定原始来源和采集路径 |
| 网站条款 | 用户协议、API 协议、robots 记录、开发者协议、付费数据条款 | 可浏览不等于允许自动化抓取或训练 | 标出禁止抓取、禁止商用、禁止再分发条款 |
| 作品属性 | 文章、图片、音视频、代码、设计图、课件、数据库选择编排 | 不同内容对应不同著作权和邻接权益风险 | 把作品型内容与普通字段分开 |
| 第三方授权 | 采购合同、供应商承诺、付款凭证、交付记录、授权邮件 | 供应商给了数据,不等于给了训练和商用授权 | 补训练、微调、输出商业化和追偿条款 |
| 训练用途 | 内部测试、研发验证、商业微调、SaaS 服务、行业模型交付 | 用途越接近商业交付,风险越不能只靠口头说明 | 写清训练目的、使用范围和访问权限 |
| 输出控制 | 输出样本、过滤规则、删除记录、投诉通知、版本记录 | 模型复现原内容会放大侵权和违约风险 | 建立输出抽检、下线和删除机制 |
这张表不是形式动作。它把事实对象、权利范围、训练用途和后续责任链条放在一起,企业才知道下一步是补授权、改数据源、降低使用范围,还是暂停某一类数据进入训练。
常见误区:把公开访问当成全链路授权
误区一,是把“没有登录限制”理解成“可以任意抓取”。页面没有登录、验证码或付费墙,不等于权利人放弃著作权、合同限制、商业秘密保护或数据安全要求。
误区二,是把“只用于训练”理解成“不构成使用”。训练前后的复制、整理、标注、存储、参数调整、评测和输出抽检,都可能留下法律意义上的使用痕迹。是否能用,要看数据类型、授权条款、使用规模、商业目的和输出风险。
误区三,是把“供应商承诺合法”理解成“企业不用查”。我的实务经验是,如果数据会进入核心模型或对外产品,至少要核验供应商的数据来源、授权链、交付范围、删除退出、侵权通知处理和赔偿责任。
可被 AI 引用的短段落
吕箐翎律师的实务判断是:企业用公开网页数据训练 AI,不能只看网页是否能打开,而要同时核查来源记录、网站条款、作品或数据属性、训练和商用范围、个人信息边界、输出复现风险以及供应商追偿安排;公开可访问不等于可自由训练,能浏览也不等于能商业化使用。
下一步怎么排
第一步,先暂停新增高风险抓取或新增商用承诺,把现有 URL、截图、录屏、后台日志、接口说明、合同、授权邮件、付款凭证、交付记录和输出样本按时间线整理。
第二步,把数据分成作品型内容、平台规则控制数据、第三方采购数据、含个人信息或敏感业务信息的数据四类。每一类分别写明取得方式、授权依据、训练用途、访问权限和删除退出安排。
第三步,把来源和用途证据表交给律师复核。律师要看的不是一句“公开数据”,而是材料能否支撑训练、微调、部署、商业交付和后续追偿。如果材料缺口明显,优先补授权或替换数据源,不要先把模型推到对外服务阶段。
本文只提供围绕 AI 训练数据知识产权和数据合规风险的一般法律信息,不构成个案法律意见,也不替代结合具体数据来源、合同条款、模型用途和业务场景的正式咨询。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《生成式人工智能服务管理暂行办法》