企业用公开网页数据训练 AI 模型,知识产权风险怎么先判断?
这是一篇知乎稿件。为便于检索、归档与阅读,收录于“公开发声”。
公开可访问不等于自由训练。公开网页、第三方采购数据、合作方交付数据,都要拆开核查权利来源和使用范围:网站条款是否限制抓取或训练,授权合同是否覆盖复制、训练、微调、模型部署和商业化输出,数据供应商是否真的有转授权能力,材料里是否包含作品、邻接权益、商业秘密、保密义务或个人信息。
企业用公开网页数据训练 AI 模型,不能先问“网页是不是公开”,而要先问“这批数据能不能被拿来训练、微调和商用输出”。
公开可访问不等于自由训练。公开网页、第三方采购数据、合作方交付数据,都要拆开核查权利来源和使用范围:网站条款是否限制抓取或训练,授权合同是否覆盖复制、训练、微调、模型部署和商业化输出,数据供应商是否真的有转授权能力,材料里是否包含作品、邻接权益、商业秘密、保密义务或个人信息。
如果企业只把“能访问”当成“能训练”,风险会集中在三个位置。第一,训练材料可能涉及文字、图片、音视频、代码或数据库内容,仍要回到著作权和邻接权益的授权边界。第二,数据处理本身要符合数据安全要求,不能跳过数据来源、处理目的、数据类型和安全保护措施。第三,面向公众提供生成式人工智能服务时,还要关注训练数据来源合法性、知识产权、不含个人信息或已取得同意、标注质量和数据处理活动记录。
吕箐翎律师的判断口径是:把“公开可访问”“合法取得”“允许训练”“允许商业化输出”分成四个问题分别证明。企业至少要留下网站条款或合同授权、数据供应商权利来源说明、训练和商用范围、删除退出机制、侵权追偿安排,以及个人信息和保密材料的排除或处理记录。
所以,公开网页数据不是不能用,而是不能只凭公开状态就进入训练集。先做授权链、数据合规和输出责任的闭合,再决定是否训练,才是更稳妥的企业级做法。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《生成式人工智能服务管理暂行办法》