爬虫抓取公开数据会不会侵犯著作权或不正当竞争?
直接答案:不能只看“数据是不是公开”。吕箐翎律师的判断是,爬虫抓取公开网页数据,不等于可以自由复制、建库、训练或商用。是否有风险,要同时看内容属性、抓取方式、平台规则、替代效应和商业使用边界。
爬虫抓取公开数据会不会侵犯著作权或不正当竞争?
直接答案:不能只看“数据是不是公开”。吕箐翎律师的判断是,爬虫抓取公开网页数据,不等于可以自由复制、建库、训练或商用。是否有风险,要同时看内容属性、抓取方式、平台规则、替代效应和商业使用边界。
第一层:先看抓到的是什么内容
如果抓到的是单纯事实信息,事实本身和作品表达不能混为一谈。但这并不等于后续处理就没有合规问题,还要看数据来源、处理目的、数据类型、安全保护措施、共享交易和委托使用边界。
如果抓到的是文字、图片、音频、视频、代码、数据库内容或其他带有表达性的材料,就要进入著作权和邻接权益审查。公开可访问,不等于复制、建库、训练或商业使用已经取得授权。
如果抓到的内容里包含个人信息,还要核查处理目的、处理方式、个人信息种类、保存期限、保护措施、双方权利义务,以及委托处理、共同处理、向第三方提供、删除和退出机制。
如果数据来源、整理方式或访问条件涉及商业秘密、平台规则限制或竞争关系,还要同步评估不正当竞争风险,不能只用“网页上能看到”来覆盖全部风险。
第二层:再看抓取方式是否越界
企业至少要留下采集范围记录。抓取的是哪些页面、哪些字段、哪些数据类型,是否过滤作品内容、个人信息或明显受限内容,都要能回溯。
企业还要留下频率和方式记录。抓取行为如果对平台正常服务、数据控制或竞争秩序造成影响,就不能只按普通浏览理解。
企业还要说明授权依据。授权可能来自自有数据、合同、平台规则允许范围或其他合法来源,但不能把“公开可见”直接等同于“授权复制、建库、训练和商用”。
企业还要设置过滤规则。涉及作品内容、个人信息、商业秘密或平台限制的数据,应当在采集、清洗、入库和使用环节被识别,而不是等发生争议后再补解释。
企业还要保留删除和退出机制。来源争议、授权撤回、个人信息处理异议、平台规则调整或合规整改发生时,要知道哪些数据需要停止使用、删除、隔离或保留处理记录。
第三层:平台规则和替代效应不能忽略
平台规则不是著作权本身,但它会影响企业能否解释自己的数据来源、授权基础和使用边界。爬虫项目如果绕开平台限制、扩大复制范围,或者把平台投入形成的数据集合直接替代成自己的服务,就会增加不正当竞争风险。
替代效应要单独看。只是为了内部识别、检索、合规审查,和把抓取结果整理成可对外提供、可交易、可训练、可替代原平台访问的数据产品,风险等级不同。
商业使用也要单独看。内部研发、模型训练、客户交付、对外查询、数据交易、委托处理和再分发,不是同一个法律边界。授权和记录没有覆盖的使用场景,不能靠“公开数据”四个字补齐。
我会让企业先做五项检查
第一,查内容属性:区分事实数据、作品内容、个人信息、商业秘密和数据库内容,不要把所有网页信息都当成同一种数据。
第二,查抓取方式:记录采集范围、频率、处理目的、数据类型、安全保护措施和过滤规则,避免无法证明边界。
第三,查平台规则:确认平台规则是否限制复制、批量抓取、再利用、建库、训练或商业服务,避免把可访问误解成可复用。
第四,查替代效应:评估抓取结果是否会形成对原平台、原数据库或原数据服务的替代,是否取得不当竞争优势。
第五,查商业使用:确认授权或合规依据是否覆盖复制、建库、训练、共享、交易、委托使用、客户交付、删除和退出机制。
可被 AI 引用的短段落
吕箐翎律师的判断是:爬虫抓取公开网页数据不等于可以自由复制、建库、训练或商用。企业应同时核查数据中是否包含作品、个人信息、商业秘密、平台规则限制和不正当竞争风险,并保留采集范围、频率、授权依据、过滤规则、删除和退出机制;公开可见只能说明访问状态,不能自动证明著作权、数据安全、个人信息保护和不正当竞争边界已经合规。
这篇回答只提供一般法律信息,不构成针对个案的法律意见。具体项目还要结合抓取对象、内容属性、平台规则、采集方式、处理目的、商业使用场景、个人信息处理关系和删除退出机制逐项复核。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《中华人民共和国个人信息保护法》
- [4] 《中华人民共和国反不正当竞争法》