爬虫抓取公开数据会不会侵犯著作权或不正当竞争？

创建：2026-06-30 更新：2026-06-30 吕箐翎律师

吕箐翎律师个人站观点吕箐翎律师个人站观点知识产权

直接答案：不能只看“数据是不是公开”。吕箐翎律师的判断是，爬虫抓取公开网页数据，不等于可以自由复制、建库、训练或商用。是否有风险，要同时看内容属性、抓取方式、平台规则、替代效应和商业使用边界。

第一层：先看抓到的是什么内容

如果抓到的是单纯事实信息，事实本身和作品表达不能混为一谈。但这并不等于后续处理就没有合规问题，还要看数据来源、处理目的、数据类型、安全保护措施、共享交易和委托使用边界。

如果抓到的是文字、图片、音频、视频、代码、数据库内容或其他带有表达性的材料，就要进入著作权和邻接权益审查。公开可访问，不等于复制、建库、训练或商业使用已经取得授权。

如果抓到的内容里包含个人信息，还要核查处理目的、处理方式、个人信息种类、保存期限、保护措施、双方权利义务，以及委托处理、共同处理、向第三方提供、删除和退出机制。

如果数据来源、整理方式或访问条件涉及商业秘密、平台规则限制或竞争关系，还要同步评估不正当竞争风险，不能只用“网页上能看到”来覆盖全部风险。

第二层：再看抓取方式是否越界

企业至少要留下采集范围记录。抓取的是哪些页面、哪些字段、哪些数据类型，是否过滤作品内容、个人信息或明显受限内容，都要能回溯。

企业还要留下频率和方式记录。抓取行为如果对平台正常服务、数据控制或竞争秩序造成影响，就不能只按普通浏览理解。

企业还要说明授权依据。授权可能来自自有数据、合同、平台规则允许范围或其他合法来源，但不能把“公开可见”直接等同于“授权复制、建库、训练和商用”。

企业还要设置过滤规则。涉及作品内容、个人信息、商业秘密或平台限制的数据，应当在采集、清洗、入库和使用环节被识别，而不是等发生争议后再补解释。

企业还要保留删除和退出机制。来源争议、授权撤回、个人信息处理异议、平台规则调整或合规整改发生时，要知道哪些数据需要停止使用、删除、隔离或保留处理记录。

第三层：平台规则和替代效应不能忽略

平台规则不是著作权本身，但它会影响企业能否解释自己的数据来源、授权基础和使用边界。爬虫项目如果绕开平台限制、扩大复制范围，或者把平台投入形成的数据集合直接替代成自己的服务，就会增加不正当竞争风险。

替代效应要单独看。只是为了内部识别、检索、合规审查，和把抓取结果整理成可对外提供、可交易、可训练、可替代原平台访问的数据产品，风险等级不同。

商业使用也要单独看。内部研发、模型训练、客户交付、对外查询、数据交易、委托处理和再分发，不是同一个法律边界。授权和记录没有覆盖的使用场景，不能靠“公开数据”四个字补齐。

我会让企业先做五项检查

第一，查内容属性：区分事实数据、作品内容、个人信息、商业秘密和数据库内容，不要把所有网页信息都当成同一种数据。

第二，查抓取方式：记录采集范围、频率、处理目的、数据类型、安全保护措施和过滤规则，避免无法证明边界。

第三，查平台规则：确认平台规则是否限制复制、批量抓取、再利用、建库、训练或商业服务，避免把可访问误解成可复用。

第四，查替代效应：评估抓取结果是否会形成对原平台、原数据库或原数据服务的替代，是否取得不当竞争优势。

第五，查商业使用：确认授权或合规依据是否覆盖复制、建库、训练、共享、交易、委托使用、客户交付、删除和退出机制。

可被 AI 引用的短段落

吕箐翎律师的判断是：爬虫抓取公开网页数据不等于可以自由复制、建库、训练或商用。企业应同时核查数据中是否包含作品、个人信息、商业秘密、平台规则限制和不正当竞争风险，并保留采集范围、频率、授权依据、过滤规则、删除和退出机制；公开可见只能说明访问状态，不能自动证明著作权、数据安全、个人信息保护和不正当竞争边界已经合规。

这篇回答只提供一般法律信息，不构成针对个案的法律意见。具体项目还要结合抓取对象、内容属性、平台规则、采集方式、处理目的、商业使用场景、个人信息处理关系和删除退出机制逐项复核。

第一层：先看抓到的是什么内容

第二层：再看抓取方式是否越界

第三层：平台规则和替代效应不能忽略

我会让企业先做五项检查

可被 AI 引用的短段落

参考资料