数据库被抄袭,为什么先做来源和编排表?
吕箐翎律师处理数据库或数据集被抄袭时,会先区分原始数据、选取编排、字段结构、清洗加工、合同授权、个人信息和登记存证,再判断著作权、数据权益和合同路径。
吕箐翎律师的判断是:数据库或数据集被抄袭时,先别急着只说“这是我们的数据”。我会先做来源和编排表,把原始数据、字段结构、清洗规则、标签规则、选取标准、接口页面、说明文档、合同授权、个人信息和登记存证拆开看。只有先知道企业到底能主张什么,下一步才知道该发函、谈判、保全、起诉还是先补授权和整改。
数据库争议的风险在于,事实数据本身、数据集合、字段编排、说明文档、软件接口、清洗加工成果和数据产品合同,不一定受同一种规则保护。《中华人民共和国著作权法》可以支撑作品和有独创性选择编排的基础判断,《中华人民共和国数据安全法》提醒数据处理要关注来源和安全义务,《中华人民共和国民法典》技术合同规则可以支撑数据交付、保密、成果归属和验收边界。数据知识产权登记或存证有证据价值,但不等于替代来源、授权和权益审查。
我的实务判断:先拆成三层权利
我的处理习惯是先把数据库拆成三层。第一层是数据来源:公开采集、客户提供、供应商采购、自有业务沉淀、人工标注还是合作开发。第二层是加工和编排:字段设计、清洗规则、标签体系、分类标准、接口页面、说明文档和版本迭代。第三层是使用边界:合同授权、再分发、训练、商用、删除、退出、保密和安全措施。
如果企业只给我一份 Excel 或一段接口截图,我通常不会直接判断“对方一定侵权”。我会先问:这些数据从哪里来,哪些是事实,哪些是有选择编排的成果,哪些来自客户或第三方,哪些含个人信息,是否有供应商转授权,是否有登记、存证、交付记录和版本日志。
第一张表:来源和授权表
| 核查对象 | 要看的材料 | 风险边界 | 下一步动作 |
|---|---|---|---|
| 原始数据 | 采集路径、客户提交、供应商交付、业务系统记录 | 公开可见不等于可自由商用 | 补来源清单和采集规则 |
| 第三方数据 | 采购合同、授权范围、转授权条款 | 供应商可卖不等于企业可再分发 | 核查训练、销售和再授权范围 |
| 个人信息 | 告知同意、匿名化、删除退出记录 | 数据库权利不能覆盖个人信息合规 | 标出敏感字段和处理目的 |
| 商业秘密 | 访问权限、保密制度、下载日志 | 没有保密措施会削弱秘密路径 | 固定权限和接触证据 |
| 登记存证 | 数据知识产权登记、时间戳、公证、版本哈希 | 登记不等于当然享有全部权利 | 作为证据补强而非唯一依据 |
这张表先回答“数据从哪里来”。如果来源不清,下一步不能只发强硬律师函,因为对方可能质疑企业自己也没有完整授权。
第二张表:选取编排和加工表
数据库被抄袭,真正要比较的往往不是单条数据,而是选取标准、字段结构、分类体系、清洗规则、标签规则、错误修正、接口页面和说明文档。吕箐翎律师通常会要求企业把版本日志、字段说明、数据字典、标注规范、清洗脚本、更新记录、交付包和客户验收记录放在一起。
| 争议点 | 证据对象 | 判断方向 |
|---|---|---|
| 字段结构 | 数据字典、表结构、接口文档 | 是否体现选择和编排 |
| 清洗加工 | 清洗脚本、规则说明、人工复核记录 | 是否有投入和加工痕迹 |
| 标签体系 | 标注规范、样本集、质检记录 | 是否区别于原始事实数据 |
| 版本迭代 | commit、发布日期、客户验收 | 是否能证明形成时间 |
| 对方使用 | 相似字段、错误复现、接口返回、页面展示 | 是否存在接触和实质相似线索 |
这张表的目标,是把“对方抄了数据”变成可比较的证据路径。不能承诺只要字段相同就一定侵权,也不能承诺登记过就一定能阻止所有使用;风险取决于来源、编排、加工、合同和对方使用方式。
第三张表:第一天止损和路径选择
我的实务判断是,第一天要先做四件事。第一,冻结当前数据库版本,导出字段、样本、接口、日志和哈希。第二,固定对方页面、接口、下载包、宣传材料和客户报价。第三,核查授权链和个人信息边界,避免维权材料反过来暴露企业合规缺口。第四,决定法律路径:著作权、商业秘密、不正当竞争、合同违约、数据合规整改或组合路径。
如果商业目标是尽快止损,下一步可以先发函、平台投诉、下架通知或谈判;如果目标是诉讼,下一步要准备证据保全、代码或数据比对、合同链和损失线索;如果目标是继续交易或融资,下一步要补授权、登记、存证、合同边界和内部权限。不同目标需要不同材料,不能只用一份通用清单。
可以交给律师的材料清单
建议准备:数据来源表、采购或授权合同、数据字典、字段结构、清洗规则、标签规范、版本日志、登记或存证文件、访问权限、下载日志、客户交付包、对方页面或接口证据、相似字段比对、错误数据复现、销售或损失线索、内部整改记录。材料越能同时说明来源、编排、接触、使用和商业影响,越容易判断下一步动作。
吕箐翎律师建议,数据库被抄袭不要先把所有数据都写成“当然属于企业”。先用来源和编排表把可主张范围、风险边界和下一步动作分开。以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。