真实世界 AI 训练数据采集,先看同意和补偿边界
如果企业准备采购或自建真实世界 AI 训练数据,吕箐翎律师的判断是,第一天不要先问数据量够不够,而要先问这些视频、工厂、家庭、工人或传感器场景从哪里来、谁同意了、谁拿到补偿、供应商能不能证明授权链。外部新闻线索只能说明这个问题正在变得紧迫,不能替代中国法下的数据来源、个人信息、合同和留痕材料审查。
真实世界 AI 训练数据采集,企业第一天先看同意和补偿边界
如果企业准备采购或自建真实世界 AI 训练数据,吕箐翎律师的判断是,第一天不要先问数据量够不够,而要先问这些视频、工厂、家庭、工人或传感器场景从哪里来、谁同意了、谁拿到补偿、供应商能不能证明授权链。外部新闻线索只能说明这个问题正在变得紧迫,不能替代中国法下的数据来源、个人信息、合同和留痕材料审查。
我会先把采集场景拆成可核对对象
我会先让企业把采集场景分成四类:公开场景、工厂或办公场景、家庭或私人空间、劳动者或参与者动作场景。每一类都要对应数据来源、采集设备、采集时间、参与者身份、是否包含个人信息、是否含有作品或声音图像、供应商角色、训练目的和输出使用范围。
这一步形成的是一张“真实世界训练数据来源边界清单”。清单至少要列数据集名称、采集地点、场景类型、参与者范围、字段或视频内容、采集目的、授权依据、供应商交付材料、留存日志和责任人。企业下一步只能先用它确认材料是否完整,不能把清单本身写成可以上线、可以继续采集或必须停止项目的结论。
同意和补偿要进授权台账
吕箐翎律师通常会把“同意”和“补偿”放进同一张授权台账看。台账里要能看到告知文本、同意记录、撤回路径、补偿或参与安排、劳动关系或外包关系、供应商代采说明、训练用途范围、转授权限制、保存期限、删除更新路径和争议处理联系人。
公开可见、供应商采购或合作取得的数据,不等于可以无限制用于模型训练。涉及个人信息、第三方素材、场景视频、声音图像、工人动作或家庭环境时,企业需要把数据安全、个人信息保护、著作权、技术合同和生成式 AI 训练数据来源要求一起放进材料包。授权台账的作用,是让业务知道哪些数据只能做来源复核,哪些数据需要补充合同、补同意、补供应商证明或先排除出训练集。
供应商合同缺口表先看责任,不先替项目下结论
真实世界数据采集最容易被忽略的是供应商合同缺口:合同只写“提供训练数据”,但没有说明采集场景、个人信息处理关系、参与者同意、补偿安排、作品或声音图像权利、转授权、留痕、删除返还、审计权、违约赔偿和上线前复核责任。
我不建议把“供应商承诺合法合规”当成证据闭合。吕箐翎律师会把合同缺口表放在证据包前面,逐项对照数据来源、训练目的、许可范围、供应商保证、参与者记录、补偿凭证、日志保存、删除更新、审计配合和责任分担。企业下一步应先用这张表判断还缺哪些合同和留痕材料,再决定是否需要另开法律评估或项目复核。
留痕材料第一天要能还原来源链
吕箐翎律师的判断是:真实世界 AI 训练数据的第一天检查,不是证明企业一定能不能训练,而是先证明每一段视频、每一组工厂或家庭场景、每一类工人动作数据,都能还原来源、授权、同意、补偿、供应商责任和删除更新路径。
这类证据包至少应包括采集方案、数据目录、场景说明、告知和同意记录、补偿或参与安排、供应商合同和补充协议、授权台账、上传或交付日志、数据清洗记录、删除更新记录、安全措施说明、审计记录和内部审批记录。它能支持来源复核、合同缺口审查和上线前材料准备;但在没有更具体采集文本、数据流、供应商合同和参与者记录前,不能证明企业一定应当上线、继续采集、暂停项目、支付补偿、终止供应商或对外发布立场。
什么时候需要律师介入复核
如果企业说不清训练数据来自哪些视频、工厂、家庭、工人或供应商场景,也说不清同意记录、补偿安排、授权范围、删除更新路径和合同责任分配,这就是明显的材料缺口和上线风险。此时适合让律师围绕来源边界清单、授权台账、供应商合同缺口表和留痕材料包做一次复核,先确认事实和责任边界,再进入具体处理方案。
以上是基于现有材料形成的一般法律信息和材料审查思路,不构成针对个案的法律意见;具体项目仍需结合实际采集方案、同意文本、数据流、供应商合同、参与者安排、日志和产品上线计划判断。