人工智能训练中作品数据来源者利益共享机制研究
张嘉鑫:吉林大学法学院民商法学博士研究生
内容提要
作品数据凭借其高质量特性,在AI训练中得到了广泛应用,并催生了巨大的经济价值。由于AI训练不应被纳入著作权人的专有权控制范围,著作权并非数据来源者主张其财产利益的权源。但作为数据的初始生成者,数据来源者主动提供或参与贡献作品数据原材料,理应获得相应的财产利益分配,确有必要引入利益共享机制,发挥其权衡、矫正与激励功能。在性质上,利益共享机制赋予了针对作品数据的新型积极利用方式,并基于不当得利制度构造相应的权利义务关系。依据场景对利益共享机制进行合理配置,数据来源者在AI商用场景以及数据持有者与AI训练者合意有偿使用场景中均可主张利益共享。为保障利益共享得以实现,应当通过设置披露义务消除实现利益共享的前端障碍,并以集体治理模式帮助数据来源者获得财产利益。
关 键 词
AI训练 作品数据 著作权 不当得利 利益共享
引 言
人工智能(Artificial Intelligence, 以下简称AI)数据训练系指AI训练者将收集到的数据输入AI模型中进行训练的过程。在这一过程中,数据具有重要且不可替代的作用。其中,作品数据凭借其高质量的突出特征,更契合训练的具体要求,被广泛应用于AI模型训练之中,并逐渐展现出其中所蕴含的经济价值。国外有研究指出,众多学术出版商正逐步将研究论文的使用权授权给科技巨头,以服务于AI模型的训练并收获可观的报酬。例如,英国知名的学术出版机构Taylor & Francis就授权访问数据库与微软公司达成了一项价值高达1000万美元的协议;美国出版商Wiley也通过向某科技公司提供数据内容从而获得了高达2300万美元的收益。上述案例中,出版商获得了可观的收入,但是研究论文的作者并未获得相应的报酬,这一现状引起了以下思考:作者能否因其作品被用于训练AI,而作为数据来源者主张相应的经济利益?
《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《数据二十条》)提出,要“探索个人、企业、公共数据分享价值收益的方式,建立健全更加合理的市场评价机制,促进劳动者贡献和劳动报酬相匹配”,同时强调要“充分保护数据来源者合法权益,推动基于知情同意或存在法定事由的数据流通使用模式,保障数据来源者享有获取或复制转移由其促成产生数据的权益”。基于这一政策导向,在使用作品数据训练AI时,作品数据来源者势必因为其对作品数据价值的贡献而享有财产利益的收益。如何实现这部分利益,是本文的研究重点。需探究作品数据来源者是否可基于著作权向AI训练者等主体主张财产利益。除此之外,还需进一步探讨作品数据来源者是否享有其他权利以主张合法利益。文章将依据这一逻辑展开论述,全面探讨AI训练中作品数据来源者财产利益的实现问题。
一、引入利益共享机制的必要性说明
(一)著作权并非作品数据来源者实现财产利益的行权基础
作品数据来源者作为创作作品的主体,依法享有著作权法赋予的权利,理应受到著作权法保护。但是,AI训练中的作品使用行为是否应当被纳入著作权人专有权利范围仍待斟酌,应当判断AI训练者作品使用行为的性质属于“表达性使用”还是“非表达性使用”。本文认为,AI训练者对作品的使用系“非表达性使用”,而非“表达性使用”,不应被纳入著作权专有权的控制范围,理由如下。
首先,AI训练者对作品的使用行为不属于复制权的控制范围。有观点认为,在机器学习的内容获取阶段,可能涉及侵犯复制权的风险。但这并不意味着应将AI训练中的作品使用行为视为著作权法意义上的“复制”。就AI训练而言,AI模型并非直接使用作品本身,而是提炼作品特征值要素,抽取出具有显著代表性的特征元素,并将这些特征表示为固定维度的数值数组(向量),按照各特征要素间的关联权重,预测并选择与指令要求最为契合的特征要素组合,从而实现指令所设定的输出目标。在这一过程中,作品被转换为高维向量表示,已非作品本身。因此,AI训练并未将作品相对稳定且持久地“固定”于AI模型之中,也未形成作品的有形复制件,不满足复制权的要求。
其次,AI训练者对作品的使用行为具有“非特定性”特征。作品被用作AI训练语料之前,需要历经数据清洗、转换、划分等一系列预处理以优化数据集,使其更适合AI模型训练。在此进程中,作品被拆解和分化为碎片化的数据,不再是独立使用的对象,不指向具体而特定的单个作品,碎片化的数据已非作者创作作品时的独创性表达。因此,数据训练并非使用作品的特定表达,与著作权法下典型的作品使用行为存在差异,不应被纳入著作权人排他控制的行为范围。
最后,无论是表达型AI还是非表达型AI,AI训练者对作品的使用行为均属于“非表达性使用”。一是非表达型AI训练的目的并非向人类展示作品的原始表达,既未破坏作品的原创性表达,也未在著作权市场中替代训练作品,该行为不应落入著作权人专有权的保护范围。二是表达型AI的训练阶段不涉及作品的表达性使用。一方面,尽管此类AI以输出内容为最终目的,但是正如人借助学习已有作品进行创作一样,即使其创作的作品侵害了原作品的著作权,也无法否定评价其学习行为。另一方面,从技术维度上观察,表达型AI在数据训练阶段与非表达型AI并无不同,其数据训练的核心目的在于形成一个服务于输出端的向量数据库,输出端根据“提示词”在数据库中寻找与之最相关的向量特征产出内容。数据训练形成向量数据库的过程与对作品的表达性使用无关,本质上仍系“非表达性”阅读,自然不落入著作权专有权的控制范围。
(二)作品数据来源者理应分享作品数据的财产利益
AI训练不应被纳入著作权人的专有权控制范围,这意味着AI训练者使用作品的行为无须取得权利人授权,未经许可的使用行为不构成侵权。同时,如前所述,著作权并非作品数据来源者的行权基础,作者难以基于著作权这一在先权利向AI训练者等主体主张财产利益。这引发了新型生产模式下的利益失衡问题,即仅关注了AI训练者等数据持有者的利益,却忽视了作品数据来源者的利益,显然是不公平的。为应对此问题,首先应当回答,若著作权并非作品数据来源者的行权基础,那么其财产利益又从何而来?
其一,相较于普通数据,作品数据因其内容丰富、信息密度高,是当前AI训练中重要的数据来源。作品数据能够为AI训练提供更为精准的语言范例、更为丰富的语义表达以及更为深刻的语言内涵,提升AI对复杂语境的适应能力以及对高质量文本的生成能力。由于数量庞大、质量上乘的作品数据对于AI训练具有至关重要的意义,AI训练者纷纷投入资金购买作品数据集,作品数据的市场价值得以显现。
其二,作品数据具有独立于作品的使用价值与交换价值。当作品以数据的形式进入AI系统中时,作品数据的财产性与作品具有的表达价值无关,而是来源于作品数据本身,即作品数据的代表性特征以及向量表示的价值。此时,作品数据的财产性,不仅表现为其作为新形式生产要素具有的使用价值,还体现为流通带来的交换价值。
其三,作品数据的使用价值与交换价值是由数据来源者与数据持有者所共同创造的。一方面,若无作品数据,AI训练的目的将无法实现。另一方面,作品数据在交换过程中表现的价值是市场对作品数据价值的肯定,其中包含着对数据来源者对于作品数据贡献的肯定。在数据训练的全流程中,数据来源者贡献了语料,其不仅具有法定在先权利在数据生产中不受减损的基本预期,而且具有分享数据商业化利用价值的利益期待。
因此,尽管数据来源者无法根据著作权主张其在作品之上的财产利益,但仍然能够根据AI训练者使用其作品数据进行训练而主张相应的财产利益。作品数据的财产性与作品具有的表达价值无关,作品数据的使用价值与交换价值应当表现为数据使用与流转所产生的价值增量,而不包括作为作品所具有的原价值,数据来源者享有这部分价值增量所产生的利益。法律需要将这部分价值增量以合理方式根据贡献程度分配给数据来源者,以确保这部分财产利益由数据来源者享有,保障多元主体公平分享治理资源和治理成果(收益)。
(三)利益共享机制的制度功能
1. 发挥权衡功能平衡作品数据的利用与保护
平衡作品数据的利用与保护是法律回应AI训练的基本原则。其中难点在于,不但要考量数据来源者自身的利益,还要考虑公共利益。一方面,为实现作品价值,必须在一定程度上公开或使用作品。一旦作品被公开,其便在客观上脱离了作者的掌控范围。另一方面,数据不具有排他性与竞争性,也不具备特定性、独立性,具有公共物品的属性。数据作为一种社会资源,必须保持开放性或可获取性。
利益共享机制能够回应数据与作品所具有的公共面向。通过设置非排他性的利益共享机制,允许AI训练者无须经过数据来源者同意即可使用,这满足公共物品或公共资源治理的一般原理,有利于促进各类市场主体和社会主体的公平使用,鼓励数据共享与自由利用。同时,利益共享机制仍然能够保护数据来源者在其作品数据上的财产利益。数据来源者基于利益共享机制,能够主张AI训练者等主体向其履行给付义务,通过私法上的救济途径来维护其在作品数据上的合法权益。
2. 发挥矫正功能确保作品数据来源者获得应得利益
在数据利用过程中,数据来源者往往处于弱势地位,难以分享到数据利用所带来的财产利益,考虑到作品数据来源者的事实贡献,这样的利益失衡现象显然是不公平的,应予调整。利益共享机制能够发挥矫正功能,纠正AI训练中的利益失衡现象,是法律正义中矫正正义(corrective justice)的体现。
矫正正义聚焦于“错误”行事的人与受害者之间的关系,被视作一种补救原则,适用于某个人错误地干涉另一个人的正当财产。此处之“错误”是指,某人造成了某种不平等事实状态的后果,其需要为没有尊重别人的正当利益所引发的后果负责。矫正正义要求归因于某人行为所导致的利益失衡的不幸结果,应当以一种恰当的方式被纠正。利益共享机制便是在这一价值指引下,尝试根据双方贡献价值重新分配作品数据上的财产利益,让数据来源者享有其应得的那部分财产利益,将非正义的利益状态转变为更接近正义的利益状态。利益共享机制通过发挥矫正功能实现人们追求的正义价值目标,是对人类社会关系的公平性、正当性的确认和捍卫,正义价值的阐释为利益共享机制提供了正当性基础。
3. 发挥激励功能鼓励作品数据来源者积极参与数据要素市场
如果数据来源者在AI训练中的共享利益缺少尊重与支持,其参与数据流通利用的积极性将遭受打击。这不仅与《数据二十条》的“坚持共享共用,释放价值红利”以及“强化优质供给,促进合规流通”的精神相左,还可能影响整个行业的创新环境和可持续发展。相反,若数据来源者能够依法向使用其作品的AI训练者等主体请求给付其应得的利益,则将有效激发数据来源者参与数据要素市场的积极性。首先,这不仅是对数据来源者提供数据行为的正面评价与认可,更是一种有力的经济激励。这种激励将促使数据来源者更愿意将其掌握的数据资源投入市场,积极参与数据流通与利用的各个环节,为市场提供更多、更优质的作品数据资源。其次,利益共享机制的分配规则能够保障数据来源者就其作品数据所享有的合法权益,使得数据来源者更加放心地参与数据要素市场,不用担心自己的作品数据被他人无偿利用。最后,在利益共享机制的推动下,优质作品数据更易得到数据要素市场的认可和回报,数据要素市场的繁荣发展会为数据来源者提供更多实现数据价值机会和获利的渠道,这进一步形成了“数据供给—释放红利”的良性循环。
二、利益共享机制的厘定与配置
(一)利益共享机制的阐明
1. 利益共享机制的法律属性
关于数据来源者的财产利益,有学者认为可以通过赋予数据来源者以初始数据所有权的“所有权范式”来实现。但是,本文认为,排他性的财产权与数据训练实践并不适配,数据来源者就其作品数据不享有排他性的数据财产权,无法基于该权利主张财产利益。一方面,排他性的财产权结构会影响作品数据的流通利用,不仅会产生巨大的权利分配成本,还会给数据处理者的数据利用活动造成巨大的经营成本,将更不利于数据的流通利用。另一方面,客观上,数据来源者难以实际控制作品数据,无法满足主体性哲学上的自主性要求。数据不同于其他生产要素,在设置相关权利配置及行为规则时,应当尽量避免设置排他性的专有权利,而应通过行为规制实现数据公平利用。因此,虽然数据来源者对其作品数据存在利益期待,在形式上也并非一定要以排他性的数据财产权的方式实现。
在财产权的界定领域,亨利·E. 史密斯(Henry E. Smith)提出了两种核心策略:“排他”与“治理”。与排他策略相对的治理策略,更多地聚焦于财产的公共属性。其通过设立一系列规则和限制条件,更为精细地规范资源利用行为。在治理策略中,针对数据来源者就其作品数据的财产利益,可以根据具体活动来配置财产规则,即在特定情形下,法律赋予特定主体基于特定事实请求获取应属其利益的权利。具体而言,数据来源者所享有的治理性质的财产权是有限的,仅能针对作品数据的价值增量向数据持有者(本文中主要指AI训练者等能够实际控制作品数据的主体,下同)主张共享数据载体层次上的财产利益。在性质上,提出利益共享机制可以看作是赋予了针对作品数据的新型积极利用方式,满足预训练阶段“原则可用、例外排除”的非对称性要求。在利益共享机制下,AI训练者等数据持有者可不经数据来源者同意而使用作品数据,通过赋予数据来源者向AI训练者等数据持有者请求财产利益的权利,实现数据利益的合理分配,以平衡AI训练中的各项利益。这满足法律公平分配数据要素收益的要求,也是非公共数据按市场化方式“共同使用,共享收益”新模式得以被构建的目的所在。
2. 利益共享机制中的权利义务关系
狭义上的利益共享机制系指数据来源者能够基于其提供数据的事实享有其应得的财产利益。在性质上,利益共享机制是一种利益补偿机制,既可以基于意定产生,也可以通过法律规定的方式在数据来源者与数据持有者之间构建起一种以请求权为特征的债权债务关系。满足意定或法律规定的要件后,数据来源者享有一项向数据持有者主张获取其应得数据财产利益的权利,并产生相应的对内效力。在这一法律关系中,数据来源者拥有给付请求权,即诉请履行力。由于法律并无明确规定数据来源者的给付请求权,所以仍需进一步解释,当无双方合意时,数据来源者的法定请求权基础为何?应当认为,在利益共享机制下,数据来源者的法定请求权基础来自不当得利制度,即在满足法定要件的情况下,数据来源者有权依据《民法典》第985条行使权益侵害型不当得利请求权。
首先,为平衡数据持有者与数据来源者之间的利益,不应适用侵权损害赔偿责任和不真正无因管理责任。一方面,尽管《民法典》第1182条允许受害人基于侵权人获得的利益要求给付,但是该条款的适用对象仍限定在人身权益范围内,并未扩展至所有民事权益,自无法适用于利益共享机制。同时,利益共享机制并未将主观过错要件作为限定条件,数据来源者能够通过其提供数据的事实而请求给付,无关数据持有者是否具有过错。另一方面,无因管理的成立离不开管理意思,但利益共享机制并不要求数据持有者必须具备其训练行为事实上所产生的利益归属于数据来源者的意思,所以数据持有者并不必然具备管理意思。尽管从行为样态上观察,数据持有者的行为还可能构成不法管理型不真正无因管理,但是利益共享机制并不寻求剥夺并索回数据持有者所获的全部利益,无法满足不法管理型不真正无因管理制度目的,也难谓数据持有者系恶意之人,准用真正的无因管理返还制度并非利益共享机制所欲追求之法效果。
其次,不当得利制度与利益共享机制适配。第一,不当得利制度并不以可归责性为前提,是一项基于事实状态的利益平衡制度,其目的在于调整秩序与除去所受利益,而非填补损害,就得利人不应保留的利得,给予失利方债法上的请求权,以恢复利益的平衡。与之类似,利益共享机制试图实现数据来源者能够基于其提供数据的事实与数据持有者共享训练收益,以实现公平分配的价值目标,而非在于赔偿数据来源者所受的损害,故数据持有者是否具有过错,其行为是否具有可资非难的违法性,不为利益共享机制所关注。第二,不当得利的法律规定具有高度抽象性,这为适用于利益共享机制提供了解释空间。根据《民法典》第985条的规定,在两方未达成合意的AI训练中,数据持有者使用数据来源者的作品数据无法律上原因,且数据持有者后续获利行为也与数据来源者的作品数据之间存在必然关联,满足不当得利制度介入的基本要件。第三,在性质上,利益共享机制属于权益侵害型不当得利制度的调整范围,得利人获得的利益往往并不来源于受害人,而是来源于第三方,但与受害人的财产存在关联性。所以权益侵害型不当得利制度的关注点在于剥夺得利人的不当获利,并将其返还给受害人,其不以实际上受有损害为必要,功能在于强化对权益的保护,以期实现利益平衡。依权益归属说理论,数据来源者享有作品数据之上的财产利益,尽管不具有排他性,但是数据持有者无偿使用其作品数据获利的行为欠缺正当性基础,故满足权益侵害型不当得利的构成要件,数据持有者应当基于作品数据的客观价值予以返还。
最后,更为关键的是,不当得利制度能够解释数据持有者只须返还数据来源者提供数据事实所涉及的利益,而非全部利益。权益侵害型不当得利制度需借助理性人标准来确定客观价值,得利人的返还利益范围应当限于客观价值,而非扩展至额外获利。通说认为,损失大于利益时,应以利益为准,利益大于损失时,则应以损失为准。在利益共享机制下,数据持有者享有了本应属于数据来源者那部分利益,属于利益大于损失的情形,此时应以作品数据的客观价值额为限进行返还,不涵盖数据持有者因使用数据来源者的作品数据而额外获得的利益,否则数据来源者反而获得不当得利。对于客观价值额的计算则应当根据利益的来源,即根据所获利益与当事人之间的关联性进行分配,这应当在不同场景下进行讨论。
除给付请求权外,数据来源者还享有给付受领权与保护请求权。前者是指当AI训练者等数据持有者按照法律规定履行给付义务时,数据来源者有权接受并永久保持因履行所得的利益。后者则是债权不可侵害性的体现,以债为核心,外围辅以具有对世性的法律关系加以保护。一方面是相对性的不可侵害,数据来源者有权依据AI训练者等数据持有者不履行给付义务这一事实请求国家机关予以保护,强制其履行债务;另一方面是绝对性的不可侵害,数据来源者拥有对世的请求权,任何人不得侵害其利益共享的实现。
仍需要讨论的一个问题是,是否有必要对上述权利的自由处分权能进行限制。本文认为,为保障数据来源者在利益共享上的合法权益,避免其受出版社、唱片公司等强势数据持有者的压力而放弃利益共享权益的可能性,原则上利益共享权益不得放弃、取消与移转。但是,考虑到数据来源者在行权方面存在困难以及权益转让目的的正当性,不能从根本上完全剥离其处分权能。以实现利益共享权益为目的,数据来源者可以将利益共享权益移转给集体管理组织。总而言之,利益共享机制通过权益侵害型不当得利制度得以实现,数据来源者基于利益共享机制而具有给付请求权、给付受领权、保护请求权以及受限的处分权四项权能。
(二)场景化配置利益共享机制
在利益共享机制中,数据来源者并不能够根据AI训练者等数据持有者使用作品数据的事实在任何情况下请求对方给付,只有在满足一定条件下数据来源者才能够共享利益。本文认为,在两种典型场景下,数据来源者有权向AI训练者等数据持有者主张共享利益,其一系AI商用场景,其二系作品数据持有者与AI训练者合意有偿使用场景。
1. AI商用场景下的利益共享
(1)训练目的:AI模型具备营利性
AI模型通过海量作品数据的训练后,其投入使用存在营利性与非营利性之分。当训练后的AI模型被用于非营利目的时,由于AI训练者并未依靠这些作品数据实现经济收益,数据来源者缺乏充分的正当性理由向AI训练者主张利益共享。然而,当AI模型具备营利性时,情况则迥然不同。数据来源者提供的作品数据资源作为一种生产要素,直接参与了价值创造过程。数据来源者通过提供丰富、多样且高质量的作品数据资源,为模型的智能化水平和商业应用价值的提升作出了重要贡献。在这一过程中,数据来源者作为作品数据的初始提供者,其对AI模型经济价值的贡献至关重要。这些作品数据不仅是模型学习的基础,更是推动AI技术创新与应用拓展的关键要素。因此,面对AI模型商用后所产生的财产利益,根据《数据二十条》“谁贡献,谁受益”的基本理念,数据来源者理应享有从AI模型营利性使用中共享财产利益的权利。
(2)责任主体:给付义务人为AI训练者
在AI商用场景下,数据来源者无权向用户主张利益共享。用户作为AI模型的使用者,不直接参与AI模型的训练过程,不构成对AI模型基础架构的实质性改变,也未从作品数据使用与流转中直接获益,数据来源者在这一过程中的贡献相对有限,难以说明数据来源者在这一场景下能够对用户主张利益共享。应当认为,数据来源者利益共享的给付义务人为AI训练者。AI训练者是作品数据的直接使用者与获益者,其以建立并完善AI模型为目的进行数据训练。他们通过收集、处理和分析作品数据等行为来训练和优化AI模型,从而获取相应的财产利益与市场竞争优势。在这一过程中,数据来源者提供了重要的作品数据支持,作品数据参与到AI模型的核心构建,并对模型的整体性能和功能实现具有决定性作用,使得AI训练者能够顺利地完成AI模型的训练工作。因此,AI训练者应承担相应的给付义务,有责任与数据来源者协商利益共享机制,确保数据来源者能够从AI模型的商业应用中获得合理的回报。
(3)利益实现:公平合理的利益分配方式
尽管有反对观点,但是在AI商用场景下,利益共享权益首先应当表现为直接获得经济回馈,并通过明确利益分配机制得以实现。为了确保数据来源者能够根据其实际贡献获得相应的经济回报,我们需要建立一套公平合理的利益分配机制,坚持“贡献者按照贡献值参与分配”的公平原则。
一种利益分配方式是按照作品数据使用量和作品数据价值进行分配。AI训练者可以根据数据来源者提供的数据量、数据质量以及数据在AI系统训练中的实际贡献程度来确定分配比例。具体操作上,可以引入“沙普利值法”解决利益分配问题。“沙普利值法”体现了合作各方对合作总目标的贡献程度,避免了分配上的平均主义,比任何一种仅按资源投入价值、资源配置效率及将二者相结合的分配方式都更具合理性和公平性,也体现了合作各方相互博弈的过程。当前已有学者将“数据沙普利值法”应用于联邦学习的利益分配等场景中。
另外一种利益分配方式是采用收益分成的方式。AI训练者与数据来源者可以合意约定一定的收益分成比例,根据AI系统产生的商业收益进行分配。在具体实施过程中,双方可以根据AI模型的应用场景、商业模式以及市场竞争情况等因素,灵活确定收益分成的比例和方式。此外,还可以考虑采用股权激励等创新方式来实现收益分成,对于提供高质量、大规模作品数据的机构或个人,可以给予其一定的股权,使其能够长期分享AI商用带来的收益。对于提供小规模作品数据的数据提供者,则可以通过一次性支付费用或数据换服务等方式实现收益分成,并探索更能满足数据来源者经济诉求的收益分配方案。对于利益分配存在争议的,可以通过建立专门的报酬争议裁决机制用以应对数据来源者或AI训练者对收费标准不满的情形。
2. 作品数据持有者与AI训练者合意有偿使用场景下的利益共享
除AI商用场景外,还存在一个场景允许数据来源者共享财产利益,即出版商等作品数据持有者与AI训练者达成有偿使用作品数据库合意的情形。当出版商等作品数据持有者通过向某家公司提供作品数据用于AI训练,并因此获得经济收益时,数据来源者有权主张共享这部分利益。原因在于,尽管出版商等作品数据持有者在作品数据的收集、整理、编辑和出版过程中投入了大量资源,但是如果没有数据来源者提供的作品数据,后续获利行为也无从展开。因此,从公平的价值立场出发,数据来源者对于由其作品数据使用产生的财产利益享有天然的权益,这部分财产利益出版商等作品数据持有者理应与数据来源者共享。这一场景区别于AI商用场景,该场景中的AI训练者的数据并非直接来源于数据来源者,而是从作品数据持有者处通过意定的方式获取,此时数据来源者的利益共享不同于AI商用场景下的利益共享。
(1)作品数据持有者的界定
对于作品数据持有者的厘定,应当根据其持有作品数据的途径进行判断。从实践层面来看,存在两种途径。其一,数据来源者通过作品数据持有者出版、发布作品,作品数据持有者进而持有作品数据。一方面,作品数据持有者表现为出版商。随着大数据技术的开发和应用对出版业产生巨大影响,传统依靠纸质的出版商也可以依托数字技术将其出版物存储至其数据库中或进行数字出版等,出版商逐渐成为大量优质作品数据的持有者。另一方面,作品数据持有者表现为网络平台运营商等。该类作品数据持有者往往保有大量的作品数据,能够形成全面、结构化的数据库,以提供给他人使用。其二,作品数据持有者自己收集作品数据,形成作品数据集。这种方式通常涉及对大量分散作品进行系统化、规模化的收集和整理,旨在构建一个全面、结构化的数据集,以满足AI训练者对高质量数据的需求,此时作品数据持有者能够通过其收集和整理的优质作品数据获得可观的收入。通常而言,这类作品数据持有者表现为数据提供商。
(2)作品数据持有者应为AI训练者提供作品数据
在这一场景下,作品数据持有者需要将其持有的作品数据,汇集并提供给AI训练者使用。具体而言,一是为AI训练者提供数据端口。数据共享是一种重要的数据利用方式,也是数据流通和数据产业发展的重要基础,提供数据链接端口是一种高效且灵活的数据共享方式。作品数据持有者通过在其后端数据库中建立安全、稳定的数据接口或API,允许AI训练者在遵守合同约定的前提下,远程访问和使用作品数据。二是将数据移转至AI训练者。通常而言,当AI训练者的数据需求量大且需要深度处理时,往往会选择此类方式。在这种情况下,作品数据持有者预先整理、清洗和标注相关数据集,以物理介质(如硬盘、磁带)或云存储的形式,将其直接交付给AI训练者。
(3)合同应有偿
在出版商等作品数据持有者与AI训练者合意使用场景中,数据来源者若想实现利益共享,应当要求两者之间针对作品数据使用所签订的合同系有偿合同。原因在于,利益共享机制的实现必须建立在获得财产利益的基础之上,这部分利益来源于出版商等作品数据持有者通过有偿合同从AI训练者处获取的经济回报。若作品数据持有者未获取对价,数据来源者自然无权向其主张利益共享。
对于有偿的理解,应当从作品数据持有者与AI训练者合意使用场景中整体把握。具言之,两者均须作出相互具有对价性质的付出行为,不仅体现为出版商等作品数据持有者将作品数据移转至AI训练者处,即数据使用权能的移转;还体现为AI训练者向出版商等作品数据持有者支付相应对价,这是对作品数据价值的认可,也是对出版商等数据持有者针对作品数据付出的经济回报。其中,该对价是否与给付义务客观等值并不重要,重要的是当事人主观视其为等价即可。
区别于AI商用场景,数据来源者向作品数据持有者主张利益共享的范围应当以合同标的为限。具体而言,当出版商等数据持有者在与AI训练者达成合作时,应当充分考虑数据来源者的权益,与其进行充分沟通和协商,以期达成公平合理的利益分配方案。若协商无法实现针对利益分配的共识,此时一种方案是可以通过引入第三方评估机构对数据的贡献价值进行客观评估。评估过程中,应充分考虑作品数据的独特性、稀缺性、商业价值以及AI训练者对数据的依赖程度等因素。另一种方案则是根据市场惯例决定相应标准,或是根据“数据沙普利值法”等市场惯常算法进行计算,需要充分考虑各种因素并寻求各方利益的平衡点,确保分配结果公平且合理。
三、实现利益共享的保障机制
(一)以披露义务消除利益共享的前端障碍
1. AI训练“黑箱”特性阻碍作品数据来源者行权
在AI进行数据训练的过程中,可能会引发“黑箱”风险。所谓“黑箱”风险,是指在大数据与AI的应用场景之下,由于数据收集呈现出非结构化和非标准化的显著特征,并且数据来源以及处理过程的透明度严重缺失,致使使用者难以理解模型的决策逻辑及其依据,进而无法对其推断的理由进行阐释。AI训练的“黑箱”问题乃是贯穿于训练全流程的技术价值难题,“黑箱”所产生的固有风险迫切需要法律予以应对。如何应对AI训练中的“黑箱”风险,乃是法律规制所面临的首要问题。
对于数据来源者而言,AI训练“黑箱”不但会致使其知情利益难以实现,还将对其利益共享权益的实现构成阻碍。一是技术因素会对其行权产生阻碍。鉴于训练的复杂性、技术性以及内部性,数据来源者是天然的信息获取劣势方,无法了解数据训练的具体情况。若缺乏AI训练者的告知,在训练信息匮乏的情况下,数据来源者实现利益共享权益面临诸多困难。二是AI训练者会有意加剧AI训练“黑箱”的发生。在信息需有排他性才有用的内在动因的驱使下,对于AI训练者而言,通过将训练数据装在“黑箱”之中,来排除其他的竞争者,具有一种天然的诱惑。此时,AI训练者不仅不会主动采取措施消除与数据来源者之间的信息不对称,更会通过各种技术手段阻碍他人获知其AI训练的具体信息,这进一步增加了利益共享机制的实现难度。
2. 明确AI训练披露义务
为解决AI训练的“黑箱”特征所引发的行权障碍,设置数据训练法定披露义务是合理且必要的。一则对AI训练的相关信息进行披露是解决不透明性的一种直接且成本相对较低的手段。AI训练具有高度的技术性特征,这使得数据来源者在获取训练信息时面临较高的成本,而AI训练者披露相关信息的成本相对较低。披露机制能够通过制度设计,将部分行权成本合理地转移至AI训练者,从而有效降低数据来源者的行权成本,提高配置效率。二则通过建立有效的披露机制,以便数据来源者能够在更为充分地了解自己作品被使用的具体情况的基础上,切实保护其在作品上的财产利益,从而实现法律的公平与正义价值。因此,利益共享机制应当以数据披露义务为起点,可为财产利益的实现提供便利。
当前,域外能够提供一定的可参鉴经验,国内也已有相关政策文件回应AI训练披露事项。一是应当以立法的方式从主体层面和内容层面两个方面明确AI训练披露义务。在主体层面,披露者应当是AI训练者,并在摘要信息中进行署名。在内容层面,AI训练者应当起草并公开有关AI训练的内容摘要,包括所用作品数据的相关内容以及数据来源,但应当允许AI训练者不披露有关商业秘密以及涉及市场竞争的相关内容。统一披露报告的编制依据与评价标准,并设置最低披露限度,以使数据来源者能够明确获知其作品数据被应用于AI训练中。二是应当明确披露程序。鉴于让AI训练者逐一披露的方式成本高昂且难以实现,一种可行的解决思路是通过搭建网络平台,以将披露报告公开上网的方式来实现披露义务,数据来源者可以通过自行或者委托他人的方式浏览报告。三是应当构建AI训练披露监管制度,并明确且落实披露责任。通过创新监管方式以提高监管效率,降低监管成本。引入新型监管工具,在不侵犯知识产权和商业秘密的前提下,积极开展监管活动。四是应当建立数据训练工作备忘录制度,辅以AI训练披露义务的实现,进一步提升AI训练的透明度和可追溯性。这有助于在数据侵权或争议发生时提供有力的证据支持,若AI训练者无法提供备忘录应当认为其具有过错,并视为使用了数据来源者的作品数据。在法律责任层面,一旦AI训练者违反法定披露义务,一方面应当承担民事责任,数据来源者有权要求AI训练者履行法定义务,及时披露涉及知识产权部分的摘要信息;另一方面,AI训练者可能会面临公法上的行政处罚等惩戒措施。
(二)通过集体管理模式帮助实现利益共享
1. 个人实现路径成本高
在AI训练中,数据来源者直接向AI训练者等数据持有者主张利益共享是相对困难的,这不仅是由于前文所述之“黑箱”所产生的客观技术问题,更是因为个人实现路径成本高昂,难以平衡各方主体的利益。首先,数据来源者相对于AI训练者等数据持有者而言商谈地位较弱,维权能力欠缺,亲自主张利益共享的结果必然是陷入烦琐的行权事务之中。在这种情况下,共享的利益有时难以弥补维权成本,从根本上打击数据来源者维权积极性。其次,对于AI训练者等数据持有者而言,由于缺乏有效的给付渠道和机制,面对数量庞大的数据来源者,让其直接向数据来源者履行给付义务成本高昂。最后,个人实现路径发起的维权诉讼,可能会显著增加司法成本。一方面,诉讼过程可能会变得冗长、复杂,导致大量占用司法资源;另一方面,不同的数据来源者可能会针对同一AI训练者或同一数据来源者针对不同的AI训练者提起诉讼,进一步增加整个司法系统的负担。
因此,以个人实现路径建构的利益共享机制,在客观上难以切实助力数据来源者实现利益共享,也增加了制度成本。参考著作权法上的经验,就作品数据而言,也应当引入集体管理模式,帮助数据来源者实现其在作品数据之上的财产利益。通过集体管理模式,解决单独个体谈判地位不足的问题,数据来源者能够实现利益共享,AI训练者等数据持有者也能够免去找寻数据来源者的困难,有效降低利用者的搜寻和谈判成本,起到数据来源者与AI训练者之间沟通的桥梁作用。
2. 以信托框架建构集体管理的利益共享实现机制
为应对个人实现路径部分失灵的问题,可采用信托框架建构集体管理模式。不同于委托代理,信托乃是委托人将自身的财产权委托给受托人,并由受托人以自己的名义、为了委托人指定的受益人的利益或者特定目的而对该财产加以管理的一种财产安排。其在数据来源主体保护、数据流通效率提升以及数据监管体系完善上均具有独特的优势,对于破除数据要素流通障碍、促进数据价值创造、推动数据要素市场化配置具有重要的现实意义,具有内在的生成逻辑。就集体管理的信托运行机制而言,数据来源者将利益共享权益授权给信托机构后,信托机构以自己的名义为数据来源者向AI训练者等数据持有者主张利益共享,并能够作为当事人进行涉及利益共享的诉讼仲裁以及调解活动,所获取的财产利益并非直接为数据来源者所享有,而是需要通过信托机构向数据来源者给付的方式来完成财产利益转移。
在性质上,信托关系本质上是信义关系,依托信托框架建构利益共享的实现机制,是以信义关系为基础展开的。在信义关系中,信托机构对数据来源者负有信义之债,承担信义责任,适用通常的信义关系规则。这要求信托机构为了数据来源者的利益应履行积极管理和处分的行动义务,应当忠实且勤勉地为实现数据来源者的利益共享权益而行动,不辜负数据来源者的信任。具言之,信托机构的信义义务包括两方面的内容:一是以自己名义代数据来源者向AI训练者等使用作品数据者主张利益共享;二是向数据来源者转付报酬。前者涉及如何行权问题。信托机构无须发放许可等前置要件,可以参考披露信息,直接根据AI训练者等数据持有者是否使用作品数据来向其行权。后者涉及利益分配问题,应当根据信托合同的相关内容进行。对于上述所有事项,信托机构应当说明、记录,并以纸质以及电子版的形式进行留存。
结 语
在数字化与智能化浪潮的推动下,作品数据已成为AI技术发展的核心要素之一,其蕴含的巨大经济价值不容忽视。通过分析作品数据在AI训练中的应用特征及其经济价值生成机制可知,数据来源者作为数据生态的基础贡献者,有权参与由其所提供数据产生的财产利益分配。对于AI训练中的作品使用行为而言,著作权并非数据来源者主张财产利益的直接法律依据。对此,本文提出了一项新的机制——利益共享机制,作为数据来源者与AI训练者等数据持有者之间财产利益分配的基础。这项机制不仅体现了对数据来源者贡献的认可与尊重,也是平衡技术进步与利益分配公正性的重要尝试。未来,随着技术的不断演进和社会对数据价值认识的深化,如何进一步完善数据利益分配机制,促进数据资源的优化配置与可持续利用,将是值得持续关注与研究的重要课题。
相关链接
2025年第1期|黄汇 翟鹏威:公共领域视野下大模型数据使用行为的著作权定性
来源:《知识产权》2025年5期
责任编辑:崔倩
编辑:李倩
审读:刘珊
咨询邮箱:
zscqip@163.com
投稿网站:
https://zscq.cbpt.cnki.net/EditorHN/index.aspx?t=1