人工智能训练的版权困境及其出路:模块化许可机制探析
孙靖洲:北京大学法学博士后研究人员,慕尼黑大学法学博士
内容提要
创作者对人工智能利用其作品进行训练的抵制,缘于利益分配机制付之阙如。在调整因新技术带来的作品使用形式变化所引发的新的社会关系时,既要确保创作者能公平地参与到由创作带来的收益分配中,维护其劳动尊严和劳动收入,又要防止版权人通过杠杆优势制约技术发展。可考虑从知识产权制度为解决市场失灵而创设的四种特殊许可模式中汲取经验,为人工智能训练建立一套整体协调但内部区隔的模块化授权许可机制:大型人工智能企业应尽最大努力获取授权,主动建立版权许可机制,与版权人分享收益;中小企业同时面临被大型内容平台拒绝许可与缔约成本高的双重困境,应要求大型内容平台作出以公平、合理、无歧视方式进行授权的声明,并发挥其中介组织的优势,保障个体创作者的合法利益、企业获得充足训练语料,同时防止掌握海量内容数据的大型内容平台封锁人工智能产业。
关 键 词
生成式人工智能 合理使用 法定许可 AI投喂 训练数据可携带权
引 言
生成式人工智能(Generative AI)是一种通过学习已有数据生成新内容的人工智能,其在改造旧的生产方式的同时不断创造新业态。人工智能制作的漫画、电影画面和短片已经进入市场。服务于日常办公、语言学习和会话聊天的人工智能,不仅可以帮助企业降本增效,还能把劳动者从单调枯燥的工作中解脱出来,让人们学习和从事需要人类智慧和陪伴的事务。面对创造出巨大商业价值、正在改变人们生产方式的人工智能,法律的首要使命就是确保和引导这种新型生产方式有序地发生、稳定地生产,以便产生更高的社会经济价值。
版权法作为以作品为基础、调整新技术带来的新收益之分配关系的法律制度,首先需要对人工智能作出回应。事实上,随着作品内容的信息化和数据化,版权法已习惯于处理“复制依赖型技术”(copy-reliant technology)所引发的版权问题,比如网络检索和在线浏览。人工智能所使用的文本数据挖掘(text and data mining)技术需要批量、自动地复制海量的信息内容以供大模型训练,其虽亦属复制依赖型技术,但与网络检索和在线浏览不同,人工智能对文本内容的复制不以阅读、欣赏作品为目的,甚至在结果上也不会再现作品的表达。由此似乎可以推断,版权人应当更容易接受人工智能的训练行为;然而现实中,版权人却前所未有地团结在一起,共同针对人工智能未经许可的复制行为提出了抗议。欧美等地的作者及其组织相继提起了针对人工智能复制和学习作品的侵权诉讼。不少艺术家和编剧走上街头,抗议人工智能对其作品的无偿使用,表达对自身职业生计的担忧。究其根源,版权人没有因其作品是人工智能发展的基石而从愈加繁荣、已经产生了巨大商业价值的人工智能产业中分一杯羹,甚至还可能面临“教会徒弟,饿死师傅”的困境。
为在版权保护与发展人工智能技术、鼓励创作“民主化”之间寻求平衡,有必要从利益分配的角度重新审视人工智能服务提供者与作品被用作训练数据的版权人之间的冲突和纠纷。版权制度通过产权激励创作的关键机制在于,激活和促进智力成果的市场交易。然而,从知识产权制度的发展历史和比较经验中可以发现,知识产权的许可绝非完全依赖于自由市场机制,而是存在多种解决市场失灵的特殊许可模式。本文尝试在系统、全面地比较分析知识产权特殊许可模式的基础上,以人工智能产业的发展需求及其对创意产业的影响为考量要素,为人工智能企业利用版权内容进行训练提供一种模块化许可机制,促进人工智能企业与版权人形成正和博弈。
一、人工智能训练行为的版权困境:现有解决方案及其局限
现阶段人工智能的发展仍极其依赖人的智力劳动,需要复制并通过对内容的数据化编码,来“学习”人类语言和艺术创作的规则、模式、结构及趋势等,以生成符合语言习惯并具有审美价值的内容。书籍作为“高质量长篇写作的最佳范例,是大语言模型训练数据集的关键内容”。因此,版权人强烈要求人工智能就其训练行为寻求许可并给予他们公平的报酬。围绕二者间的法律纷争,版权学界发展出两种对立的观点:以合理使用(fair use)或“非版权性使用”为依据的“技术优先派”与以法定许可制度为基础的“利益分享派”。诚然,这两类解决方案均具有合理性,但在教义和实施层面仍存在一些问题。
(一)技术优先派:过于宽泛且可能加剧财富集中
技术优先派的共同主张是,人工智能将作品作为训练语料的数据和文本挖掘行为不构成侵权。其中,主张合理使用的学者认为,大模型训练行为是对作品的转换性使用,既没有创造出独立的副本,也不追求在结果上占据原作品的市场,其目的是提升人们创作内容的效率,因而应当予以版权侵权的豁免。主张非版权性使用的学者则通过区分“作为作品使用”与“作为数据使用”,认为人工智能使用的是作品在网络传播时所产生的闲置资源——数据,而非对受版权保护的表达性内容的使用或欣赏,因而版权的本质未受到侵害。由此不难看出,技术优先派以允许人工智能的训练行为不会破坏版权对创作的激励作用为理据,凸显了“版权作为必要的恶”的功利主义理念。而进一步深究后可以发现,技术优先派所依据的法理并不能赋予人工智能获得训练语料的法律地位,在效果上也难谓合理地平衡了版权人的权利与人工智能产业的发展利益,不符合《保护文学和艺术作品伯尔尼公约》第9条第2款对著作权限制所提出的“三步检验法”。
首先,上述主张本质上均是对版权侵权的抗辩而非赋予使用者以相应的权利;使用者无权要求版权人为其实现对作品的合理使用提供方便。具体到人工智能的背景下,即便认为训练数据属于合理使用或非版权性使用,人工智能企业也不能禁止内容平台采用技术手段限制其数据爬取行为。为解决该问题,“自由的权利化”不失为一种方案,即赋予特定的使用者以诉权和强制执行的权利,使合理使用的自由成为“使用者权”。例如,德国2021年颁布的《著作权—服务提供者法》就赋予超大型内容分享平台的使用者以基于戏仿等行为的诉权。参照此规定,数据挖掘行为也须“权利化”以确保人工智能企业有权获得训练数据。例如,欧盟2019年《数字化单一市场版权指令》仅规定限制科学研究目的的数据挖掘的合同约定无效,仍然要求基于商业目的的数据挖掘须取得版权人的许可。可见,单纯的合理使用条款不足以保障人工智能获得训练数据。
其次,为满足“三步检验法”,合理使用的“四要素”兼具质与量的要求。例如,在具有里程碑意义的“谷歌数字图书馆案”中,美国联邦第二巡回上诉法院认定谷歌的行为属于合理使用的核心理由是,其复制图书所提供的搜索服务属于对作品的转换性使用,以及为实现此服务所展示的作品片段具有微量性和绝对必要性;此外,法院还特别强调,因为不会有人通过不断调整搜索关键词以达到阅读整本书的目的,所以谷歌数字图书馆根据关键词所展示的“片段预览”服务不会对作品产生替代性作用,反而会提升作品的销量。又如,尽管学术研究和课堂教学对科学和文化教育事业的发展具有重要意义,但美国仍对老师、学校和科研机构合理使用作品的比例、数量和方式作出严格限制,并对超出该限定的行为设置最低赔偿额,防止以牺牲版权人合法利益为代价来片面追求政策目标。同理,在人工智能利用版权内容训练的场景下,明智的做法是从质和量两个方面严格审查人工智能服务的转换性水平和对作品的替代效果。当下,各类人工智能企业服务的性质、内容、目的及技术水平天差地别。有些企业囿于算力、算法和财力难以实现对训练语料的高水平转换,有些企业因服务于利基市场的目的而专门从文学艺术作品中“挖掘”具体的表达性内容供使用者“挪用”。一些网文创作应用能提炼小说大纲,提供针对具体情节、高潮段落的仿写建议,以方便用户模仿原著的语言表达和情节设计。鉴于此,即使认为需要适用合理使用规则解决人工智能训练的版权问题,也应当根据人工智能企业提供具体服务的性质、内容和目的等因素,设置具体的版权限制和例外条款,以满足“三步检验法”的特例性,不影响作品正常使用和利益平衡的要求。
最后,还有必要重视技术优先派在教义之外所带来的深层问题,即它塑造了人工智能企业与版权人的零和博弈,这将不利于人工智能技术和产业的良性发展。人工智能的高质量发展依赖于持续更新、丰富多样的训练语料库,以及使用者特别是文化创意产业从业者对人工智能生成内容的积极修改和完善。换言之,没有创作者的鼎力支持,人工智能产业难以实现颠覆式创新。从文化繁荣发展的维度考虑,即便未来人工智能生成物可能成为文化艺术市场的组成部分,社会仍需要那些具有突破性、创新性且能够真实反映社会现实与变革的文化艺术作品,而这类作品依赖于人类引领的新表达形式和对社会现状进行反思的先锋运动。从政治经济学的角度观察,人工智能系统以创作者的作品作为训练素材,实际上是通过这一手段独占了由此产生的财富。这种现象与经典的资本主义生产关系极为相似:掌握生产资料(大数据)的少数群体能够迅速积累财富,并制定有利于自身利益的规则,而那些贡献了作品和数据劳动的创作者却被排除在财富分配之外,无法公平分享技术进步的红利。这种不平衡的局面不仅威胁到文化创意产业的健康发展,也可能在更广泛的社会层面引发人们对知识产权制度和财富分配机制的质疑。
(二)利益分享派:可实施性难题与必要性缺失
为使版权人从人工智能训练中获得合理补偿,并保障人工智能企业获得充足的训练语料,利益分享派以法定许可制度为理据提出解决方案,允许人工智能企业依照法律规定,在未经许可的情况下使用他人已经发表的作品进行数据挖掘,但应支付合理的使用费用。通常而言,版权人会与使用人就授权条件进行自由协商,而许可是双方讨价还价的结果,取决于双方基于平等地位的谈判能力。然而,为克服特定情况下事前协商所造成的交易障碍,法定许可剥夺了版权人关于许可的决定权和定价权,允许使用人在支付一定报酬的前提下依法取得对作品的使用权,以实现使特定群体获取原本不能获取的智力成果的公共利益。相较于合理使用制度为实现公共利益而完全排斥市场交易,法定许可制度实质上是通过替代或补充自由市场机制,在尊重和维护版权人合法权利的同时,实现鼓励知识和信息公众传播的公共利益。
因此,除有效实现公共利益外,法定许可制度的核心在于保障版权人的权利,特别是合理获酬权和署名权,即确保版权人能够获得与其作品实际使用情况和价值相称的合理报酬,以及作者与作品的人格联系。深入检视后不难发现,这两项权利在人工智能训练领域均难以得到合理保障。其一,专门的行政机构或准司法机构在估价时须依据市场经济条件、遵循公平原则,并兼顾作品的社会效益和文化传播价值,防止因费率过低而削弱作者的创作激励。然而,确定不同企业、不同类型和不同领域的训练行为的合理使用费率是一项高度复杂且敏感的工作。我国现有的著作权集体管理组织存在运行成本高、管理机制不够完善的问题。这使其难以完成对大规模、复杂的人工智能训练行为定价,并真正将费用逐一支付给版权人的任务。行为经济学中的“终极博弈”(the ultimatum game)理论阐明了社会财富分享的一个基本原则:如果没有关于分享的合理提议,那么社会宁愿放弃意外之财直到适当的分享发生,即使这意味着拒绝整体社会福利的帕累托优越改进。人工智能企业格外需要版权人的支持,这不仅包括版权人需要向人工智能企业主动开放作品内容和数据,还包含积极使用人工智能服务并对生成内容进行修改和加工。法定许可制度在定价效率上的缺失和显而易见的执行困难,会加剧版权人与人工智能企业之间的利益冲突与分配的不确定性,阻碍人工智能产业健康发展。
其二,法定许可对作者署名权的保护在维护作者精神利益方面发挥了重要作用,但这一点在人工智能训练场景中难以实现。郑成思教授将法定许可视为作者与社会之间的理性妥协。究其原因,作者虽然在经济利益上有所让步,但通过作品的广泛传播,其可以获得更多声誉和社会认可。而该逻辑在人工智能训练场景中并不适用,因为人工智能无法具体指明其生成内容“学习”和“借鉴”的原始独创性表达。而作者自决权的克减,不仅未能为其作品带来更广泛的受众和声誉,反而削弱甚至抹去了其与作品之间的人格联系。即便有运行良好的第三方机构能够在经济层面保障作者的利益,法定许可制度也无法满足作者通过作品被更广泛地阅读和传播以实现人格发展的需求。
更重要的是,根据人工智能企业寻求训练许可的现状可以发现,法定许可制度以第三方客观估价取代市场机制的方案,在人工智能训练领域适用缺少充足的必要性。版权制度所塑造的“价值链”,即“创作获得权利—权利带来收益—收益激励创作”依赖良好运行的市场。任何偏离于市场的许可制度都会因其对版权“价值链”的不利影响而需要正当且强有力的理由。法定许可对权利人排他权的弱化是为了消除事前协商困难形成的交易障碍,例如权利主体众多且分散导致接触成本畸高,权利“劫持”导致市场垄断,等等。各国版权法中常见的法定许可情形,如教科书使用、广播组织播放和音乐作品制作录音等,概莫能外。因此,当上述市场失灵不存在或消失后,偏离自由市场交易机制的法定许可制度也就失去了必要性。回归到人工智能训练数据的版权问题上,利益分享派认为,人工智能训练涉及的作品数量庞大且种类复杂,因而有必要免除人工智能企业与众多且分散的版权人逐一接触和谈判的巨大交易成本,让企业在支付合理报酬之后即可获得充足的训练数据。然而现实情况是,我国数字版权产业市场集中程度较高,少数几个网络平台掌握了绝大部分的数字版权内容,这在很大程度上减少了人工智能企业为寻求训练许可所需付出的接触成本和缔约成本,进而降低了适用法定许可制度的必要性。事实上,许多大型人工智能企业已经与各类平台达成了作品训练使用的许可协议。这也从侧面说明,人工智能训练领域无需全面适用法定许可制度。
综上所述,上述两类解决方案均难以解决人工智能训练的版权问题。究其根源,在于人工智能企业的发展水平不均衡、商业模式尚未成熟。过早、过快地采用“一刀切”式的规制方式对人工智能训练行为适用合理使用或法定许可制度略显操切。这不仅容易对各项制度原理造成冲击,也无法有效化解人工智能企业与版权人之间的利益冲突。人工智能对创作者生计和创作生态的影响目前尚难以准确预测,因而有必要为版权人与人工智能企业就财富分享事宜保留自由协商的制度空间,并为利益分配机制的后续调整和改进留有余地。
二、人工智能训练的版权许可模式初探
(一)人工智能训练的版权规制原则
为化解人工智能企业与版权人之间的利益冲突,引导人工智能场景下新型生产模式有序发展,有必要深入分析人工智能企业的发展现状和实际需求,研究该产业可能给创作者生计和创意产业生态带来的冲击与挑战,探求一种精细、灵活且兼顾各方需求的解决方案。
考察人工智能企业与创意产业的需求现状后可以发现,处于不同市场地位的版权人和人工智能企业在训练许可中的策略和面临的挑战存在显著差异。具体而言,领先的人工智能企业在应对版权问题时展现出高度的灵活性与前瞻性。其一面积极应对版权人的诉讼并进行政治游说,一面主动与各领域的版权商合作,例如,OpenAI公司每年支付给美联社、Politico等新闻机构的人工智能训练版权费用在100万至500万美元之间。这种双重策略不仅能够在短期内帮助人工智能企业降低法律风险,确保其获得高质量的训练数据,更能够在长期发展中增强其在细分市场上的竞争优势和对未来版权立法的影响力。然而,从创作者的角度审视,这种带有投机色彩的企业策略并不利于维护劳动尊严和劳动收入。在人工智能训练行为的合法性尚不明确的情况下,人工智能企业为了获取竞争优势,往往优先与掌握海量版权的大型内容平台和在细分市场占据主导地位的企业型版权人合作,而忽视个体版权人的授权许可。这种倾向导致个体创作者无法平等参与财富分配,其利益诉求无疑被边缘化。即使训练行为最终被认定为合理使用,版权人之间的保护水平不平等也难以得到有效缓解。正如前文所述,拥有丰富资源的企业型版权人仍可以通过技术手段,“迫使”人工智能企业与其达成数据使用协议,而缺乏保护意识和技术支持的个体创作者则难以得到同等水平的保护。因此,若任由大型人工智能企业采取此种歧视性许可策略,将可能导致越来越多的个体创作者放弃在网络上传播作品。这不利于年轻创作者的长远发展,也会影响创意内容的多元性。
中小体量的人工智能企业虽然也在努力建立与内容平台的合作关系,以获取更优质的学习语料,但其在寻求训练许可的过程中面临两类特殊困难。其一,掌握海量版权的大型内容平台往往正在开发自己的大模型,如百度的“文心一言”、腾讯的“混元大模型”等。这些大型平台很可能出于市场保护的考量,拒绝将其内容许可给潜在的竞争对手进行大模型训练。其二,处于发展初期的中小型人工智能企业在技术和资金层面处于相对弱势地位,难以吸引版权人给予授权许可。这些独立企业亦无法像与大型平台关联的人工智能企业那样,直接利用平台所掌握的海量内容进行训练。这必将严重遏制独立的、中小型人工智能企业的发展动力及其在市场竞争中的生存能力。若上述问题得不到有效解决,人工智能产业内的发展不均衡现象将会进一步放大,这不仅会抑制技术创新的多样性与活力,还可能因大型人工智能企业获得支配地位而压缩创作者的选择空间,导致后者议价能力降低、劳动收入下降。
诚然,处于不同市场地位的人工智能企业和版权人所面临的困难及挑战有所区别,但二者均希望能以最低的成本来维护自身的经营自由和利益,因而其关系呈现出对抗与合作的双面性。追溯版权人与互联网对抗与合作的发展史可以看出,前者首先会以打击盗版为名,试图封锁互联网技术以维护其传统的商业模式;然而随着新市场和新商业模式的建立,创作者会逐步适应互联网所带来的新型生产方式,利用版权法所保障的权利和利益,继续致力于创作和传播具有市场竞争力的作品。于是,版权法承担的使命就是在新的生产关系下实现权利及其限制所保障的利益分配:一方面,更严厉地打击盗版,防止作者的权利收益被分流乃至截流,确保市场信号可以正确传递到真正的作者处;另一方面,要求大型网络内容平台将其建立在(版权)内容提供与分享基础上的收益,公平合理地分配给版权人,并建立有效的版权纠纷解决机制以化解使用者与创作者间的矛盾,保障前者合理使用作品的自由。相似的历史场景正在人工智能训练领域重演。一方面,由于法律承诺给予版权人的精神利益和经济报酬尚无法在新技术场景下实现,如欧盟《数字化单一市场版权指令》为保障版权人自主权而新增的主动退出商业性数据挖掘的权利迟迟未能落地,人工智能企业与版权人之间的矛盾愈演愈烈。大型内容平台和拥有丰富资源的企业版权人尚能依靠其市场力量进行谈判和维权,而个体版权人则往往陷入被动,难以与技术巨头抗衡。另一方面,版权的排他性使得拥有海量版权的超大型平台能够利用其在数据上的支配地位,将其优势传导至新兴的人工智能行业,进一步提高其他公司的进入壁垒。因此,领先的人工智能企业常常会与拥有优势资源的大型内容平台和企业型版权人“强强联合”,从而进一步加剧了人工智能领域和创意产业内部的发展不均衡现象。
在这种动态关系中,人工智能训练许可的制度安排需要精准施策,既要让不同市场地位的人工智能企业以最低成本来维护创作者的劳动尊严及其自治利益,还要在维护人工智能企业创新活力的同时,防止数字版权寡头利用其对内容数据的杠杆优势为人工智能产业设置行业壁垒。鉴于此,有必要结合知识产权制度的发展历史和比较经验,研究为克服各类市场失灵而创设的特殊许可模式,在版权保护、创新激励和市场开放之间寻找新的平衡。
(二)知识产权特殊许可对于人工智能训练的借鉴价值
知识产权可以理解为针对第三方使用智力成果的特定行为的禁止权,而针对这种权利的交易,即使用权的许可也就成为知识产权交易的主要形式。然而,完全依赖市场的使用权交易未必能实现知识产权激励创新和提高社会福利的根本目的,原因在于信息不对称、交易成本过高、权利滥用等现象导致的市场失灵问题层出不穷,且在不同的行业和商业模式中表现出不同特征。通过对行业实践和司法判例的借鉴和吸收,知识产权制度发展出四类特殊许可模式,以消除智力成果使用权的流转障碍。除上文提及的法定许可外,另外三类特殊的许可模式包括:(1)适用于标准必要专利的公平、合理、无歧视(以下简称FRAND)许可声明;(2)超大型内容分享平台负担的“尽最大努力获取授权”义务;(3)知识共享协议(creative commons)。如上所述,由于人工智能训练领域的版权许可交易同样受制于自由市场的局限性,有必要审视这四类特殊许可模式的借鉴价值。鉴于法定许可前已论及,下文将重点分析后三类许可模式的具体内容及其在解决人工智能训练版权许可问题上给我们带来的启示。
1.标准必要专利的FRAND许可声明机制
标准必要专利的FRAND许可声明机制产生于专利法和反垄断法的交叉地带,即在专利属于为实施标准而必须使用的技术时,权利人须作出将其以FRAND方式进行许可的声明,由此担负诚信谈判、发出许可要约的义务。在功能目的上,FRAND许可声明机制通过规范权利人的议价方式来维护公平的竞争环境;在发生机制上,为使其专利成为某类产品互联互通的必要基础,专利持有人在向标准制定组织提交指定其专利为标准必要专利的申请时,须同时提交FRAND许可承诺。可以看出,与法定许可制度相比,FRAND许可声明采取以市场为基础的自由谈判机制;司法工作者由此避免了对许可费用的明确估值,而得以采用对谈判过程进行回顾性审查的方式,来维护市场交换结果的公平性。正因如此,司法工作者经常在权利人意图通过杠杆优势制约新技术发展之时,将FRAND许可条件作为衡量权利行使合法性的审查标准,而不问权利人是否事先作出过相关承诺。例如,在诉争专利属于“事实标准”的“橘皮书标准案”中,尽管专利持有人没有事先作出FRAND许可承诺,德国联邦最高法院仍裁定其拒绝许可或提出歧视性许可条件的行为违法。在受版权保护的内容构成进入市场的“必需设施”(essential facility)时,欧盟法院和委员会在一系列裁定中再三强调,版权人关于许可的谈判必须公平,并且在拒绝许可时需要给出合理理由。
虽然这些判例主要基于反垄断法框架,但适用类FRAND审查标准的根本目的是避免知识产权的静态效率与动态效率之间的失衡。当知识产权持有人掌握的资源由于锁定效应、网络效应或高昂的独立再创造成本构成进入市场的必要条件时,法律会通过限制权利人的行权方式,避免垄断导致的短期非效率无法转化为长期的动态效率。这种制度理念同样体现在欧盟为数据集合提供“准版权”保护的《数据库指令(草案)》中。该草案明确规定,当某数据库构成利基市场的唯一信息来源时,数据库持有人有义务以公平且非歧视的条款向第三方许可其数据,以供第三方再利用,包括商业目的在内,以消除市场进入壁垒,鼓励有活力的市场竞争。因此,要求知识产权持有人以FRAND条件进行授权谈判,是知识产权制度核心理念的规则转化,其适用的关键条件并非权利人是否事先作出相关承诺,而是该知识产权持有人是否控制了进入市场的必需资源。如果权利人能够凭借知识产权的垄断权利封锁市场从而排除所有竞争,那么就有必要确保第三方能够以公平合理的方式获得进入市场的机会,从而维持竞争的活力,促进技术和产品的创新。
在人工智能领域,为防止大型人工智能企业与超大型内容平台“强强联合”,封锁新兴的人工智能市场,抑制行业的竞争活力,可以考虑在人工智能训练领域引入FRAND许可声明机制。具体而言,可以要求超大型平台在授权其关联公司使用其内容进行大模型训练时,同时承诺以FRAND条件与其他人工智能企业进行授权谈判。这既可以提高版权持有人的可预见性,也能为中小型人工智能企业保留进入市场的公平机会。
2.尽最大努力获取授权机制
尽最大努力获取授权机制是欧盟为避免在超大型内容分享平台与版权人之间产生巨大的“价值差”(value gap)而创设的特殊许可模式:一方面,通过扩张“向公众提供作品权”(making the work available to the public),给予版权人要求超大型内容分享平台将其利用版权内容而获得的广告收益合理分配给自己的法律地位;另一方面,考虑到平台寻求授权的实操成本与其实现的重要社会利益,允许其在获取授权成本不合比例时适用“通知屏蔽规则”,以避免承担侵权责任。可见,通过对权利人赋权和为使用者提供责任优待,该机制既可以保障版权人对其作品的自治权,促使占有优势地位的使用者以具有竞争力的条件获得事前授权,又能让其以可接受的交易成本实现商业模式合法合规。
事实上,早在尽最大努力获取授权机制建立之前,YouTube视频平台就已经主动采用了集版权登记、监控、处理和利益分配机制于一体的“版权管理系统”(Content-ID),帮助版权人实现对其作品的控制。在我国,长、短视频平台间的版权合作也已成为视频平台的重要商业策略:短视频平台上的创作者可以在合法授权的基础上对大量长视频内容进行“二次创作”,而长视频的版权人亦能受惠于短视频的“导流”作用,获得更多的关注以及随之而来的收益。由此可见,当版权内容可以给新业态带来不菲的收益时,从业者会主动创建并实施有利于版权人的利益分配机制,以吸引更多的优质内容,提升自身的竞争力并塑造尊重创作个性的企业形象。然而不容忽视的是,尽最大努力获取授权机制的实施需要天时、地利、人和的有利条件,即成熟的版权过滤技术,大型人工智能企业的谈判优势,以及深受互联网影响的创作者和使用者。大型网络平台在内容分发上的巨大优势是个体版权人主动寻求合作的原因;高效的版权管理机制和熟稔于参与式创作的网络用户亦使平台能够以可接受的成本实现作者和使用者的共赢。版权法只需因势利导,在要求平台承担寻求授权义务的同时给予其一定的责任优待,就能在保障版权人获得收益分配的同时,确保信息传播的持续性和公共利益的实现。
在人工智能训练领域,此般天时、地利、人和的条件也只存在于领先的大型人工智能企业与版权人的关系中。因此,为督促此类人工智能企业主动建立版权许可机制,与版权人分享其利用版权内容训练大模型所获得的收益,可以考虑向其施加尽最大努力获取授权的义务。与此同时,考虑到人工智能技术对于推动数字经济创新发展的重要性,有必要设置具体的责任优待规则。例如,当获取授权的成本不合比例时,允许大型人工智能企业采取合理的替代性措施,以避免承担侵权责任。因此,针对大型人工智能企业采用尽最大努力获取授权的机制具有合理性和必要性,这既可以避免引发版权人之间收入分配不公平的现象,也不会对大型人工智能企业造成过重的负担。
3.知识共享协议
知识共享协议是由莱西格(Lessig)等人设计的一种面向社会大众的版权使用许可模式,其允许作者按其意愿,灵活地授予他人复制、传播以及演绎的权利。在操作层面,知识共享协议通常包含多种可视化图标,版权人能够清晰地向外界表明授权条件,而使用者也能一目了然其使用作品的方式。例如,“BY”意味着可以在保留署名的条件下自由使用,“NC”则表示不得用于商业目的。因此,知识共享协议并非将作品置于公有领域,而是作者在版权法框架内,以放弃财产性报酬的方式对他人使用其作品进行附条件的事先授权;若使用者违反授权条件,版权人得立即终止授权并依据版权法主张救济。支持“创作共用”和“开放共享”的版权人普遍乐于参与人工智能的发展,并相信该技术将为文化艺术的繁荣带来广泛益处。然而,大模型尚无法理解和遵守版权人所要求的授权条件,这造成了知识共享社区与人工智能企业之间的矛盾。换言之,将知识共享协议推广至人机合作领域,有助于解决现代知识产权制度下的内容和信息垄断问题,但实施关键在于确保人工智能企业在此过程中尊重版权人的自治权和劳动尊严。
三、许可机制的模块化思维与应用
(一)许可机制的一种模块化思维方法
在调整因新技术带来的作品利用形式变化所引发的全新社会关系时,版权制度提供了两大类解决方案:一是在权利赋予之前,通过权利内容的明确界定、合理使用和法定许可等制度,塑造权利人的预期行为,进而调整其私人行为;二是在权利争议发生后,调整和规范权利行使的方式。在人工智能训练领域,内容信息变得更重要、更有价值,而追踪其价值并确定其对于人工智能技术的重要性亦变得愈加复杂。因此,在制度设计上,既难以凭借对静态与动态效率关系的理论分析来预先确定排他权的范围,也无法对处于不同市场地位、面临不同交易障碍的权利人和使用者适用单一化特殊许可模式。实践是推动认识发展的不竭动力。人工智能训练的版权许可亟待能够应对复杂市场环境的精细化治理模式。从一定意义上说,模块化理论为此提供了一条路径。
模块化理论主张将复杂系统分解为独立但相互关联的模块,以提高系统的效率和灵活性,同时减少协调的复杂性。如果将其应用于人工智能训练的版权许可领域,则意味着:从微观来看,可将法定许可、FRAND许可声明、尽最大努力获取授权机制、知识共享协议这四种特殊许可模式,视为相互独立的“模块”,每个模块针对不同的市场失灵问题,适用于不同的使用场景和条件;从宏观来看,如将这些“模块”有机结合起来,则可形成一个灵活且适应性强的授权许可框架。这种模块化的治理模式不仅能够应对人工智能训练许可问题的复杂性,减少因单个模块的调整或变化而给整个系统带来的冲击,还能够通过各模块的相互补充,形成一个协调运行的许可体系。
法定许可模块的功能在于解决高交易成本或集体行动困难问题。通过法定许可和客观的定价机制,该模块可以确保在特定情境下,如权利人高度分散且权利人与使用者地位相对平等时,使用者能迅速实现特定群体获取智力成果的公共利益,从而避免接触成本过高和谈判拖延等市场低效问题。然而,当使用者具有明显优势地位时,分散的权利人会因使用者提供的好处而愿意主动降低缔约成本,所以应当适用尽最大努力获取授权机制模块,通过督促使用者建立公平合理的利益分享机制,保障权利人自主权,并确保整个授权流程的实施成本不会超过其所带来的公共利益。相比之下,FRAND许可声明模块不关注权利分散对交易成本的影响,而是适用于那些持有关键技术或资源而能够控制市场准入的权利人,目的在于解决“敲竹杠”行为所造成的权利劫持与排除竞争的问题。由于控制市场准入标准或基础设施的权利人明确且易于找到,FRAND许可声明机制无需依赖第三方机构或复杂的技术系统来解决权利人与使用者之间的信息不对称问题。虽然许可费用的谈判可能增加授权成本、降低技术传播效率,但仅对权利人的议价行为进行规范,不会对其技术投资和创新积极性造成过度打击;从另一角度看,这一机制能够确保第三方进入市场的公平性。知识共享许可协议模块旨在为版权人提供自愿分享其作品的选择,从而避免信息资源过度私有化导致的资源利用不足问题。然而,知识共享模块的实施条件较高,使用者须遵照版权人的事先授权条件使用作品。因此,该模块的适用依托于大型的互信社区。在这个社区,版权人和使用者都应对协议内容有充分的理解,并自愿参与。这一模块不仅有助于增强知识共享的效果,还可以减少潜在的版权侵权纠纷。
综上所述,四个模块虽然各自独立运作,但都没有脱离版权制度赖以运行的市场环境,而且各有所长,通过排除影响创新和竞争的法律、市场和技术障碍,积极应对和解决自由市场机制中出现的市场失灵问题。因此可以得出结论,将其组合并应用于人工智能训练领域,形成一套整体协调统一但内部相互区隔的模块化授权许可机制,能够更加公平、合理地处理人工智能产业与版权人之间的利益分配问题。这种模块化的许可机制通过承认版权人的排他权,有效维护了作者的尊严和自主权,并激励内容信息的创造与传播;同时,它又充分考虑到市场环境的特殊性,提供了多种降低交易成本、避免潜在寻租行为的方案,促使版权人与人工智能企业之间形成正和博弈。接下来的关键步骤则是将这一模块化许可机制转化为明确且具有操作性的具体规则。
(二)人工智能训练的模块化许可机制
基于我国人工智能企业与创意产业的现状和需求,可以通过建立模块化许可机制解决人工智能训练的版权难题,即通过将法定许可、FRAND许可声明、尽最大努力获取授权机制以及知识共享协议这四种模块组合起来,构建一个灵活且适应性强的授权许可框架。该框架通过保障版权人的财产权,能激活和促进相关许可市场的建立和运行,并有针对性地解决各类市场失灵问题,提高版权人与使用者之间的协作效率,平衡各方利益诉求。
详言之,对于具有优势地位的大型人工智能企业,应当适用尽最大努力获取授权机制模块,以督促其建立有效的版权授权许可机制,主动与版权人分享其利用版权作品进行大模型训练所带来的收益。具体义务包括:(1)在训练前主动寻求版权人的授权,确保作品使用的合法性;(2)披露用于训练大模型的版权数据信息,提升透明度;(3)公开版权使用费率的计算标准,确保费用公正合理;(4)建立版权管理机制,方便版权人与人工智能企业进行联系。要求大型人工智能企业履行这些义务,尤其是义务(1),能够有效避免其单方面利用市场优势拒绝个体创作者的利益诉求,保障个体创作者能够平等参与到训练语料市场的财富分配中,防止其利益被边缘化。诚然,其在实施过程中可能会引发人们对交易成本和管理复杂性的担忧,但一方面,大型人工智能企业在资金和技术上具有显著优势,有能力吸引个体创作者主动寻求合作,促成双赢局面;另一方面,当授权成本不合比例时,企业履行义务(2)(3)(4)可以作为其尽最大努力获取授权的证据,从而在特定情况下获得版权侵权的豁免,减少法律风险。由于大型人工智能企业往往与超大型内容平台存在关联关系,前者可以沿用后者已建立的“版权管理系统”。该系统可以将训练语料库中的内容与版权人主动提供的版权内容进行比对,发现匹配内容后通知权利人,权利人可以选择相应的应对措施,如删除内容、获得收入分成等。
中小型人工智能企业面临着被大型内容平台拒绝许可、缔约成本过高的双重困境,因而有必要引入两种许可模块。为防止超大型内容平台利用杠杆优势锁定新技术,可以要求其采用FRAND许可声明机制模块,即在超大型内容平台授权关联公司使用内容进行大模型训练时,也必须作出将以FRAND方式向其他人工智能企业进行许可的声明,由此担负诚信谈判、发出许可要约的义务。在此机制下,平台在对人工智能企业提起侵权诉讼或寻求禁令救济之前,必须先履行诚信谈判的义务,包括向人工智能企业提供明确的版权内容清单,以及发出包含合理许可费用和具体条件的许可合同要约。此外,FRAND模式可以为各种类型的训练许可提供以自由谈判为基础的定价框架,这能够为法定许可制度中的第三方机构在确定合理使用费率时提供参考。
面对高度分散的个体版权人,法定许可模块固然可以保障企业获得充足的训练语料,如上文所述,该制度在我国尚存在执行成本过高、效果不理想等问题。在我国数字内容版权市场格局下,可以考虑发挥互联网平台作为中介组织的许可效率优势。值得进一步探讨的是,内容平台作为版权继受者,其与作者签订的人工智能训练许可(AI投喂)条款以及转授权的合法性问题。实践中,已有作者质疑该条款的合法性,并通过“停更”(停止更新作品)来抵制平台未经许可将其作品用于人工智能训练。这种集体抵制行为看似是“卢德运动”的现代重演,表面上反映了作者对技术进步尤其是机器取代人类工作的担忧;而深入分析后不难发现,作者不满的是平台在未告知的情况下,将其作品用于大模型训练,且未赋予他们选择权,也没有提供合理报酬。这种不透明操作不仅漠视了创作者对作品使用的自主权,还挑战了其劳动价值和尊严。质言之,在人工智能快速发展的背景下,作者对主体性回归有着强烈诉求。美国作家协会(The Authors Guild)在《敬告人工智能企业书》中开宗明义:“人工智能企业在未给予我们选择、署名或补偿的情况下,将我们的作品用于人工智能训练是不公正的。”可见,作者并非反对技术进步,而是希望企业尊重其劳动尊严并保障其劳动收入。
因此,尽管可以依据《著作权法》和民法中的相关规定,否认上述格式合同中人工智能训练许可及其转授权的效力,但简单禁止人工智能训练并非长远的解决之道;更为有效的方案是平台作为版权管理的中介,建立标准化的授权合同和收费标准,使授权流程愈加简化和透明,同时允许创作者自主选择是否加入平台提供的统一分配机制。这一做法并没有显著增加大型内容平台的负担,原因在于大部分大型平台已建立了成熟的版权内容管理系统。为保障和提高个体版权人选择的自主性,欧盟《一般数据保护条例》(GDPR)第20条规定的“数据可携带权”提供了一条极具参考价值的进路。数据可携带权允许数据主体将其个人数据从一个数据控制者转移到另一个数据控制者,并要求原来的数据控制者协助数据转移。这不仅增强了人们对其个人信息的掌控权,还向处理个人信息的企业施以压力,促使其为获得和保留个人信息提供更为优厚的条件。同理,针对人工智能训练中的版权许可,亦可考虑赋予创作者“训练数据可携带权”。这意味着,创作者有权拒绝原始平台对其作品进行训练授权,而允许另一个人工智能企业利用其作品进行大模型训练。在“训练数据可携带权”的加持下,创作者能够与各类人工智能企业展开直接的版权许可谈判,最大化个人利益。这不仅为创作者提供了更多选择,还避免了平台垄断作品所有使用形式。反过来,赋予创作者更多的谈判权和选择权,可以有效减少大规模抵制行为的发生,实现平台、创作者与人工智能企业之间的长期合作。
为促成知识共享协议模块的有效适用,应要求人工智能企业主动与知识共享社区建立互惠合作关系,特别是人工智能企业应积极参与研发机器可识别的标识技术,并协商制定适用于“人机共享”的社区自律规则,包括对商业使用、数据挖掘等方面的限制,以保护版权人的权益,同时确保共享内容可以被合法、公平地使用。此外,我国《著作权法》还可以借鉴欧盟的相关规定,为非营利性科研机构设立专门的合理使用条款,促进以科研为目的的人工智能发展。法律还应通过赋予相关机构诉权等手段将该合理使用抗辩“权利化”,防止大型内容平台通过技术措施限制科研机构的数据挖掘。
结 语
人工智能的颠覆性影响在于,人类不再是学习知识、使用知识和创造知识的唯一主体。然而,人工智能训练作为人工智能产业发展过程中的一个阶段,仍极其依赖于人的智力劳动。训练数据的质量和人的反馈水平,决定着人工智能的市场竞争力和发展前景。在这一背景下,人工智能给现行版权制度带来的冲击虽富于挑战性,但并不具有颠覆性。版权法的主要制度仍能被用来继续处理人工智能的版权问题,即通过创作者、使用者和社会大众的权利义务配置,来调整因新技术带来的作品利用形式变化所引发的新的社会关系。
这也并不意味着在人工智能快速发展的背景下,版权制度无需进行调整和创新。在人工智能训练过程中,拥有大量内容数据的企业可以凭借杠杆优势限制中小型人工智能企业进入行业,而大型人工智能企业与大型内容平台的“强强联合”,可能进一步加剧创意产业内部的收入不平等。个体创作者,尤其是年轻作者将难以维持生计,亦无法公平地参与到人工智能产业发展所带来的收益分配中以补贴创作。由知识产权四种特殊许可类型所构成的模块化许可机制,在捍卫创作者主体性的同时,能够更为精细、灵活地应对权利人和使用者所面临的不同难题。可以说,这种模块化许可机制不仅为人工智能训练中的版权问题提供了有效的解决路径,还通过减少协调成本,为版权制度应对日趋复杂的内容商业化难题提供了分析框架。未来的知识产权制度应成为协调技术创新、市场竞争与社会公共利益的关键制度。在技术迅速变化的时代,法律制度的灵活性与前瞻性将直接决定着其对技术进步和经济繁荣的支持能力。至于人工智能生成的内容是否会取代人类创作,或者在多大程度上损害创作者的生计,仍是未知的。唯有尊重作者的主体地位及其自主权利,才能形成自由竞争的市场环境,推动人工智能产业向善发展。
相关链接
2024年第3期|刘禹:机器利用数据行为构成著作权合理使用的经济分析
来源:《知识产权》2024年11期
责任编辑:崔倩
编辑:梁艳超
审读:蔡莹
咨询邮箱:
zscqip@163.com
投稿网站:
https://zscq.cbpt.cnki.net/EditorHN/index.aspx?t=1