DeepSeek模型蒸馏的著作权法正当性重勘
林秀芹:法学博士,厦门大学法学院、知识产权研究院教授
内容提要
针对AI模型DeepSeek-R1蒸馏引发的著作权纠纷展开法理分析。研究基于蒸馏技术特征与法律要件双重维度,解析知识蒸馏的技术本质——通过模型间参数迁移实现知识迁移的学习方法,其AI创新型训练的本质与技术中立性可以否定著作权侵权的指控。依据《著作权法》及相关原理,论证模型参数作为功能性技术方案不属于著作权保护范畴。通过中、美、欧、日等立法和司法实践中关于机器学习数据合理使用的“文本与数据挖掘例外条款”,揭示当前法律在技术中立原则与权利人利益保护间的制度张力。根据“三步检验法”和“转换性使用”等分析框架研究表明,DeepSeek-R1的蒸馏不构成侵犯著作权,此外,AI模型的蒸馏行为定性应当促进“技术创新—权利保护—公共领域”的动态平衡,为此,应当肯定蒸馏行为的正当性。
关 键 词
模型蒸馏 著作权侵权 合理使用
引 言
深度求索(杭州)人工智能基础技术研究有限公司(以下简称DeepSeek公司)开发的人工智能(以下简称AI)模型DeepSeek-R1于2025年1月横空出世、惊艳世界。该模型因其开源策略、高效的成本结构以及卓越的性能获得国内外广泛关注。然而,DeepSeek模型的崛起不仅带来了技术突破,也引发了围绕技术创新、知识产权保护的法律争议。其中,OpenAI公司指控DeepSeek公司在未经授权的情况下,违规使用其模型进行知识蒸馏,涉嫌侵犯著作权。特朗普政府的AI顾问David Sacks接受福克斯新闻台采访时说:“已经有大量证据证明,DeepSeek‘不恰当’地从OpenAI的模型中‘蒸馏’了OpenAI的知识。”什么是知识蒸馏?DeepSeek公司的模型训练是否侵犯了OpenAI公司的著作权?这些问题既影响DeepSeek模型的应用和普及,亦关涉AI产业的创新和健康发展。本文基于著作权法律制度和法理基础分析针对DeepSeek公司的著作权侵权指控和质疑,澄清对DeepSeek模型的误解和著作权侵权问题的误判。
鉴于知识产权侵权判断实行“客观主义”,主要考察和评价行为人客观行为,因此,要评判DeepSeek的蒸馏是否构成知识产权侵权,需要深入剖析和全面把握蒸馏行为的本质和意义。为此,不仅要从蒸馏行为的过程和细节去把握,而且要通过比较模型蒸馏与传统大模型的训练进行剖析。毕竟,知识产权保护的实质在于促进创新,并在保护创新与竞争之间构建一种平衡。
一、DeepSeek模型蒸馏的解读误区
知识蒸馏(knowledge distillation)是由“AI之父”、诺贝尔奖得主Hinton教授等人在2015年提出的一个概念,指一种模型压缩方法,通过将高复杂度的大模型(通常称为“教师模型”)知识迁移至更小、更高效的轻量化模型(通常称为“学生模型”),在降低计算需求的同时保持较高的推理能力。AI模型蒸馏是一个不断发展的领域,随着研究的深入,可能会出现新的蒸馏技术和应用场景。探讨其在知识产权法框架下的行为属性具有重要现实意义。但是,最近围绕DeepSeek蒸馏的讨论常陷入两个误区,即过于简单化和片面化,以致概念混淆不清,难以正确判断蒸馏行为的性质。
首先,过于简单化。Hinton教授等人在2015年提出知识蒸馏这一概念时,使用了“教师模型”和“学生模型”的比喻。自此,这种比喻法在全球开始流行,许多学者借助“教师模型”(通常是较大模型)与“学生模型”(通常是较小模型)的比喻来描述蒸馏的现象和行为。使用比喻法的益处在于比较直观,没有技术门槛,能够帮助AI行外人快捷地对一项新问世且神秘的AI模型蒸馏有一个大致、朴素、直观的想象和解释。但是,这种拟人化隐喻易导致概念混淆。在严格的学术层面,这种比喻性解释并未全面揭示蒸馏行为的本质,易造成对蒸馏行为的误读、误解和误判。实质上,在AI模型蒸馏过程中,“学生模型”并不完全像学生那样学习。依著作权视野观之,它不是复制“教师模型”的表达,而是通过特定的技术方法从“教师模型”中提取知识,所以,需要更准确的术语表达。
为表达方便,本文建议采用“源模型”(source model, 以下简称S模型)和“结果模型”(distilled model, 以下简称D模型)这一对概念来表达二者的关系,前者指被蒸馏的模型(如ChatGPT),后者指代蒸馏产生的模型(如DeepSeek)。这两个表述形成“被蒸馏源-蒸馏结果”的对应关系,具有以下优势:一是概念准确性,尊重蒸馏一词的原意,“结果模型”一词直接指向蒸馏过程的技术本质,符合化学工程中“蒸馏产物”的专业表述逻辑,避免了拟人化隐喻带来的概念混淆;二是结构对称性,“源模型”强调被蒸馏模型的知识来源地位,“结果模型”突出知识接收方的生成结果特性,形成完整的技术闭环表述;三是动态过程映射,该术语系统清晰呈现知识流动路径,前者指代知识源头(knowledge source),后者表征知识转移后的具象化成果(knowledge instantiation)。
其次,过于片面化。许多论者只强调DeepSeek模型蒸馏的部分,不提DeepSeek模型创新的部分,以偏概全,令人产生DeepSeek模型完全从ChatGPT模型蒸馏出来的印象。据业内人士分析,DeepSeek不可能完全依靠蒸馏他人的数据,大量基础知识和基础语料需要自己去收集和整理,数据蒸馏会发生在专业领域、数据收集比较费时费力的部分。
以上两种误区导致不能全面、客观地评价DeepSeek模型的价值和意义,并引发DeepSeek模型是否侵权、抄袭的争论。
二、蒸馏行为的本质解析
知识蒸馏,又被称为数据蒸馏或模型蒸馏,泛指在S模型基础上开发新模型的过程和方法,被广泛用于AI的训练和开发。为了准确理解数据蒸馏的含义及其在知识产权法上的意义,剖析模型蒸馏行为的本质,有必要将其与传统的模型训练行为相比。因而,需要解析AI模型训练的步骤和核心要素。
(一)传统大模型训练的主要步骤
AI模型训练大多基于人脑神经网络学习和工作的原理展开。通俗而言,训练AI模型的过程犹如教一个孩子,涵盖从不会说话到会说话、写文章,再到能担任医生、律师、会计师等专家的整个过程。大体上,传统大模型训练通常分为五个步骤。
1. 数据准备
数据准备通常包括:第一,数据收集。从互联网、书籍、专业语料库等渠道获取海量文本数据(通常需要TB级)。第二,数据清洗。过滤噪音(如重复文本、低质量内容、垃圾信息)、去重、标准化文本格式。第三,预处理。分词(tokenization),即将文本转换为AI模型可处理的词元(如使用BPE、WordPiece等算法)。第四,构建训练样本。例如掩码语言建模(MLM)任务或自回归生成任务。第五,数据分割。分为训练集和测试集。利用训练集建立预测模型,然后将这种训练好的模型应用于测试集(作为新的、未见过的数据)进行预测。根据模型在测试集上的表现来选择最佳模型,为了获得最佳模型,还可以进行超参数优化。这个过程犹如在信息的海洋中,全面收集信息,然后去芜存菁,去掉低质内容和错别字、垃圾信息,然后整理成干净的教材。
数据的质量对生成模型的质量影响巨大。业内人士分析,数据预处理经常占到数据科学项目所花费时间的80%,而实际的模型建立阶段和后续的模型分析仅占到剩余的20%。
2. 模型架构设计和选择
模型架构和设计通常包括:第一,选择基础模型架构,当今大多数模型的基础是谷歌公司2017年开源的Transformer模型(如GPT使用Decoder-only,BERT使用Encoder-only);第二,参数配置,即设定模型的超参数,如学习率、批次大小、层数(如12-96层)、注意力头数(如12-128头)、隐藏层维度(如1024-12288)、词表大小等;第三,初始化策略,采用预训练权重或特定初始化方法(如Xavier、He初始化)。这一步骤犹如将清洗标注后的语料按照一定的规则整理成一个干净整洁、安排合理的“教材图书馆”。
3. 模型训练过程
模型训练过程通常包括:使用先进方法(如常用的反向传播和梯度下降算法)训练模型,使其在训练数据上表现良好。由于大模型需要大量计算资源,通常使用多台计算机或图形处理器(以下简称GPU)进行分布式训练。核心要素通常包括:第一,损失函数,根据任务选择(如交叉熵损失、对比学习损失);第二,优化器,使用自适应优化器(如AdamW),结合梯度裁剪防止梯度爆炸;第三,学习率调度,包括预热(warmup)、余弦衰减等策略。
这个过程犹如让孩子进入图书馆学习,从完全没有理解力到慢慢学会“理解”并合理表达,经过成千上万次迭代,孩子的语言能力会越来越接近图书馆中为其预先准备的教材。此时训练得出的模型一般称为“基础模型”(base model)或“未审查模型”(uncensored model)。这时的模型才是一个完全体,具备充分的知识量,像一个真实的人,但可能会生成不适当的内容。模型的主要能力是在这个阶段决定的。
4. 模型评估与调优
评估模型指使用验证数据集评估模型的性能,如准确率、损失等指标。调优模型指根据评估结果调整模型的参数或架构,提升模型性能,优化具体任务表现。这步犹如就职前的职业培训,通常学习的孩子已经拥有医学或法律知识,但要担当医生或律师,需要专项训练医生或律师所需的各种知识,如职业伦理。价值观、偏见方面的内容主要是这个阶段灌输的。
这一阶段的工作不影响基础模型的能力,一个基础模型可以调出成千上万个不同的专业化模型(如医生模型、律师模型、会计师模型等)。这部分的成本相对不高,许多中小企业都是用好的开源大模型的“基础模型”去微调个性化的版本。微调后的模型还可以再微调。
5. 部署推理与监控
模型部署指将训练好的模型部署到生产环境中,供用户使用。犹如孩子已经完成职业培训,可以上岗工作,开始布置安排到合适的岗位。部署所需要的算力远低于模型训练。推理优化指使用TensorRT、ONNX等框架加速,部署到云服务或边缘设备。
监控模型指持续监控模型的运行情况(包括模型性能、公平性、安全性,如防止生成有害内容),及时发现并解决问题。
模型训练中的难点和重点在于两个:一是上述第三步的“模型训练”,它是从非常大的、高度冗余的数据集中提取知识,犹如帮助一个不识字的孩子建立合理的学习方法,从不会说话到会使用文字、“理解”人类的知识并合理表达,建立学习方法、学习框架。二是算法。同一模型框架,具体细节结构有很大区别和创新空间,这时,算法对模型训练的质量起关键作用。各企业近年在Transformer模型基础上,想方设法创新细节,创新算法,最后形成不同的表现和结果。就如不同的中学学校,教学理念和方法、策略有很大不同,会产生不同的教学效果。通过算法的优化可以大幅度减少模型参数,从而提高训练效率和节省成本。
(二)模型蒸馏的过程解析
蒸馏技术的初衷在于显著减少模型训练的复杂度和计算成本,同时尽可能保留S模型的性能,其目的是将S模型已经获得的知识通过技术手段迁移到D模型。知识蒸馏系统通常由三部分组成,分别是知识、蒸馏算法、师生架构(teacher-student architecture)。这里的“知识”指的是从S模型中提取的有价值的信息,可以是输出的logits(未归一化概率)、中间层的特征表示或者模型参数等。在抽象的意义上,模型的“知识”就是模型输入向量与输出向量的映射关系。蒸馏算法是将S模型的知识迁移到D模型的具体方法和技术。师生架构则是指S模型和D模型的设计和配置方式,包括它们之间的交互模式和训练过程。通过这三部分的协同工作,知识蒸馏系统能够实现从大模型向小模型的高效知识传递。
AI模型蒸馏大致有五个步骤。
第一,选择S模型。不论采用何种蒸馏技术,蒸馏方需要自己准备或选择S模型。以DeepSeek为例,它以自研的大型模型(如R1-70B)或开源模型(如Qwen-72B、Llama3-70B等)作为S模型,通过海量数据预训练获得复杂的推理能力和知识表征能力。例如,DeepSeek-R1模型通过强化学习(RL)优化决策路径,生成合成推理数据作为训练基础。
第二,准备高质量的蒸馏数据集。这是至关重要的一步,通常会选择开源的数据集(如Numina数学题集、APPS编程数据集、TACO编程数据集)并进行清洗、标注(如标注Numina数学题的难度),获得高质量数据集。使用与S模型相同的以及另外合成的数据集来训练D模型。
第三,训练D模型,这是蒸馏的关键阶段。蒸馏过程中需要进行三个方面的工作:一是设计和优化系统架构,使之轻量化。D模型不是抄袭S模型的架构,而是在S模型架构基础上优化,如“剪枝”掉一些冗余的隐藏层、参数,使架构更加轻便,节省计算资源。二是蒸馏方要构建清晰的知识结构,如将所有知识分为20类,用10,000个问题来覆盖,可能得到90%以上的准确率,使D模型的能力接近S模型。三是学习过程。D模型以S模型的输入结果为目标,然后通过微调使自己不断接近S模型的均值。D模型建立自己的架构以后是空的,且S模型像个“黑盒”,只知道输入和输出,中间的系统架构、知识结构设计和学习过程均是未知的,需要蒸馏方自己设计。
蒸馏可以通过多种方式进行。一是基于响应的蒸馏(response-based),这种方法利用S模型对输入数据的预测结果来帮助D模型学习,从而提高其性能。此方法的最大优势在于直接利用S模型对样本的预测输出。二是基于特征的蒸馏(feature-based),由于数据通过多个层次的神经元进行传递和处理,每一层可以捕捉到数据中更加复杂和抽象的模式和结构。因此模型中间层的输出,也可以作为指导D模型学习的“知识”。上述两种方法都使用了S模型特定网络层中特征的输出。三是基于关系的蒸馏(relation-based),进一步探索各网络层输出之间的关系或样本之间的关系。
第四,评估、调整和优化。在验证集上评估D模型的性能,确保它达到了与S模型相似的准确度。调整D模型的参数和结构,以优化性能和效率。
第五,部署。将训练好的D模型部署到实际应用中。
综上,从行为模式看,蒸馏实质上是一种模型的训练。
(三)模型训练与蒸馏的比较与分析
首先,模型的蒸馏亦是模型的训练,其过程与传统大模型训练相似,都要经历从数据集准备、基础模型架构选择、模型训练、模型的评估与调优到模型部署等五个步骤。主要区别在于:一方面,大模型的训练需要花费大量的时间、人力和物力来收集、清洗及整理数据集。如前所述,这一步骤的投入常占数据科学项目80%时间,成本巨大。而蒸馏是在已经成功的S模型的基础上进行,虽然也要准备新的数据集,但花费的时间和财力相对大幅节省。从成本效益角度看,如果蒸馏的D模型可以部分地使用S模型的输出作为数据集,可以大幅减少数据收集、清洗和标注的成本。同时,由于“萃取”获得的数据集质量较高,也可降低后期AI模型训练的参数从而节约模型训练的芯片资源和时间。另一方面,大模型的训练面对海量数据且参数众多,需要投入大量的计算资源,探索和提取一定的特征或模式,且面临失败风险。而蒸馏是基于一定程度上成功的S模型进行的,是将S模型的“知识”迁移到D模型,所需时间、计算资源大幅节省。这两点差异是模型蒸馏降本增效的重要因素。通俗而言,模型的训练犹如让一个孩子在浩如烟海的知识海洋中慢慢“自学”,而蒸馏就像让一位学识渊博的教师将其多年积累的知识和思维链教给学生,教学相长,因此效率更高。此外,蒸馏后的模型由于其更轻量,在部署时可使用更少的资源达到更高的效能,大幅降低企业的模型部署和使用成本。
但是,如下面将阐述,DeepSeek模型大幅降本增效的主要原因还在于其算法和训练方法的创新。
其次,AI模型蒸馏具有“反向工程”的特点,是一个“从1到n”的探索过程。反向工程是指通过合法手段获取他人产品后,以逆向研究的方式解析其技术秘密的过程。反向工程合法性的前提是产品或技术必须通过合法途径取得(如公开市场购买、合法授权等)。在知识蒸馏中,无论是基于响应的蒸馏还是基于特征的蒸馏或基于关系的蒸馏,目的都是将“知识”(有用的信息)从S模型迁移到D模型,“知识”可能是概率情况、中间层的特征表示或者模型参数。这些“知识”可能属于商业秘密(假设持有人采取了适当的保密措施),也可能是S模型的开发者未曾发现的。若蒸馏的“知识”属于前者,依据现行各国的商业秘密保护制度,“反向工程”是合法的,蒸馏不会构成侵犯商业秘密。若“知识”属于后者,则蒸馏者获得的“新”的“知识”,是一种创新,有利于增进社会福利。
可以说,蒸馏是站在巨人的肩膀上推陈出新,进一步挖掘和吸取现有科学研究成果的养分,萃取其精华,并作为下一轮蒸馏的基础模型,为后续的模型训练提供新的S模型选择。一些模型蒸馏方法犹如“竞技比赛”,将S模型作为一种理想目标,然后,想方设法通过更加巧妙(低成本、高能效)的方式使D模型达到类似的效果。在这个层面上,蒸馏是一种创新的技术手段,其本身亦蕴含着创新的空间。相较而言,传统的模型训练没有前期的S模型作为基础,是一个“从0到1”的探索过程,通常难度更高、风险更大。
考察DeepSeek-R1模型,其蒸馏是基于千问(Qwen)和Llama的多个开源模型,并蒸馏自己的早期模型实现从DeepSeek-V3到DeepSeek-R1-0再到DeepSeek-R1的迭代。DeepSeek-R1的技术报告指出:“为了使更高效的小型模型具备类似DeepSeek-R1的推理能力,研究团队直接使用精心挑选的80万个样本对Qwen和Llama进行微调,研究结果表明,这种简单的蒸馏方法显著增强了小型模型的推理能力。作者使用的基础模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。”
三、著作权法保护客体视阈下DeepSeek模型的蒸馏与创新
(一)蒸馏属于“思想”的范畴
著作权法的宗旨在于保护人类的智力劳动成果以激励创新,但并非所有的人类智力成果均受到著作权法的保护。著作权法只保护表达,不保护思想。这是理论界和《与贸易有关的知识产权协定》(以下简称《TRIPS协定》)等国际公约明确确认的基本准则。根据《TRIPS协定》第9条第2款,著作权保护应延及表达,而不延及思想、工艺、操作方法或教学概念之类。《美国版权法》第102条第2款更明确规定,版权保护不延及“思想观念、程序、工艺、系统、操作方法、概念、原则和发现”。这里的“思想观念、程序、工艺、系统、操作方法、概念、原则和发现”均属于广义的“思想”(idea)的范畴。排除对“思想”的版权保护旨在防止思想垄断,保障知识传承和表达自由等重要人文价值。
在著作权法语境下,知识蒸馏应当属于“思想”的范畴。如前所述,蒸馏总体上是一种将S模型的知识迁移到D模型的新的训练理念和方法。如通过蒸馏提高模型解答数学题的准确率、提高金融预测的准确率。模仿S模型的“知识”和“能力”。在技术手段上,无论是基于响应的蒸馏、基于特征的蒸馏还是基于关系的蒸馏,都是为了节省计算资源、提高模型性能的“程序”和“操作方法”。通常,蒸馏使用与S模型相同的训练数据集,通过结合S模型的输出和训练数据的标签,引入额外的目标函数来指导D模型的训练,但不会复制S模型的代码和表达。
(二)DeepSeek模型的创新
与许多人的误解相反,DeepSeek模型不是直接蒸馏出来的,不是简单地“复制、粘贴、运行”,而是在大量创新基础上实现的高性能模型。有业内人士梳理了DeepSeek-V3模型的技术亮点,包括:(1)使用极大规模混合专家(Mixture-of-Experts, 以下简称MoE)模型,V3是一款强大的MoE语言模型,总参数量为6710亿,每个token激活370亿参数。在大幅降低计算成本的同时提高推理效率。DeepSeek使用的MoE模型被业界称为一大创新。(2)使用多头潜在注意力(以下简称MLA)。DeepSeek对MLA机制进一步创新,通过优化多头机制、改进潜在注意力、扩展应用场景、优化训练与推理过程以及增强鲁棒性和泛化能力,显著提升了模型的性能和应用范围。这些创新使得DeepSeek在复杂的深度学习任务中表现出色。例如,DeepSeek引入动态头数调整优化多头机制,根据任务复杂度自动优化头数,提升模型灵活性和效率;引入头间交互机制,即通过增强不同注意力头之间的交互,DeepSeek能够更好地整合信息,捕捉更复杂的特征和关系;引入多层次潜在空间,即在潜在空间中引入了多层次结构,允许模型在不同抽象层次上捕捉特征,提升表示能力。(3)使用多token预测(以下简称MTP)训练目标。通过同时预测多个未来token,显著提升了模型的长程依赖建模能力、生成质量、训练效率和泛化能力。尽管MTP增加了训练复杂度,但其带来的性能提升使得DeepSeek在多种任务中表现更加出色。(4)DeepSeek大胆通过纯强化学习(RL)动态调整D模型的参数,而非传统的监督微调(SFT)和奖励机制,进一步提升推理能力。业界人士认为,DeepSeek成功实现降本增效的一个关键点在于它创新性地进行了纯强化学习训练。DeepSeek-R1模型使用数千个冷启动数据点对基础模型(DeepSeek-V3-Base)进行微调,形成思维链,以奠定坚实的基础。与大规模监督学习通常所需的数百万甚至数十亿个标记数据点相比,数千个冷启动数据点只是很小的一部分。Anita Kirkovska认为:“对于AI大模型领域的强化学习RL来说,这似乎是一次大胆的创新。纯强化学习在前期速度较慢(反复试验需要时间)——但它消除了昂贵且耗时的标记瓶颈。从长远来看,它将更快、可扩展,并且更有效地构建推理模型。主要是因为它们可以自行学习。”Anita认为DeepSeek成功进行了纯强化学习训练——且与OpenAI-o1的表现相当,称其为“巨大成就”似乎有些轻描淡写——这是第一次有人成功做到这一点。(5)采用分组相对策略优化(GRPO),从组分数中估计基线,提升模型性能。(6)使用无辅助损失的负载均衡策略。(7)使用FP8混合精度加速训练,支持FP8计算和存储,加速训练并减少GPU内存使用,同时保留高精度操作(如嵌入模块、MoE门控模块)以确保数值稳定性。(8)使用DualPipe算法提升训练效率。(9)进行了极致的内存优化。如将指数加权平均(EMA)参数存储在CPU内存中,异步更新以减少GPU内存压力。MTP模块与主模型共享嵌入层和输出头,进一步提高内存效率。(10)高质量多样化数据。在14.8万亿token上进行预训练,涵盖多语言、数学、编程等领域。增强数学和编程样本的比例,扩展多语言覆盖范围(不仅限于英文和中文)。模型通过从上次成功的RL运行中选择最佳示例来创建自己的标记数据(合成数据)。此外,DeepSeek将新的合成数据与DeepSeek-V3-Base中的监督数据合并,这些数据涉及写作、事实问答和自我认知等领域。此步骤确保模型可以从高质量输出和各种特定领域知识中学习。(11)文档打包与FIM策略。通过文档打包保持数据完整性,避免跨样本注意力掩码。(12)多语言分词器优化。(13)长上下文扩展技术。如通过两阶段训练,将上下文长度从4K扩展到128K,确保扩展稳定性。(14)监督微调。使用150万个指令微调实例,涵盖推理、数学、编程等多个领域。通过内部DeepSeek-R1模型生成推理数据,平衡准确性与格式清晰性。(15)知识蒸馏。从DeepSeek-R1系列模型中蒸馏推理能力,显著提升数学和编程任务表现。此外,DeepSeek引入高效的思维链(Chain-of-Thought, CoT),即经过强化学习后,DeepSeek-R1模型会逐渐展示出“顿悟”的能力,并能自我反思与验证。
如上所述,DeepSeek模型除了知识蒸馏外,运用了大量创新的训练方法和算法。上述每一个技术亮点均包含了DeepSeek公司在模型训练数据集选取、训练方法和算法方面的创新,创新涵盖DeepSeek公司V3、R1模型训练的全过程,包括基础模型的选择、预训练准备、高效训练方法(如纯强化学习)、后训练微调以及算法方面的全方位、全流程创新。创新的方向均体现了一种“降本增效”的价值观。如Anita认为,DeepSeek研发团队采用分组相对策略优化方法本身就是一项大胆的创新。这些大胆且充满智慧火花的创新才是DeepSeek模型低成本、高效能的底层支撑。这些创新使DeepSeek得以充分地运用芯片的算力资源。通过这些创新方法,DeepSeek取得了下列突出的效果:(1)训练稳定性极高,整个训练过程无不可恢复的损失峰值,未进行过回滚。训练成功率100%。(2)训练成本极低。完整训练仅需278.8万个H800 GPU小时,训练成本仅为557万美元,展现高效成本效益。
可见,蒸馏只是DeepSeek公司成功降本增效的一种手段。即便是蒸馏,DeepSeek公司也对蒸馏技术进行了创新和改进,且蒸馏的S模型多样化,包括其自己前期的模型。更重要的是,DeepSeek-R1模型的成功基于大量奇思妙想的思想创新、方法创新、流程创新。
(三)小结
从著作权法的视角看,DeepSeek模型训练中的许多创新属于“思想”的范畴,如纯强化学习方法、分组相对策略优化方法等。如果允许对这些训练方法获得著作权,意味着这些方法的首创者有权阻止竞争者使用实质性相似的训练方法,这会严重影响AI技术的发展。蒸馏作为业内普遍使用的一种高效的训练方法,应当归入“思想”的范畴。但是,DeepSeek的一些创新可以成为著作权保护的客体,如代码与训练文档。然而,由于DeepSeek公司实行全面开源,部分地放弃了著作权,使他人可以合法地复制、修改、分发代码和模型,为构建健康、活跃的开源生态作出中国贡献。另外,DeepSeek模型训练中的一些创新可以通过专利法保护。据Maxipat统计,DeepSeek公司通过关联企业,围绕大模型训练优化、网络通信、数据管理等领域申请了17项核心专利。如数据序列索引技术专利申请是关于将训练数据集拆分成固定大小数据序列,统一以“索引”方式混合、打乱、切分的技术。
四、合理使用框架下AI模型蒸馏的正当性分析
(一)事实问题:DeepSeek公司是否对OpenAI公司的模型实施了蒸馏?
从目前可公开检索到的资料来看,没有证据证明DeepSeek公司对OpenAI公司的模型实施了蒸馏,更未能证明DeepSeek模型复制、使用了OpenAI模型的独创性表达。所谓DeepSeek公司从OpenAI公司的模型中蒸馏属于无端揣测,以讹传讹。美国消费者新闻与商业频道(CNBC)资深科技记者Deirdre Bosa在电视访谈中指出:OpenAI公司指控DeepSeek公司利用了ChatGPT的输出,是“失败者的酸葡萄心态,极具讽刺”。因为OpenAI公司也利用了大量网络数据进行训练。例如,据OpenAI公司披露,其GPT-2自然语言处理(以下简称NLP)模型是在来自互联网的超过3480万份、总计40GB的文本训练出来的。DeepSeek是一个重大突破和创新,且通过开源促进竞争,开发出更高效、成本更低、更易获得的模型。EZ Encoder Academy博主认为,OpenAI公司的模型是闭源模型,许多内容如推理和原始思维链(Chain of Thought, CoT)并没有公开,DeepSeek公司如何去蒸馏呢?实际上,OpenAI公司出于防止“竞争性蒸馏”的考虑,刻意选择不公开完整推理逻辑。例如,OpenAI公司担心竞争对手通过蒸馏技术提取其模型的核心推理能力,对思维链的展示设限。有业内人士认为:DeepSeek团队绕过CUDA用更底层语言PTX去充分利用英伟达显卡的效能,这点的确比美国大企业的“烧钱堆显卡”有创新。
(二)蒸馏技术的普及性与价值正当性
知识蒸馏是AI领域很常见的提炼知识或提炼数据的技巧,旨在使小模型具备出色的推理能力,它不涉及软件、软件源代码层面的复制和使用,而主要涉及对S模型数据集和生产内容的使用和提炼。首先,蒸馏技术在AI产业普遍运用,技术本身具有合法性。例如,早年谷歌公司的BERT(Bidirectional Encoder Representations from Transformers, 基于Transformers的双向编码器表示技术)也被蒸馏过。2018年谷歌公司提出BERT后,其在处理文本翻译等方面的卓越功能备受关注。但是BERT的类神经网络参数量高达3.4亿个,过于庞大,所需的算力和存储巨大。于是,Victor Sanh等人于2019年在Hugging Face发表了关于蒸馏后的精简版BERT(称之为DistilBERT)的论文,称DistilBERT“更小、更快、更便宜且又轻量”。DistilBERT将BERT的规模缩小40%,其推理速度比BERT快60%,但主流NLP基准测试仍保留97%的BERT准确度。Databricks的首席执行官Ali Ghodsi指出,蒸馏已经非常常见,将来更为普遍,将加剧模型训练的竞争。
蒸馏实质上是站在巨人的肩膀上进行学习与改良,将既有大模型(S模型)的知识转移给D模型。蒸馏已是AI业界普遍使用、广泛认可的一种降本增效的训练手段,是AI模型快速迭代、性能提升的有效途径,可以说,蒸馏技术重新划定AI竞争的起跑线,开启了新的竞争格局,极大地促进了AI技术的发展和创新,从而增进消费者的福利。在法律未对其定性的情况下,其正当性受到产业惯例、对创新的积极贡献所支持。据DeepSeek-R1论文披露,DeepSeek-R1模型训练中蒸馏了千问(Qwen)、Llama的多个开源模型,获得的D模型能力与GPT-4o-0513和OpenAI-o1-mini等闭源模型相当。DeepSeek公司随即开源了自己蒸馏迭代后的新模型。可见,蒸馏犹如人类创新接力赛中的加速器,技术本身是中性的,其正向的社会效益巨大,应当肯定其正当性、合法性。
(三)蒸馏中复制S模型(以ChatGPT模型为例)训练数据和输出的合理使用框架分析
蒸馏涉及对S模型及其训练数据和输出的使用,为此,若S模型不是开源模型,这种复制和使用是构成侵权还是属于合理使用?假设DeepSeek公司存在对OpenAI公司模型的知识蒸馏,那么,要判断DeepSeek公司的“知识蒸馏”是否侵犯OpenAI公司的著作权,需要回答下列问题:第一,OpenAI公司对其训练数据和生成内容是否享有著作权?第二,蒸馏是否构成对OpenAI公司“表达”的复制?第三,蒸馏是否为一种转换性使用?
1. OpenAI公司对其训练数据集是否享有著作权?
OpenAI公司对其训练数据是否享有著作权备受争议。OpenAI公司至今没有披露其训练数据的来源。但从OpenAI公司在多国被起诉侵犯著作权的案件来看,OpenAI公司在训练中大量使用了受版权保护的材料,其合法性争议颇大。例如,第一,2023年12月27日,《纽约时报》起诉OpenAI公司和微软公司,指控两公司未经许可使用其数百万篇受版权保护的文章,帮助训练ChatGPT等聊天机器人,为读者提供信息并与其展开竞争。第二,加拿大媒体公司起诉OpenAI公司,指控OpenAI公司通过抓取大量加拿大媒体内容来开发其产品(如ChatGPT),且未获得许可或对内容版权人进行补偿,从而侵犯了版权。第三,The Intercept等三家媒体起诉OpenAI公司,指控OpenAI公司使用其记者的作品来训练ChatGPT,未获得许可并删除版权管理信息。2024年11月25日,美国纽约南区地方法院法官杰德·S·拉科夫(Jed S. Rakoff)在一份简短的命令中允许对OpenAI公司提起诉讼。第四,印度新闻机构ANI诉OpenAI公司,称OpenAI公司未经授权使用其“原创新闻内容”,侵犯了其知识产权。
在上述诉讼中,OpenAI公司的抗辩理由主要是美国版权法下的合理使用(fair use)原则。OpenAI公司承认,现代AI系统需要大量数据。对于某些任务,这些数据来自现有的可公开访问的数据“语料库”,其中包括受版权保护的作品。其表示:“基于公开可得的互联网材料来训练AI模型符合合理使用,且有长期且广泛被接受的先例作为支持。我们认为,这一原则对创作者来说是公平的、对创新者来说是必需的,同时对美国的竞争力也至关重要。”而在法院驳回动议的申请文件中,OpenAI公司明确表示:“长期以来,人们都认为对受版权保护的材料的‘非消费性使用’(例如训练大型语言模型)受合理使用保护。”许多学者从激励创新和技术中立的角度支持合理使用的主张。
对于OpenAI公司用于训练ChatGPT模型的数据集,即使对他人作品的合理使用成立,也不一定对其训练数据集享有版权。但OpenAI公司的一部分数据集是自己收集、标注、清理而形成的,对此部分,OpenAI公司是否享有版权,主要取决于该数据集是否符合作品(如汇编作品)的独创性条件,需要在个案中加以判断。若数据集存在版权,蒸馏中的复制行为是否合法,下文还将从合理使用的角度分析。
2. OpenAI对ChatGPT的生成内容是否享有著作权?
对于AI生成内容的著作权保护问题,当前各国的法律和实践存在差异。在美国,根据版权局的立场,版权保护的客体必须具备“人类创作”(human authorship)的属性。换言之,只有由自然人通过其独立的智力创作活动所形成的作品,才能依法获得版权保护。因此,由AI系统独立生成的内容,由于缺乏人类作者的直接创造性贡献,不能被认定为受版权法保护的作品。美国版权局在近年来数起案件(如太空歌剧院画案、扎利亚的黎明画案)中反复强调,著作权保护的核心要素在于人类的创造性表达(creative expression by a human author)。对于完全由AI系统自主生成,且未经过人类作者实质性编辑、选择或组织的内容,版权局一般不予登记,亦即该等内容不享有版权。在中国,立法对AI生成内容的著作权问题尚未有明确规定,学者观点分歧很大,但司法实践倾向于将带有人类较大劳动投入的AI生成物的著作权归属于开发者或使用者,而非AI本身。在2023年北京互联网法院作出的“AI文生图”著作权第一案判决中,法院强调自然人通过数百次的“提示”在AI生成作画过程中发挥了重要作用,该案所涉文生图可以获得著作权保护。OpenAI公司是美国公司,其AI模型ChatGPT的生成内容依美国法不享有版权保护。
此外,根据OpenAI公司用户协议(terms of use)条款,OpenAI公司并不主张对AI输出(output)的所有权或其他权利。用户协议明确要求,用户在使用OpenAI公司服务时,对其输入内容(input)应当享有合法的权利基础,并承担相应保证义务(warranty)。用户“保留”对输入内容的所有权。这表明,OpenAI公司并不因用户在其平台上输入内容而获得任何所有权或相关权利,用户是输入内容的唯一权利主体。因此,OpenAI公司无法就用户输入的内容主张任何权利,包括版权。对于用户通过OpenAI公司模型生成的输出内容,用户协议中的“权利转让条款”规定,OpenAI公司“将输出内容的所有权、所涉全部权利和利益均转让给用户”。这意味着OpenAI公司在法律上不再对该内容享有任何权利。可见,依上述协议,OpenAI公司对用户使用其服务的输入内容及输出内容均不享有权利。因此,即使其他公司使用蒸馏技术对OpenAI公司的生成内容进行“复制”,因OpenAI公司对被蒸馏的内容不具备权利基础,也无法主张相应权利。
在更细微的技术层面,蒸馏中的“输出”是指S模型的“软标签”。通常,D模型学习S模型的“输出”(包括软概率输出、注意力权重、中间层特征等)。S模型通过海量数据训练生成的预测概率分布(经过softmax处理后的输出),形成包含更多信息(例如类别间的相似性)的软标签。以图像分类为例:S模型对“猫”的预测概率,以硬标签表达为1, 0, 0(猫不是狗,概率为0;也不是车,概率为0);用软标签为0.9, 0.05, 0.05(猫、狗、汽车),软标签中的微小概率(0.05)表明“猫与狗”的相似性高于“猫与汽车”。D模型通过学习包含更多信息的软标签,提高学习效率。此外,通过引入温度参数(temperature scaling)进一步蒸馏,可以获得更细粒度的概率预测值,提供更多的信息。显然,软标签训练方法更加科学、高效。但是,S模型输出的软标签是训练得出的预测概率,不是思想的独创性表达,不构成版权作品,复制、学习这种软标签亦不存在侵权的问题。
3. 蒸馏中复制S模型的数据集是否属于合理使用?
如前第1节所述,蒸馏涉及对S模型训练数据集的复制和使用,从而引发侵犯版权与合理使用的论争。这是一个比较复杂的问题。下面从合理使用的法理基础、新近国际立法和实践趋势考察,阐述蒸馏中的上述复制和使用行为应属于合理使用范畴。
首先,蒸馏中复制S模型数据集符合合理使用的宗旨要义。合理使用制度允许他人未经权利人许可使用版权保护的作品而不构成侵权,是对版权的一种限制,因而,需要正当性的理由,对“限制”进行“限制”,旨在平衡技术创新与版权保护。根据《伯尔尼公约》《TRIPS协定》《世界知识产权组织版权条约》的规定,著作权的限制和例外须满足“三步检验法”标准,即要求合理使用须满足三个条件:(1)特殊情况下的使用;(2)不损害作品的正常使用;(3)没有不合理损害权利人的合法权益。“三步检验法”作为国际通则被各个国家和地区的著作权法所接受和遵循。鉴于欧洲大陆法系国家采用的“三步检验法”过于封闭和僵化,美国版权法采用更为灵活的合理使用模式。美国《版权法》第107条规定,合理使用由法院采用“四要素”法进行个案判断,“四要素”包括:(1)使用的目的和性质。其核心问题在于:使用是商业性质的,还是出于非营利、教育等目的?是否属于“转换性使用”(transformative use)?如为评论、批评、模仿、新闻报道、教学、学术研究等目的,更可能被认定为合理使用。非营利或教育用途通常更受支持,但商业用途不必然排除合理使用。(2)受版权保护作品的性质。其核心问题在于:被使用作品是事实性/信息性作品(如历史资料、新闻报道),还是高度创造性的作品(如小说、音乐、电影)?事实性作品更可能支持合理使用。(3)使用部分的数量和质量。其核心问题在于:使用的篇幅占原作品的比例多少?是否使用了原作的“核心”或“本质部分”?少量使用可能更合理,但即使篇幅小,若使用了核心内容(如歌曲的副歌部分),仍可能超出合理使用的范围。需权衡“数量”与“质量”(即对原作品价值的提取程度)。(4)使用对原作品潜在市场或价值的影响。其核心问题在于:使用行为是否会取代原作品的市场需求?是否损害版权人的经济利益?若使用导致原作品被实质性替代,如销量下降或衍生市场严重受损,则不利于合理使用的认定。“四要素”法具有较强的灵活性,在应对新作品传播技术和商业模式挑战时具有更大的适应性。使用的“目的、性质、市场影响”这三个要素常被用于AI产业训练使用版权保护作品的抗辩依据。
其次,在数字化时代,合理使用呈现扩张的国际趋势。面对数字技术的发展和AI时代的来临,许多国家通过立法或司法实践拓宽合理使用范围,为AI的训练和创新提供更宽松的制度环境。其中,欧盟于2019年4月通过《数字化单一市场版权指令》(Directive on Copyright in the Digital Single Market),以应对数字时代的挑战。其中,与AI训练相关的主要条款是第3条和第4条,创造性地规定了“文本与数据挖掘”(text and data mining, 以下简称TDM)的例外。其中,第3条规定的是“科学研究目的的文本与数据挖掘”,允许研究机构和文化遗产机构(如图书馆、博物馆)出于科学研究目的,对合法获取的作品进行文本与数据挖掘。但条件是:仅限于非商业性科学研究。机构须合法访问相关材料(如通过订阅或开放获取)。该条为科研中的AI训练提供了法律保障,允许为了科学研究收集、使用受版权保护的数据。但商业性AI训练(如企业开发AI模型)不在此条款覆盖范围内。该指令第4条规定了TDM例外,允许出于任何目的(包括商业目的)的文本与数据挖掘,但须满足以下条件:(1)合法获取相关材料(如通过购买或授权);(2)版权人未明确以“机器可读方式”保留其作品不被用于TDM。该条为企业开发AI模型提供了法律依据,允许使用受版权保护的数据进行训练。但版权人可以通过技术手段(如robots.txt或类似机制)选择退出,限制其作品被用于TDM。该条款常受诟病,主要在于:第一,版权人如何以“机器可读方式”保留权利尚不明确,可能导致实践中的不确定性;第二,严格的TDM限制可能阻碍AI技术的发展,特别是对中小企业而言。
近年来,日本也积极修订著作权法,以适应数字化和AI技术创新和发展需求。2018年日本著作权法的修订重点在于为AI和数据挖掘提供例外,新增了TDM例外规定,允许在特定条件下未经许可使用受版权保护的作品进行“数据分析”。在AI场景下,2018年日本《著作权法》修订后新设第47条之五对部分AI生成内容阶段的作品使用行为也进行了豁免,然而仅限于附随性质的轻度使用(如AI基于搜索结果总结时附带地包含了作品的一小部分)。适用条件包括:(1)使用目的必须是为了“信息分析”(如AI训练、市场研究等),而不是以欣赏作品中表达的思想和感情为目的;(2)使用的作品必须是合法获取的;(3)使用行为不得对原作品的正常利用造成不当损害。该修订为AI训练和数据挖掘提供了法律依据,有利于促进AI技术的发展。接着,为适应数字经济的快速发展,日本于2023年再次修订其《著作权法》的合理使用条款,继续优化著作权法,平衡版权保护与技术创新之间的关系。2023年关于合理使用条款的修订主要体现在四个方面:(1)进一步明确TDM的例外范围,允许更多场景下的数据使用。特别是为AI训练和大数据分析提供法律支持;(2)新增了对非商业性研究和商业性创新的区分,确保不同目的下的TDM行为都能在合理范围内进行;(3)优化图书馆和档案馆的数字化服务条款,允许其在合理范围内数字化和提供受版权保护的作品;(4)加强对个人使用的界定,明确个人非商业性使用的合法性。这一修订有利于AI技术的创新和应用。
2024年,德国法院在LAION数据集案中的判决体现了对AI训练使用版权作品更为宽容的态度。法院认定,非商业性AI训练数据使用作品符合TDM例外。在该案中,非营利组织LAION(Large-scale Artificial Intelligence Open Network)从互联网上自动下载了包括摄影师Robert Kneschke的版权作品在内的图像,用于创建LAION-5B数据集。该数据集包含58.5亿个图像文本对,用于训练生成式AI模型。Kneschke认为LAION未经许可复制其作品,侵犯了其版权,遂提起诉讼。LAION辩称其行为符合《著作权法》第44a条(临时复制)、第44b条(TDM)和第60d条(科学研究目的的TDM)的例外情形。但Kneschke认为,其图片网站的使用条款明确禁止自动化程序抓取内容,该网站声明构成有效的权利保留。对此,LAION认为该声明不具备机器可读性,因此无效。2024年9月27日,德国汉堡地区法院作出判决,驳回了Kneschke的诉讼请求,认定LAION的行为不构成版权侵权,主要理由如下:(1)根据德国《著作权法》第60d条,法院认为LAION的行为符合“科学研究目的的TDM”例外。LAION作为非营利组织,其数据集免费向公众开放,用于科学研究,且未追求商业利益。(2)广义解释“科学研究”,法院指出,科学研究不仅包括直接获取知识的过程,还包括为后续研究准备数据集的步骤。因此,LAION创建数据集的行为被视为科学研究的一部分。(3)关于网站声明的有效性,法院认为,图片网站的使用条款未采用机器可读格式(如robots.txt文件),因此不构成有效的权利保留。
再次,蒸馏中的复制和使用数据集的行为应归入合理使用范畴。依合理使用的“四要素”法考察,蒸馏中“复制”和使用数据集的行为应归入合理使用范畴。从使用“作品”的目的和性质看,蒸馏的核心在于知识的萃取,复制和使用S模型的数据集不是为了欣赏作品的表达,而是为了学习S模型的“知识”(如软概率输出、注意力权重、中间层特征等),是为了科学研究和开发性价比更高的AI模型。如果D模型实行开源,这种使用更具有非营利性和公益性特征。从受保护“作品”的性质来看,S模型的数据集巨量,来源复杂,其中含有大量来源于公开的事实性资料或“合理使用”的他人作品。从使用作品的数据和质量来看,蒸馏中会使用大量S模型的数据集,并提取S模型的核心“知识”,但需要考虑训练数据集中含有大量的公共领域信息。从使用对原“作品”潜在市场或价值的影响来看,S模型开发者收集、整理训练数据集可能投入大量资源,但实践中模型的开发者很少出售或许可其训练数据集,还有许多训练数据集或其组成部分是开源的。因此,D模型“复制”训练数据集的价值影响难以评估。综上,“四要素”分析中,第一个、第二个要素的评估倾向于支持合理使用,第三个要素倾向于不支持,第四个要素的分析偏中性。综合考虑蒸馏的共识基础、社会价值和在创新中的重要作用,将其归入合理使用具有社会伦理和价值基础。此外,这一判断还可以得到转换性使用原则支持。
五、蒸馏中复制S模型的转换性使用分析
蒸馏涉及对S模型(如OpenAI的ChatGPT)复制,若S模型作为一个整体构成版权作品,则受著作权法的保护。在蒸馏中D模型实质性复制S模型,则需要判断是侵权还是合理使用。转换性使用提供了一个重要的判断指南。
转换性使用是美国著作权法中“合理使用”原则的一个重要组成部分,通常用于判断某种使用是否足够改变原作品,从而不构成侵权。“转换性使用”是指对原作品进行的某种转化或改编,使其呈现出新的独创性特征,通常是通过新的表达、信息、意义或情感来呈现。转换性使用的核心要点是后续使用者对作品使用时进行了足够程度的改动,使得其创作目的和表达方式发生了根本变化。这一概念最早由美国联邦最高法院在1994年的Campbell v. Acuff-Rose Music, Inc.案件中确立。在该案中,法院认为,某些“恶搞”或“讽刺性改编”的作品具有“转换性”,属合理使用,因为它们并不是简单地复制原作品,而是以不同的方式重新表达了该作品。法院还进一步指出:新作品的转换性越强,合理使用的其他因素(如商业性)的重要性就越小。 在该案之后,转换性使用作为合理使用分析的一个重要标准逐渐得到了更广泛的应用和认可。依转换性使用原则,使用者对原作品的转化不仅仅是对形式的简单复制或变形,而是强调对作品的“重构性”创造——当使用者的目的或表达与原作品不同,且这种使用有创造性和变革性时,就可以认定为转换性使用。OpenAI公司认为,为了训练AI而使用版权作品具有“高度的转换性”(highly transformative)。
转换性使用旨在保护创作自由、促进创意表达,它允许后续创作者在已有作品的基础上进行创新,从而推动文化和艺术的发展。没有这一制度,许多创新型的作品可能会面临侵权困境。虽然转换性使用并没有固定的标准,但法院通过多个案例的判决,逐步明确了判断转换性使用时需要考虑的因素,包括使用的目的、是否以商业化为目的、作品的性质、使用程度等。
从蒸馏的总体目的和具体行为特征来看,蒸馏行为应当属于转换性使用的范畴。首先,从蒸馏的总体目的考察,蒸馏使用的目的是利用S模型的输出来指导D模型学习,使D模型不断更加接近S模型的性能,同时减少计算成本和存储需求,提高模型的性能和效率。可以说,蒸馏中对S模型的使用是为了提取“知识”,获取一些规律性特点,如软概率、中间层特征等。蒸馏过程中通常会导入与S模型训练数据不同的新的数据集,追求比源模型更加节省计算资源但性能相当的新模型,是为了技术功能性的改进,本质上是为了创新。而S模型通常是作为人类创作的辅助工具,供用户使用生成文章、图片等。蒸馏使用的目的具有“创造性”和“变革性”,与原作品不同。其次,从蒸馏中“复制”训练数据集的具体行为来看,蒸馏并非直接将S模型作为“原料”导入算法提取养分和“知识”,而是需要构建和设计D模型的架构、知识结构,然后引导其向S模型学习。因此,蒸馏不是简单地复制S模型,不是“临摹”,而是拜其为师,使D模型学习S模型的知识和能力。可见,蒸馏使用的目的与原模型的目的大相径庭,具有变革性和转换性。此外,从公共政策视角看,AI技术近年来取得突破性进展,正处于快速爆发并初步进入应用阶段,AI模型效能的每一个点滴进步均是人类科技发展的一大步,蒸馏当今已成为AI产业界的标配,是AI模型快速创新迭代的重要手段,将其纳入侵权的范畴不利于技术的创新和公共利益。为此,对蒸馏的定性应当遵守“技术创新—权利保护—公共领域”的动态平衡。
综上所述,蒸馏业已成为AI领域模型训练的常规方法和手段,是AI模型“在巨人肩膀上”创新迭代的重要路径。究其本质,“知识蒸馏”是一种AI模型的训练过程,它体现了人类知识建构的累积性特征,是人类科技进步的阶梯。从现行著作权制度和原理视角考察,AI模型的蒸馏不构成对源模型的著作权侵犯,即使蒸馏中复制或使用了在先的版权保护资料,亦属于合理使用的范围。就DeepSeek侵犯OpenAI著作权的指控而言,既没有事实的依据,亦缺乏法律或法理的支持。
相关链接
2025年第3期|张韬略:使用开源代码训练大模型的著作权法评价——以全球首例机器学习诉讼为研究样本
来源:《知识产权》2025年4期
责任编辑:崔倩
编辑:李倩
审读:刘珊
咨询邮箱:
zscqip@163.com
投稿网站:
https://zscq.cbpt.cnki.net/EditorHN/index.aspx?t=1