AI大模型训练数据构成著作权合理使用的探究

梁晶晶

当前位置：首页 > 法学前沿 > AI大模型训练数据构成著作权合理使用的探究

法学前沿

Frontiers of Law

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-7101（P）
ISSN:
3080-0684（O）
期刊分类:
人文社科
出版周期:
月刊
投稿量:
2
浏览量:
669

AI大模型训练数据构成著作权合理使用的探究

An Exploration of the Application of Fair Use in Copyright Law to AI Large Model Training Data

发布时间：2025-09-29

作者: 梁晶晶 :中原工学院河南郑州;

摘要: 在数智时代背景下，人工智能利用复杂的算法、模型和规则，从大规模数据集中学习，创造出新的原创内容。数据作为训练项目的基础，其来源和使用构成著作权研究的热点问题。获取数据之后投入较多的创造性劳动形成新的作品，探究是否可以用著作权合理使用制度予以规制，以达到数据使用和著作权保护的平衡，为人工智能的健康发展提供制度支持。

Abstract: In the context of the digital intelligence era, artificial intelligence uses complex algorithms, models, and rules to learn from large-scale datasets and create new original content. As the foundation of training projects, the source and use of data have become a hot topic in copyright research. After obtaining the data and investing a considerable amount of creative labor to form new works, it is explored whether the fair use system in copyright law can be applied to regulate it, in order to achieve a balance between data usage and copyright protection and provide institutional support for the healthy development of artificial intelligence.

关键词: 人工智能；AI大模型训练数据；著作权合理使用原则

Keywords: artificial intelligence; AI large model training data; fair use principle in copyright law

引言

2023年5月18日，美国联邦最高法院作出的对于Goldsmith案的判决，该案作为最高法院将近30年对版权法合理使用的判决，其本身具有显著的指导意义。实践中，已经有作者援引Goldsmith案判决以对抗生成式人工智能服务提供者使用受版权保护的作品作为训练数据的行为。不可否认的是，作为人工智能的基础，训练数据集对于模型的训练和优化至关重要。随着计算机技术和硬件性能的不断提升，人工智能技术得到了快速发展，对于训练数据的构建也逐渐多样化，这些数据涵盖不同的任务和场景，数据集非常庞大，这些数据包含被许可使用的数据以及未经许可使用的数据。训练项目数据是人工智能发展的基础，离开输出端的训练计划项目人工智能后续阶段将寸步难行，技术创新将受到巨大的阻碍。但是就目前《著作权法》规定，使用未经许可的数据构成著作权侵权，那么人工智能技术的发展与著作权人合法权益的保护之间的利益平衡也是人工智能技术发展无法逃避的问题。日前，有记者问OpenAI首席技术官米拉穆拉蒂Sora训练数据来自何处，她对此表示不确定，只能说肯定是公开或者许可使用的数据。公开的数据是否可以默认为许可使用作品，从著作权角度或许答案是否定的。从著作权法规范下对数据挖掘和训练性使用行为的法律挑战出发，保护版权人作品著作权权益的基础上，考虑将人工智能训练项目数据的使用纳入著作权合理使用制度中是解决这一问题的路径选择。

一、AI大模型训练项目数据使用现状

（一）AI大模型训练项目数据来源

AI技术在工业、金融、制造、医疗、教育等行业的渗透不断加深，应用人工智能处理传统产业的问题情况屡见不鲜。行业的多样化需求意味着人工智能训练数据的来源多元化，大模型因其不同的数据需求，不断学习各个专业领域的数据，以实现模型输出准确性、专业性大幅度提升。数据采集是为了使大脑更聪明，需要运用各类数据来训练人工智能算法，人工智能算法作出判断大致要经历“接收数据”“总结规律”“形成判断”三个环节，数据样品类型越全、精度越高、针对性越强，算法就会越聪明。人工智能训练项目数据获取主要通过以下途径：

1. 个人数据采集

志愿者在知情的前提下对其进行数据采集，或者在公共场景下主动收录或者拍摄。用户生成的内容也是人工智能训练数据的重要组成部分。社交平台、网络评论、短视频平台等地方产生的文字、图片、视频等数据为人工智能训练提供了丰富的现实情境和语境信息。

2. 内部数据

对于许多企业来说，他们拥有大量的内部数据，这些数据可以用来训练特定领域的AI大模型。电商平台可以利用用户的搜索历史、交易记录、用户评价等数据来训练推荐系统模型；短视频平台可以利用用户使用时长、观看记录、点赞收藏次数训练模型。为了获取更全面、更高质量的数据，一些公司会与其他公司共享数据以共同训练AI大模型。这种合作可以是同行业也可以是跨专业的，从不同角度获取数据，提升数据的质量，训练更为准确的人工智能模型。

3. 公开数据集获取数据

公开数据集是人工智能训练项目数据的重要来源，获取的这些数据集通常由政府组织、企业、学术机构、研讨会、学术会议等公开发布，涵盖了各种类型的数据。例如，ImageNet是一个广泛用于图像识别任务的大规模图像数据集，ISBI（生物医学成像国际研讨会）将每届的研究数据无偿贡献给grand-challenge平台中。

4. 使用数据挖掘或者爬取手段进行抓取

数据挖掘技术和爬取技术的应用在人工智能产品中应用的越来越广泛，为获取分析网络上大量的数据提供了有效的工具和方法。例如搜索引擎通过爬虫技术获取网页内容，并建立索引，以便用户在搜索时能够快速找到相关内容。对于人工智能服务提供者来说，一方面运用此技术收集数据，另一方面也运用此进行技术训练。

5. 购买第三方数据

在某些情况下，AI开发者在训练模型时候有大量的数据需求，数据挖掘或者爬取技术需要投入大量的时间和精力。他们会选择购买第三方数据提供商的服务，这些提供商专门收集、整理和销售各类数据。这些数据可能包括新闻文章、研究报告、专利文献、地图信息等，可以用于训练某些特定领域的AI大模型。

目前，人工智能训练数据主要来源于以上途径，数据类型非常广泛，包括个人数据、企业数据、公共数据、版权数据等范围广泛、能够适应不同模型场景和语态下的各种数据类型。

（二）AI大模型训练项目数据使用争议

获取手段的多元性，类型的多样性、内容的丰富性组成AI大模型训练项目数据的特点。输入端的数据合法性问题是现今司法实践遇到的棘手难题。例如最大的商业图库Getty Images (US)诉Stability AI一案中，Stability AI已从Getty Images的图库中复制了超过1200万张图片，以及相关的标题和元数据，且未经允许。除此以外，Stability AI还面临着多位艺术家的集体诉讼，诉讼中称该企业在未补偿艺术家或要求许可的情况下，使用艺术家的作品培训其AI模型，在诉讼中表示Stability AI以错误的方式破坏版权制度。除了图片数据获取引发的争议外，现如今生成式人工智能训练数据也深陷争议。OpenAI公司的ChatGPT这类的大型语言模型需要消耗大量的文本，然后这些生成式人工智能开始“自我训练”，它们可以编写代码、回答疑难问题、代写书信，论文书写等。然而，多项诉讼对这类模型接收信息的方式和数据来源提出了控诉。认为人工智能模型的资料通常来自于电子图书馆，其中的一部分是合法的，比如Project Gutenberg，这是一个收集版权已过期的电子书的数据库。另外一些来源常被称为“影子图书馆”，其中充斥着一些读者可以获得的电子书，但通常缺乏作者和出版商的版权许可。诉讼指责OpenAI公司向其人工智能模型提供了包括来自“影子图书馆”收集的书籍在内的数据，这种做法是“公然违法”的。美国作者协会和多名作者签署了一封致OpenAI、Alphabet、Meta、Stability AI、IBM和Microsoft的公开信，呼吁在训练AI时使用受版权保护的材料应征得作者同意、获得授权许可并给予公平补偿。这封信中指出“生成式人工智能的高度商业性与合理使用制度相悖”。

AI大模型训练数据争议在于作者或者出版社未经授权使用的作品和缺乏作者的作品是否可以合理作为AI大模型训练数据。未保障数据主体的知情权与授权范围目前在法律上有巨大的隐患，但是如果在AI大模型训练数据获取前，对大量的现有数据进行授权或者许可，将会出现人工智能项目研发成本升高、创新进程缓慢等问题。

二、著作权合理使用制度与AI大模型训练数据关系探究

（一）著作权合理使用制度判断标准

著作权合理使用制度是指在法律规定的某些特殊情形下，他人可以自由使用已经出版的作品，这种使用行为不需要征求著作权人的同意，也不需要向著作权人支付报酬。我国《著作权法》第二十四条规定了著作权合理使用的十三种合理使用的情形。我国司法实践多使用概括自《伯尔尼公约》的“三步分析法”对某一使用行为是否构成著作权“合理使用”进行判定。我国于2002年《著作权法实施条例》第二十一条确定三步分析法的标准。三步分析法即首先判断是否符合著作权法第二十四条规定的特定情形；其次判断该行为是否影响原作品的正常使用；最后判断该使用行为是否不合理的损害著作权人的合法权益。通过以上三个步骤判断使用行为是否构成合理使用。除了我国司法实践中惯常使用的“三步分析法”外，还有一种判断是否构成合理使用的标准。即现今美国使用的“四要素分析法”。“四要素分析法”主要包括：1.考虑作品使用行为的性质和目的；2.被使用作品的性质；3.被使用部分的数量和质量；4.使用对作品潜在市场或价值的影响。

我国司法实践在适用著作权合理使用条款时，采用的“列举+抽象判断”相结合的方式，然后以“三步分析法”为基础综合运用“四要素分析法”来应对使用作品中出现的可能构成合理使用的情况，以此来平衡著作权保护与作品使用之间的关系。

（二）目前著作权合理使用制度与AI大模型训练数据的关系

著作权合理使用制度允许在特定的情况下不经著作权人的许可即可使用该作品，而AI大模型训练需要大量的文本、图像、音频等数据进行训练和优化。从著作权法合理使用制度判断标准从以下几个方面分析AI大模型训练数据：首先依据三步分析法，AI大模型训练数据目前尚不属于著作权法第二十四条规定的特定情形，其次AI大模型训练数据只是运用于算法训练阶段的基础数据，没有影响原作品的正常使用，单纯处于训练大数据模型并没有不合理的损害原数据著作权人的合法权益。运用“四要素分析法”，首先在Goldsmith案认定使用行为具有商业性质这一认定相对来说是不合理的，盈利被用于支持公众视觉艺术，商业性质在此不凸显。AI大模型训练数据的使用是用于推动技术的革新，更好的适用于社会不同场景的需求。被使用作品的性质是AI大模型训练数据是否构成著作权合理使用的关键，这里的数据是指《著作权法》规定的作品类型，对于一些个人隐私等不构成著作权作品来说必然没有合理使用一说。关于被使用部分的数量和质量，训练数据的来源庞大，需要大量高质量的数据，并非直接无选择的将数据直接运用。最后，AI大模型训练数据使用对作品潜在市场或价值的影响是极其微小的，作为数据生成的新作品与原作品的目的、功能、价值有明显不同。

三、合理使用原则在AI大模型训练数据使用中的适用性

（一）现实必要性：单一授权存在困难

AI大模型训练涉及的作品数量众多、来源不同、权属不同，采用符合现行《著作权法》第二十六条规定，使用他人作品应当同著作权人订立许可使用合同。根据此条规定，AI大模型开发者需要一个个获得许可，与各个数据权利人订立许可合同，这样的高度分散性导致交易成本的提高和研发时间的不必要延长，阻碍技术的运行和发展。同时，权属明确的数据权利具有确定性，使用者能够准确寻找主体，但是对于一些权属不明确的数据权利开发者如何与不明确的相对方签订许可使用合同。对于AI大模型开发者来说，前期工作包括精确的将受保护的作品从海量的数据中进行分离、提取，还包括在找到每一作品对于的权利人与之协商授权，并且根据不同数据的价值给付不同的许可使用费，这一过程及其困难且耗时漫长，增加输出端成本。

任何受版权法保护的输入端数据在实践中是否能够作为为AI大模型训练数据使用，以及模型训练内容规模和数据可用性可能产生开发者难以提前预想到的效果。这样一来，提前进行授权，这样高昂的许可使用费以及使用风险存在的不确定性，可能会给影响到人工智能技术和产业的发展。将AI大模型训练数据使用纳入著作权合理使用制度中，那么开发者在开发前能够规避上述问题，具有其存在的合理性。

（二）法理可行性：AI大模型训练数据使用符合转换性使用理论

1994年在Campbell v. Acuff-Rose Music案件中,美国最高法院进一步确立了转换性使用（transformative use）理论的检验法则，细化了合理使用的适用条件。转换性使用理论是指对于原作品的使用并非单纯的再现原作品本身的文字、艺术价值或者实现其内在功能或目的，而是通过增加新的美学内容、新的视角、新的理念或通过其他方式，使得原作品在使用过程中具有了新的价值、功能或者性质，从而改变了其原先的功能或目的。在我国审判中进一步指出了对作品的引用不是为了纯粹的展示被引用作品本身的艺术价值，而被引用作品致使原作品的价值和功能发生了转换。

第一，AI大模型训练数据使用行为是作为输入端运用的，使用行为并不是针对输出端的产品呈现，而是计算机系统本身的过程性行为。第二，AI大模型训练数据使用过程中并没有进行全文复制，而是通过预先精细标注数据，通过对机器输入一系列指令来获取高质量的数据，再对高质量数据进行筛选组合实现输出端指令行为。尽管训练数据可能构成商业性使用，但是这一使用行为并没有剥夺版权人对于原作的应有权益。第三，AI大模型训练数据使用通过新的手段行为，使得原作品在使用过程中有了新的功能和价值。作为AI大模型训练的基础，需要原有的非结构化的数据需要加工转化为结构化。这些通过深度学习、神经网络等算法的数据通过计算机的自动学习和处理，实现了诸如语音识别、图像识别、文本生成等新的高级功能。各类模型的训练赋予了本身拥有著作权的不同数据有了新的价值。综上，在是否构成合理使用运用转换性使用理论方面，AI大模型训练数据有其对应性和可行性。

（三）立法参酌：国际经验的启示

当前全球都面临着云计算、人工智能等新技术浪潮下，为满足不断涌现的著作权侵权问题，各国都在寻求合理解决方案，实现版权保护和技术发展的利益平衡。除了出现的版权侵权问题，在此背景下作品自由使用需求问题也不断凸显，在这样的国际背景下，已有国家选择将AI大模型训练数据使用认定构成著作权的合理使用。

在2018年日本《著作权法》修订中，第47条之4第1项规定：“通过电子计算机（包含使用信息通信技术的方式）利用作品时，在如下所列情形以及其他类似情形下，为电子计算机得以平稳、高效地使用作品，在必要限度范围内，可以进行下列任何方式的附随性使用行为。但是，如果根据作品的种类和用途，作品的利用方式会对著作权人利益产生不当损害的情形下，不适用本规定。欧盟议会通过《单一数字市场版权指令》（Directive on Copyright in the Digital Singles Market）第二章“使例外和限制适应数字和跨境环境的措施”第四条规定了文本和数据挖掘的例外或限制，第二款规定以进行文本和数据挖掘为目的，复制和提取的作品或其他内容可保留到必要时为止。这些条款都赋予了AI大模型训练数据的合理使用的合法性。新技术的发展需要新的制度保障，通过借鉴其他国家的法治经验，理解它们在社会转型发展过程中作出的制度和举措安排，对我国法律进行创新性转化，才能更好的推动人工智能技术获得更新更快更高质量的发展。

四、结语

人工智能的研究和应用领域不断拓展，对各行各业都产生了不同程度的冲击，在AI大模型训练数据的需求方面也在不断的拓展。如果将数据束之高阁，长此以往也会降低AI大模型开发者进行技术研发和技术创新的积极性，作为新质生产力的典型代表的发展对于整个社会发展具有重要作用。着眼数据的实际使用情况，通过著作权合理使用制度将AI大模型训练数据使用合法化，促进信息的自由流动和创新发展，平衡著作权人利益和公共利益的冲突，建构人工智能背景下数据驱动创新的著作权合理使用制度。

参考文献：

[1] 赵加兵. 公共数据概念的规范界定及其民法意义[J]. 河南牧业经济学院学报, 2022, 35(02):62-71.
[2] 杨航. 转换性使用在我国著作权法体系下的适用研究[D]. 广西大学, 2022.
[3] 侯贤杰. 生成式人工智能预训练中著作权合理使用研究[J]. 河南科技, 2025, 52(14):117-121.
[4] 张泽宇. 网络游戏直播画面著作权归属问题探究[J]. 中国报业, 2024(02):140-143.
[5] 张广伟. 涉形象权作品中的“转换性使用”标准及其在美国的司法实践研究[J]. 智富时代, 2018(02):52.
[6] 王迁. 知识产权法教程[M]. 北京:中国人民大学出版社, 2011.
[7] 郑重. 日本著作权法柔性合理使用条款及其启示[J]. 知识产权, 2022(01):112-130.
[8] 王进. 欧盟《数字化单一市场版权指令》的例外与限制制度解读及对我国的启示[J]. 科技与出版, 2019(10):70-75.

法学前沿

Frontiers of Law

相关文章

AI大模型训练数据构成著作权合理使用的探究

An Exploration of the Application of Fair Use in Copyright Law to AI Large Model Training Data

引言

一、AI大模型训练项目数据使用现状

（一）AI大模型训练项目数据来源

1. 个人数据采集

2. 内部数据

3. 公开数据集获取数据

4. 使用数据挖掘或者爬取手段进行抓取

5. 购买第三方数据

（二）AI大模型训练项目数据使用争议

二、著作权合理使用制度与AI大模型训练数据关系探究

（一）著作权合理使用制度判断标准

（二）目前著作权合理使用制度与AI大模型训练数据的关系

三、合理使用原则在AI大模型训练数据使用中的适用性

（一）现实必要性：单一授权存在困难

（二）法理可行性：AI大模型训练数据使用符合转换性使用理论

（三）立法参酌：国际经验的启示

四、结语

参考文献：