当前位置:网站首页 > 社会 > 试论人工智能模型训练的版权规制问题——以“奥特曼案”后未决的问题为例

试论人工智能模型训练的版权规制问题——以“奥特曼案”后未决的问题为例

试论人工智能模型训练的版权规制问题——以“奥特曼案”后未决的问题为例AI模型在使用他人作品进行训练的过程中,往往未经著作权人的许可获取作品并将其数据化后存储在相关服务器之中,并由AI模型进行训练,这种行为模式存在潜在的侵犯复制权的可能。然而

AI模型在使用他人作品进行训练的过程中,往往未经著作权人的许可获取作品并将其数据化后存储在相关服务器之中,并由AI模型进行训练,这种行为模式存在潜在的侵犯复制权的可能。然而,由于AI模型正处于高速发展的过程,出于促进科技发展和AI训练往往需要海量数据存在授权困难的问题,延伸出了为AI模型使用他人作品进行训练提供著作权法上的合法原因的讨论。其中,机器学习是否构成版权制度中的合理使用,以及能否或者通过法定许可制度对其进行规制是目前学界主要的两种观点。本文在此不论。笔者认为,机器学习本身不是著作权法意义上的使用行为,既不适用合理使用规则,也不能适用法定许可制度,但机器学习本身应当遵循训练数据来源获取合法,尊重著作权人的合法权利,通过构建“选择-通知—删除/授权”的机制来规制机器训练行为并且平衡好人工智能发展的需要和著作权人的利益。

二、人工智能模型训练和版权上的使用行为

表面上看,人工智能模型训练过程中未经著作权人许可使用他人的作品进行训练,存在潜在的著作权侵权风险。AI模型在训练过程中,获取作品并存储的行为似乎直接侵犯了著作权人的“复制权”,因此通过合理使用制度或者法定许可制度似乎能够成为著作权法制度上对该侵权行为进行限制或豁免的一种选择。但一种行为是否属于著作权侵权行为,其前提是该行为是否是一种违反著作权法的行为。如果该行为不属于“违法行为”甚至不属于著作权法调整的行为,则该行为无法构成著作权法意义上的一种侵权行为,甚至不属于著作权法意义上的一种使用行为,那么合理使用和法定许可规则本身也无法规制这一种行为。

事实上,人工智能模型训练广义上可以分为两个阶段,即作品的获取和作品的学习两个阶段。而细分两个阶段的具体行为可以划分为作品的来源和获取行为,作品的数据化和储存行为、作品的学习和生成的行为。[2]从著作权法制度上对上述三个行为进行分析,作品的来源和获取涉及是否需要权利人的授权和获取方式是否合法的问题,作品的储存涉及“复制权”的规制范畴,而对作品的学习和生成阶段可能涉及对作品的复制、演绎等行为。

(一)作品的来源和获取

人工智能模型进行训练需要获取作品,而作品从何而来以及如何获取作品的内容是主要探讨的问题。《著作权法》第49条第二款“未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施,不得以避开或者破坏技术措施为目的制造、进口或者向公众提供有关装置或者部件,不得故意为他人避开或者破坏技术措施提供技术服务。但是,法律、行政法规规定可以避开的情形除外。”,该条规定禁止对采取了技术措施进行保护的作品通过避开或者破坏的方式进行获取作品内容,因此如果人工智能模型在训练中直接通过上述禁止的侵权手段获取作品和作品内容,则直接构成侵权。

其中,对作品的来源可以分为经过合法授权发表的作品、公开且开放获取内容的作品以及未开放获取内容的作品。对作品的内容获取涉及获取合法性的问题,即是否存在破坏计算机信息系统、违反数据爬取保护措施等破坏,书籍、杂志等)以及公开且开放获取内容的作品(例如网络公开内容),获取此类作品只要有合法的来源(例如购买、合法网络访问)则获取内容的行为本身属于一种阅读、接触作品的权利,并不属于著作权法所规制的行为。对于未开放获取内容的作品,若没有合法授权而采取破坏技术保护措施的手段获取作品内容则本身属于侵权行为,而合理使用和法定许可制度并无法豁免这一行为下的侵权责任。[3]因此,为人工智能模型训练而进行单纯地接触作品,获取作品内容而不进行“复制”只是一种类似于线上或者线下浏览、欣赏、阅读的行为。随着人工智能技术的发展,利用云端数据、共享数据而非本地储存的数据进行训练将成为可行的技术选择,那么从著作权法的角度来看,对具有合法来源的作品进行接触的行为并不侵犯著作权,也不属于著作权法上的使用行为。

(二)作品的数据化和储存

《著作权法》第53条第一款“(一)未经著作权人许可,复制、发行、表演、放映、广播、汇编、通过信息网络向公众传播其作品的”是著作权法对“复制”行为的规制条款,对未经许可的复制行为作出了禁止性的规定。而在作品的数据化和储存这一阶段,主要涉及对数据的本地储存和非电子形式作品的数据化。在网络环境下,人工智能模型训练需要存储海量的作品数据和将线下的作品转化为线上的数据,这一过程势必涉及未经许可的复制权侵权问题。如果人工智能数据化作品并生成数据副本储存的行为被视为一种具有著作权意义的复制行为时,那么未经许可进行的上述行为在我国著作权法上将构成侵权行为。

另一方面,欧盟《单一数字市场版权指令》第二章第4条对于不限制目的的“文本和数据挖掘”行为涉及作品时,给予了复制和提取作品的责任豁免。[4]有别于单纯技术流程上的“临时复制”的情形,该条规定实际上是对未经许可的“文本与数据挖掘”过程中的“复制“行为涉及的复制权侵权责任的豁免。但该条也规定对于被训练作品和其他内容的获取必须是合法的,且“版权人未以适当方式保留文本与数据挖掘的权利”。换而言之,该条亦明确声明了著作权人有权利禁止人工智能模型利用其作品进行训练。如果著作权人采取了一定的技术保护措施,或者通过声明、通知等方式禁止人工智能模型对其作品进行训练,则即使该作品的来源和获取是合法的,人工智能模型训练平台也不能在未经许可的情形下,不支付报酬而使用作品进行训练。因此,《单一数字市场版权指令》对作品的数据化和储存这一阶段可能涉及的”复制权“侵权责任豁免并不是绝对的,具有较为严格的限制条件,也从侧面强调了人工智能模型训练的行为仍属于著作权法意义上的复制行为,应当尊重著作权人的权利。

(三)作品的学习和生成阶段

人工智能模型利用海量的作品数据进行学习和生成内容的过程实际上可以分为机器学习和内容输出两个阶段。对于机器学习是对作品数据进行的具有一定模式的分析处理,其过程并不会对作品进行再现或者表达,而只是人工智能模型数据分析处理过程中生成的相关性的参数。而生成内容的阶段属于人工智能输出端的问题,而不在本文所讨论之涉。

日本在著作权法规定对于“用于信息分析的情形”和“在电子计算机信息处理过程中对作品表达所进行的不被人类感知和识别的使用情形”两项情形下的“不以欣赏作品原有价值为目的的利用”行为规定为合理使用行为。[5]日本著作权法将作品的上述“非表达型利用”作为一种合理使用情形,虽然表面上是一种侵权责任的豁免,但实际上“不以欣赏作品原有价值为目的利用”,是计算机对于作品的信息分析过程中不为人类所感知和识别的情形,是一种技术过程,不属于著作权法意义上的作品使用行为。

机器学习的此种“非表达型的利用”亦可以类比于人类的学习,机器学习的方式无论是分析既有作品的内容形成艺术风格上模型参数,还是学习作品信息排列组合的规律转化为模型参数都仅仅是对作品思想层面上的分析和处理,只是一种技术思想的实现过程,是机器对作品蕴含的思想的学习过程,它无法被人类感知也无法被人类识别和传播,更不是对作品表达的再现。因此机器学习本身并不属于版权法意义上的使用行为。

(四)对复制件侵权观点的辨析

从上文的分析来看,对人工智能模型训练的过程实际上分为三个阶段,其中最具有争议的问题是针对通过公开渠道能够获取的作品,在未经著作权人许可的情形下,利用其作品进行人工智能训练的行为是否侵犯了著作权人的”复制权”。著作权法能否对此种可能的侵权予以限制或例外。笔者认为,对于那些设置了技术保护措施,以及著作权人保留权利的作品,如果通过不合法的手段获取作品显然侵犯了著作权,且无法通过合理使用制度和法定许可制度进行豁免和例外。而对具有合法来源的作品进行训练,即使著作权人声明保护机器学习的权利,也无法禁止人工智能模型平台在未经其许可的情形下,不支付报酬利用其作品进行训练。但此种使用能够得到例外的原因并非其构成一种合理使用或者具有事实或法定上的许可,而是因为人工智能模型训练本质上不属于著作权法所调整的行为,著作权法可以对其特定的情形予以限制但无法当然视为一种权项进行调整和保护。

对于主张人工智能模型训练构成合理使用或者利用法定许可等制度进行规制的论点本质上是建立在著作权侵权的观点上的。但只有当某一行为能够被归属于著作权保护的主题时,侵权检验、合理使用抗辩才进入了著作权法意义上讨论的范围。思想表达二分法明确体现了著作权法保护的基础。对于非表达形式而是表达元素的,例如单纯的思想和属于思想领域的活动,并不是著作权法调整的对象,信息或知识、功能元素、物质方面,甚至某些结构表达特征都属于公共领域的范围。[6]当一种复制行为只用于计算研究,任何文本和数据挖掘分析的持久输出都只是一种事实数据,它不会包含分析文章中足够的原始表达,而成为具有著作权法意义上的有价值的复制。[7]因此,只有一项活动达到了著作权保护的基础门槛时,对其进行具体制度的探讨和设计才是具有效率的。

人工智能的输出内容只有在“看到”大量作品并从中提取共同模式后才能生成,人工智能模型训练包含了一个不可或缺的训练或学习阶段,其必须通过接触大量现有的表达性作品来进行训练。[8]机器学习不可避免地涉及物理复制,但这种复制的过程是人工智能模型实现其技术功能的必要过程,是技术思想的实现过程。人类永远无法从此种复制件中获得作品的表达内容。因此,虽然此种技术上的复制件具有物理载体得以呈现,但其内容并无法被人类进行具有表达价值上的利用价值。因此,此种物理对象并不是著作权法意义上的作品,而是一种具有实用功能性的一种数据、信息。换而言之,现有阶段,人工智能的技术实现只能借助于“复制”某种“表达形式”这一物理手段学习“表达的思想”。但这一物理手段的本质并不是著作权法意义上的再现作品的表达,而是在技术意义上的为实现技术手段所必要的一种物理载体。其虽然具有作品形式的表象但实质上是一种技术上的信息载体。

因此,对于人工智能模型训练中势必形成的复制件,其本质上属于非表达性复制,是一种技术意义上的复制,反映的是一种物理事实将作品转化为数据副本不属于可受著作权保护的范围,不构成侵权。[9]那么对于合理使用和法定许可的讨论应当是不必要的。虽然机器学习本质上不属于著作权法调整的使用行为,合理使用和法定许可本身也并不适合作为侵权的豁免或例外。因为,合理使用原则属于侵权抗辩并且需要进行检验和判断,那么势必会在具体案情分析中对某些机器学习的情形造成排除的效应,而合理使用本身也无法用于检验著作权法所保护的对象。而法定许可本身仍需要使用者支付报酬,其对价的正当性存疑,且可预见的结果是人工智能系统的发展将受到限制,而对于广泛的著作权所有者也难以得到相应的补偿。[10]

三、人工智能数据训练的版权规则改造

虽然人工智能模型训练在本质上并不属于著作权法意义上的行为,但并不意味着该行为不会受到著作权法的限制。人工智能模型训练并不能当然地无限制地获取作品内容,应当尊重著作权人的权利,包括人工智能训练获取的作品应当有合法的来源。对于未发表的作品不能获取和学习,对于设置了技术保护措施的作品不能获取和学习。因此,人工智能模型训练对于那些未公开作品内容和未开发获取内容的作品仍应当遵守著作权法的规定,应当取得著作权人的许可方能复制作品的信息并进行后续的训练。但只要人工智能模型平台得到复制许可即可,而无需获得机器学习的许可。

如果人工智能模型生成的作品中可见的含有非法来源获取的作品的内容时,著作权法仍应当依照著作权侵权的规则进行规制。在侵权行为的认定上,机器的学习是一种技术过程,其“复制行为”是一种“无意识”的行为,但故意或过失进行复制行为仍属于著作权侵权行为。当人工智能模型在输出端的内容达到实质性相似时,人工智能模型训练中的“复制”行为又将成为侵权判决的关键因素。[11]因此,平台应当对人工智能模型训练中的复制行为施加注意,以避免或减轻可能的侵权风险。但现有的避风港规则并不能适用于人工智能模型侵权的情形,应当作出制度上可行的改造。

(一)平台的义务

我国首部针对生成式人工智能的立法文件《生成式人工智能服务管理暂行办法》(简称“《办法》”),[12]该《办法》第四条规定提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德,尊重知识产权、商业道德,保守商业秘密,显然这属于人工智能模型平台应当遵守的义务。其中《办法》第七条对生成式人工智能服务提供者开展预训练、优化训练等训练数据处理活动提出两项重要的要求,分别是“使用具有合法来源的数据和基础模型”以及“不得侵害他人依法享有的知识产权”两项。而在“奥特曼”案中,法院也要求被告建立便捷的投诉举报机制让权利人可以便捷通过投诉举报机制来保护其著作权。因此,对于人工智能模型平台而言,应当使用具有合法来源的作品进行训练且不得侵犯著作权人的有关权利。如果人工智能平台使用的采取破坏技术措施获取的作品、他人非法复制、传播作品时,势必应当承担《办法》第五条规定的”产品生成内容生产者的责任。

上一篇: 着力打造新时代社会治理的新格局
下一篇: ——山东坚持共建共治共享,打造新时代社会治理新格局

为您推荐

发表评论