searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享

【转载】生成式人工智能的应用、风险与法律回应 ——以 ChatGPT 为视角

2024-05-07 09:41:59
27
0

一、引言

2022年11月,美国人工智能研究实验室OpenAI开发的人工智能聊天机器人ChatGPTh-线超过的用户,成为史上用户量增长速度最快的应用程序。ChatGPT是生成式人工智能ArtificialInteligenceGeneratedContent,AIGC)取得的最新成果。根据我国国家网信办联合国家相关部门在2023年7月13日发布的《生成式人工智能服务管理暂行办法》(下称《管理办法》》的规定,生成式人工智能技术是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。ChatGPT是一种由人工智能技术驱动的自然语言处理工具,是生成式人工智能文本生成功能在当前的最佳演绎。

ChatGPT的出现不仅让生成式人工智能大放异彩,还深刻改变了人工智能技术的发展格局。不同于传统人工智能技术,以.ChatGPT为代表的生成式人工智能颠覆了人类对人工智能的认知,ChatGPT强大的自我学习能力和迭代升级速度,使其在语言翻译、文本撰写、代码编程、医学影像解读等领域均有出色表现。然而,随着ChatGPT的迅速普及,其引起的各类法律风险开始不断显现,如数据侵权、虚假信息、算法歧视、侵犯隐私等问题。鉴于此,一些国家开始限制甚至下架ChatGPT,意大利数据保护局通报ChatGPT出现非法收集和存储大量个人数据、泄露用户对话数据和支付信息等情况。[1]ChatGPT暴露的各类法律风险为我们敲响了警钟,若不及时对该类技术进行法律介入与规制,后果将难以设想。在此背景下,本文以ChatGPT的智能应用为切入点,对其产生的一些常见法律风险进行剖析,从法律视角提出应对路径,以期对ChatGPT类生成式人工智能的规范发展提供理论帮助。

二、ChatGPT类生成式人工智能的技术演化与应用

(一)ChatGPT的技术演化与迭代升级

ChatGPT由GPT-3孕育变化而产生。在ChatGPT问世前,OpenAI公司推出过GPT-1、GPT-2、GPT-3,其本质都是通过对海量数据的学习,依靠Transformer模型强大的拟合能力实现模型收GG-Ta生成预练模型称。

GPT-1只有1.17亿个参数,预训练数据量约5G,其采用大型书籍文本数据集进行无监督的预训练和有监督的模型微调,这一技术打破了传统自然语言处理(NaturalLanguage Process-ing,NLP)训练模型的局限性,取得了比基础Transformer模型更优的结果。[2]P11)紧接着,OpenAI推出了GPT-2,虽然其原理与GPT-1一致,但GPT-2的参数和预训练数据集已经分别达到了15亿和40G。GPT-2验证了随着模型容量和数据量的扩容,其性能还有继续优化的空间。在此基础上,OpenAI于2020年推出了GPT-3,GPT-3参数达到了1,750亿,预训练数据量更是达到了45TB,在一些具有一定难度的任务方面,例如撰写文章、编写代码等方面均有突出表现,ChatGPT被认为脱胎于GPT-3。

大型语言模型(LargeLanguageModel,,LLM)作为ChatGPT的基础及升级迭代的关键,依托海量数据储备,使ChatGPT获得强大学习能力。在GPT-3.5的模型架构中,通过“几万人工标注”的方式注入人类偏好,形成人类偏好数据,让模型通过自我学习了解人类偏好;继而训练一个反馈模型,由标注人员对原始模型输出答案进行人类偏好的排序;最后依托标注好的“人类偏好”数据,训练打分模型将人类偏好反馈给大型语言模型。[3]通过循环往复的反馈、打分,使得ChatGPT洞悉人类偏好,不断修正数据、反馈人类满意的答案。当前,ChatGPT已发展到GPT-4阶段,GPT-4拥有更大模型参数和预训练数据集,拥有更高智能性和准确度。可以预见,随着数据容量的不断扩容,算法的优化、算力的提升,ChatGPT还将持续迭代升级,且迭代升级的频率可能不断加快。伴随每一次技术升级,ChatGPT都将取得突破性革新,将人工智能应用带入一个全新阶段。

 

(二)ChatGPT类生成式人工智能的技术应用与展望

ChatGPT类生成式人工智能技术诞生之前,人类对人工智能的认识还停留在弱人工智能阶段,弱人工智能只能依据人类的指令完成简单的、初级的任务。ChatGPT的横空出世无疑颠覆了很多人对人工智能的认知,虽然ChatGPT还不是强人工智能,但它让人类对强人工智能的认识变得更加立体和饱满。此前,人类社会的技术变革带来的主要是物质生产形式的进步,而以ChatGPT为代表的生成式人工智能直接模拟人类思维,进行思想产出,甚至直接影响或改变人类的思维习惯与模式,这对人类社会的影响是前所未有的。以ChatGPT的应用为参照,其至少在以下维度带来了技术应用的深度革新。

1.主体维度:AI成为创作主体

生成式人工智能的内容创作主体为人工智能。互联网时代内容创作主体以专业生产内容典型。在生成式人工智能获得广泛应用前,这两类内容创作形式是互联网时代的主导,不管是PGC还是UGC,其内容生产者都是人,即以人为主体进行内容生产,而生成式人工智能的出现深刻改变了这一格局,内容创作主体由人变为人工智能。AI文本生成、视频生成、音频生成、代码生成等均在各领域实现了应用,引起网络热议的“AI孙燕姿”就是AI音频生成的应用。演绎歌曲的并不是歌手孙燕姿本人,而是由算法生成的音频。AI利用深度学习算法分析大量的孙燕姿音频数据,模拟出与孙燕姿声音高度相似的音频,这种音频足以达到以假乱真的程度。与之前的内容生成主体不同,AI已然替代自然人,成为创作主体。

与以人为主体的内容创作模式相比,人工智能创作主体具有多种优势。其一,人工智能具有创新性。一方面,通过训练模型及对大规模数据的学习,A1可在极短时间内掌握多领域理论知识,其可根据用户需求提供定制化服务,还可以根据创作语境、任务的不同随时调整创作内容,这是人类创作主体难以实现的。另一方面,AI可以摆脱人类创作规律,依托生成式人工智能的技术模型,AI可以进行大规模内容重组、建构与整合,打破人类既有创作思维的束缚,实现内容创新。随着数据的扩容,算法与算力的提升,生成式人工智能生成的内容质量甚至能在某些方面超越人类。其二,人工智能具有高效性。通过对大规模数据的学习,人工智能可以不断进行内容输出与生成,这种效率是人类无法比拟的。内容生成是一种创造性工作,需要创作者投入巨大的时间与精力,而人工智能利用强大的算法与算力可以在极短时间内实现内容生成。一项复杂内容的完成往往需要多个不同专业工作人员的密切协作,而人工智能可以“身兼数职”,甚至可以同时完成客户下达的多项复杂任务指令,理论上可以实现内容的无限生成,这是人类创作者难以实现的。其三,人工智能具有低成本性。尽管生成式人工智能系统的开发与数据库的建设需要投入大量资金,但是系统一旦投入运营,其能极大降低内容生成成本。由人类完成的内容生成需要投入较多人力、物力与财力,生成式人工智能可以根据用户指令立刻生成相应内容,极大降低内容制作成本。从商业应用角度而言,这一优势对企业具有极大吸引力。

2.技术维度:文本生成的高智能性在ChatGPT出现之前,科技公司也推出过类似的聊天机器人程序,例如微软公司曾推出的人工智能聊天机器人Tay、微软小冰,苹果公司推出的语音助手Siri,但此前的任何一款人工智能聊天程序都不如ChatGPT智能。以微软公司此前推出的人工智能聊天机器人Tay为例,Tay可以通过与人类聊天、交流,不断积累知识,提升理解能力,变得更加智能。然而,Tay上线还不到24小时,它就被“误导”和“教坏”了,在和人类交流的过程中,一些用户向Tay传输了不当思想和言论,导致Tay开始输出很多偏激性、歧视性言论,微软公司不得不迅速下架Tay。Tay的事例暴露出人工智能聊天机器人的技术瓶颈,即如何通过技术手段提升聊天机器人的智能性,避免其受到用户人为因素的过度干扰。与传统聊天机器人程序相比,ChatGPT更具智能性,具备了极高的类人属性,逻辑能力很强,甚至有一定的记忆能力,能和用户进行连续对话。ChatGPT的运行原理使得它能从与用户的互动与反馈中不断修正自己的回答,以不断提高其沟通的准确度和对话感。[4]甚至会让用户模糊地认为自己是在和人类对话。ChatGPT具备了更明显的交互属性,用户在使用ChatGPT时,不仅是单方面向ChatGPT传输信息、思想,也能通过ChatGPT的回应实现双向互动式交流,交互双方的地位更趋平等。ChatGPT的出现让人类对人工智能是否有意识的争论变得更加激烈,从当前的技术发展趋势来看,这一争论仍无定论。需要我们警惕的是,ChatGPT类生成式人工智能不再执念于“意识”的形成与塑造,而是通过人机互动逐渐引导人类的思考模式,用户和ChatGPT之间形成“输人指令一生成内容”的互动,生成的内容又会无形影响和指引人类的行为,使得人类的想象与探索限定于人工智能的预设中。就此而言,人工智能最终是否能产生与人类一样的意识似乎不再那么重要了,因为代替人类思考的人工智能在另一个维度似乎又有了“意识”。随着技术的迭代升级,ChatGPT对人类语言规律的破解与领悟能力还将继续优化,其生成文本的内容将更加具有智能性。

 

3.空间维度:应用场景的普遍化

以ChatGPT为代表的生成式人工智能不仅能出色完成传统人工智能的功能,还能实现自我学习、撰写论文、编写代码、开发游戏、制定商业计划书等任务,一些顶尖芯片公司已经开始将人工智能技术应用到芯片研发和生产中。优越的技术性能使得ChatGPT在多个领域大放异彩并被赋予极高期待。在智能客服领域,ChatGPT能根据对话语境提供用户所需答案,在提升服务用户质量的同时,可有效降低企业运营成本;在医疗领域,ChatGPT可有效提升智能诊疗的普及率,方便患者问诊;在教育领域,ChatGPT可为学生提供个性化辅导,极大充实教育资源;在法律领域,ChatGPT可提供优质的检索服务、法律文书撰写服务、辅助法律咨询等。

除了传统空间的技术应用外,ChatGPT凭借强大的算力、先进的算法以及宏大的数据被认为在元宇宙领域必将大有可为,为元宇宙的实现提供了强大的技术支撑。元宇宙的实现需要数字智能技术的高度发展,在ChatGPT技术诞生之前,人类对元宇宙的认识多停留于想象与理论探索阶段,而ChatGPT技术的出现,使得一些支撑元宇宙的技术要素得以实现,例如借助生成式人工智能可完成元宇宙3D人物和物品形象的生成,这将极大节省成本[5],可以说,生成式人工智能为元宇宙的实现提供了技术路径,它的出现让元宇宙不再那么缥缈。除了为元宇宙提供技术支持外,ChatGPT还将在大数据、区块链等前沿科技领域大显身手。

 

三、ChatGPT类生成式人工智能的法律风险

ChatGPT的出现将人工智能的发展带入新维度,其展现的功能前所未有地强大,但是也带来了各种风险,例如数据违规,输出错误、虚假甚至不法信息,侵犯知识产权,引发学术不端、算法歧视等问题,科学界也对ChatGPT的迭代升级速度表示了担忧,认为这是一场“失控的竞赛”,ChatGPT可能会把人类带入充满风险的未知领域。结合ChatGPT目前暴露出的技术风险,本文选定三类常见法律风险予以具体分析。

(一)数据安全问题

ChatGPT的迭代升级离不开海量数据的支持。数据是ChatGPT的技术前提,没有数据作为预训练保障,ChatGPT的功能无法实现。ChatGPT的技术架构决定了其迭代升级的过程必须不断扩容各类新数据,因此,ChatGPT会最大限度收集各类数据,以不断提升其使用性能。以数据来源为参照,ChatGPT使用的数据既可能是公司购买的第三方平台数据,还可能是ChatGPT自行采集、获取或爬取的数据,这两种数据来源路径都可能存在数据安全隐患。其一,第三方平台的数据可能存在内容侵权、权属不清等问题,即这些数据的内容或来源本身缺乏正当性,ChatGPT使用这些数据进行训练或内容生成,容易引发数据侵权。其二,ChatGPT在应用过程中还存在自行采集数据、爬取数据等数据收集行为,这些行为很可能突破了用户的知情同意原则,继而引发数据泄漏、侵犯隐私等争议。

以数据内容为参照,ChatGPT应用中所涉数据既可能包含影响国家安全的数据,还可能包含涉密企业数据、个人隐私等。在数字政府建设过程中,政务处理以及行政执法流程中的政务数据[6],可能成为ChatGPT不当收集的对象,这些数据中不仅涉及政务信息,甚至包含有关国家安全的信息,一旦被泄漏将对国家安全造成严重威胁;公司员工利用ChatGPT办公时可能会无意提供公司机密信息,这些信息可能成为ChatGPT数据储备的一部分,为文本生成提供参照,若这些信息涉及商业秘密,将直接威胁公司经营;ChatGPT还可能违规收集用户并未授权的个人数据〔7],造成个人信息泄漏,严重侵犯用户隐私。

从技术阶段来考察,ChatGPT在数据收集阶段、分析阶段以及内容生成阶段,都存在着一定的数据安全问题。在数据收集阶段,ChatGPT可能出现不当收集数据的问题,例如个人用户在使用ChatGPT过程中,其上网记录、消费记录、行程数据等可能会被截取,这些数据可能成为ChatGPT不断训练和优化性能的基础。在数据分析阶段,ChatGPT的运行效果有赖海量数据的支持,数据规模越大、内容越齐全,就越有利于ChatGPT优化使用性能,但ChatGPT还未像人类一样具有缜密的逻辑分析能力,无法排除ChatGPT基于内部文本生成模型生成虚假信息的问题。在文本生成阶段,ChatGPT根据用户指令生成相应文本信息,若原数据中包含用户隐私或机密信息,而ChatGPT缺乏机密数据过滤功能,其提供的内容可能泄漏用户隐私,导致敏感数据被公开。

(二)生成虚假信息问题

根据ChatGPT的运行机理,其可能生成虚假信息。ChatGPT类生成式人工智能的生成内容来源于数据库,ChatGPT虽然具备对数据的学习、理解能力,但这是一种基于程序指令的机械学习,其生成内容不会超过数据库提供的数据范围,ChatGPT只能在数据库范围内进行运算与内容生成,数据库是否健全直接影响ChatGPT的内容生成质量。人类的内容输出既会受到逻辑推理能力制约,还会受到个人理论基础影响,甚至可能受到个人感性因素影响,因此,人类不同个体生成的内容具有发散性、主观性与多样性。区别于人类的个体化、差异性的内容生成模式,ChatGPT的内容生成在其技术框架下具有相对稳定的构造,其内容生成主要受到数据库内容的影响,当来源数据中包含虚假信息时,其生成内容中也可能产生虚假表达。即使数据全部真实,也无法排除ChatGPT基于内部文本生成模型生成虚假信息,这种情况在目前的技术路径下仍是无法避免的。当虚假信息被传播、扩散后,这些信息可能成为决策的佐证根据,导致用户形成错误决断。

当前,在ChatGPT的应用中已经出现了这类问题。当ChatGPT生成的内容中混入了虚假信息,这些信息一旦被发布或被用户采纳,则会给社会秩序和公民合法权益造成严重危害。以ChatGPT生成的虚假信息的类型不同,其危害可归纳为以下三个层面。其一,以国家法益为例,若ChatGPT生成的虚假信息有损国家、政府形象,引发民众信任危机,将导致国家法益遭受严重损害。其二,以社会法益为例,一些新闻媒体直接使用ChatGPT撰写相关新闻稿件,若稿件内容中混人了虚假信息,这些虚假信息被传播后将产生恶劣影响,引发社会舆情危机,对社会秩序造成严重危害。其三,以个人法益为例,有不法分子利用ChatGPT生成的虚假内容实施侮辱、诽谤、侵犯他人隐私等违法犯罪行为,还有用户误将ChatGPT生成的虚假信息当成真实内容,导致用户产生事实性错误,对其行为产生误导。

(三)知识产权争议问题

ChatGPT类生成式人工智能的应用对传统知识产权保护体系带来了巨大挑战。ChatGPT独特的文本生成模型主要基于对数据的爬取、提炼和整合,这一文本生成行为有别于人类的创作,其生成内容的过程是否侵犯了原数据作者的知识产权以及生成内容的知识产权归属问题都有待廓清。OpenAI公司曾提出与ChatGPT共同创作的内容归属于用户,但用户输人指令的行为能否被认定为人类对生成内容的介入还有待从法律层面予以确证。

随着ChatGPT类生成式人工智能技术的迭代升级,其所引发的知识产权争议问题还将继续泛化和深化,其中既涉及ChatGPT类生成式人工智能文本生成模式的技术认定问题,还涉及人工智能能否成为法律主体的争端。ChatGPT类生成式人工智能一旦获得法律主体地位,我们的知识产权保护体系要进行全面性调整,就目前的技术发展趋势来看,ChatGPT类生成式人工智能技术还远未达到强人工智能阶段,还不具备与人类思维相匹配的意识与能动性,因此,还不足以动摇人类的法律主体地位,但随着人工智能技术的不断革新,ChatGPT类生成式人工智能获得“创作”作品的能力时,传统的知识产权保护体系可能要全面调整。

四、ChatGPT类生成式人工智能的法律回应

针对ChatGPT引发的各类法律风险,多国表现出了谨慎的态度,积极制定相应法律法规对其进行引导与限制。如美国政府已经开始研究是否需要对ChatGPT等人工智能工具进行审查,意大利、德国监管机构已发布ChatGPT禁令,法国、爱尔兰、西班牙等国也开始考虑对AI聊天机器人采取更严格的监管。[8]《管理办法》及时将生成式人工智能纳入健康发展和规范应用轨道,以防范生成式人工智能可能产生的各类风险,但是,想要规范和引导ChatGPT类生成式人工智能这种新型技术应用形式,仅仅出台管理办法仍是不充分的。这类技术形式虽然隐藏巨大风险,但也蕴含着技术发展的新趋势、新契机,应将风险限定在可控的范围内,最大限度挖掘技术潜力。因此,我们需要正视人工智能技术在新阶段出现的新问题,以更加科学的法律方法进行治理,为ChatGPT类生成式人工智能的发展提供规范指引。

(一)数据保护:技术与安全的平衡

当前,人类社会几乎所有的行为、活动都可以被数字化,以个人数据安全为例,分散的单一数据可能无法对个体安全构成威胁,但是当技术对海量数据进行收集、整合、重组时,个体的形象和行动轨迹就会逐渐变得清晰和立体,形成大数据画像,由此出现侵犯个人隐私等问题。然而,我们不能因噎废食,放弃一切数据应用与开发。大数据时代,数据拥有无限价值,数据的价值在于流动性,法律对数据的治理必须考虑数据的动态流转需求。[9]由技术原理所决定,ChatGPT类生成式人工智能的发展必须依赖数据的支持,完全限制数据流动,无法满足未来人工智能技术的发展需求。鉴于此,对数据的保护必须平衡技术发展与数据安全的双重关系。

第一,在技术应用层面,优化ChatGPT算法模型与数据风险防控系统。ChatGPT拥有强大的算力,它以数据库为载体可以对数据进行无限加工、整合,可以对数据进行多维度演绎。在此技术路径下,与国家安全、商业机密、个人隐私等相关联的数据很有可能成为ChatGPT生成内容的一部分。对此,可从规范数据来源与补足技术漏洞两个层面解决。其一,规范数据来源路径,恪守用户知情同意原则,不能突破用户授权范围私自处理用户未授权数据。用户知情是用户同意的前提,只有确保用户充分、全面掌握被收集的数据内容,才能确保用户作出的同意是有效的。ChatGPT类生成式人工智能程序应向用户充分履行披露、告知义务,保障用户知情权,确保用户在使用程序时清晰知晓被收集数据的范围与信息风险。用户同意是ChatGPT类生成式人工智能启动数据收集等权限的依据,没有经过用户真实、有效的同意,程序不能擅自收集、使用用户数据。其二,完善数据过滤机制,对国家安全信息、商业机密、个人隐私设置更为严格的过滤与保护机制。这一保护机制的适用应适度前置化,即在数据收集阶段就启动。可根据数据类型设置差异化、分层化保护机制,例如个人信息与隐私的范围并不一致[10],对此应设置筛选机制,将隐私纳入更高级别保护范围。在数据使用、存储等阶段也应根据数据类型设置差异化保护机制。针对目前算法可能出现的数据泄漏等问题,应设置纠偏措施,纠偏举措一方面可通过优化程序设置来实现,另一方面还可引入人工纠偏措施,借助人工反馈机制,帮助ChatGPT提升剔除敏感数据的能力。

第二,在企业管理层面,生成式人工智能的研发企业要建立完善的数据合规制度,且对数据收集与使用坚持必要性原则。我国《管理办法》第七条根据《网络安全法》的内容精神,对生成式人工智能产品的预训练数据、优化训练数据来源的合法性提出了明确要求,数据合规应成为ChatGPT类生成式人工智能研发企业合规体系的重要组成部分。应构建覆盖企业事前、事中、事后各个层面的合规制度,形成全方位的合规防控体系。同时对数据收集与使用要以确保技术正常应用且满足用户数据最大安全为必要,将数据风险降至最低。

ChatGPT类生成式人工智能技术的研发企业要以我国当前法律法规为指引,在技术研发与使用阶段严格遵守法律规范,对不同类型的数据应设置不同的合规保护方案。对涉国家安全类数据,必须立足总体国家安全观,设置最严格的数据流动监管规则,从数据采集、分析到应用,对数据实行全过程性监管,特别是对跨境数据流动实行严格审核制度,一旦发现可能存在数据泄漏问题须及时冻结数据流动,防止数据进一步扩散。对企业数据的保护要结合企业经营类型、结构,设置不同的数据保护方案,ChatGPT在域外一些企业已经成为企业员工的办公辅助,但也出现了由于工作人员疏忽导致企业涉密数据上传、外泄等问题,对此,应根据企业的不同类型,对不同类型的数据设置区别保护制度,特别注意对核心技术、企业管理机密进行特别加密保护,未经特别授权不允许数据上传和收集。针对用户个人数据的收集与使用以满足程序正常使用为必要,不允许ChatGPT类生成式人工智能使用爬虫技术等过度收集用户数据,对用户隐私数据要进行特别处理,设置定期清除程序,防范技术攻击导致的数据泄漏。

第三,在法律规范层面,须及时完善相关法律法规。ChatGPT的运行模式使其功能定位接近于网络信息服务提供者,但与传统的网络服务提供者相比,ChatGPT具备更强大的功能与技术潜力。针对网络服务提供者的违法犯罪行为,我国《刑法》中有专门罪名作出规定,此外,我国还专门出台了《网络安全法》《个人信息保护法》《数据安全法》等法律法规健全对网络服务提供者的行为规范。然而,ChatGPT的技术结构与革新速率又与传统网络服务提供者存在较大差异,因此,针对ChatGPT类生成式人工智能我们有必要继续关注其技术发展走向,出台更贴合其技术特征的法律法规,及时通过完善立法的路径规范技术发展与应用。《生成式人工智能服务管理暂行办法》对ChatGPT类生成式人工智能的数据保护问题作出了专门规定,确立了对数据的保护立场,但该《管理办法》内容仍较宏大,具体性与可操作性都有待提升,需要相关部门进一步细化相关规定,增强对生成式人工智能发展的规范与指引。同时,生成式人工智能具有特殊的数据处理、应用形态,其对数据的开发更为复杂,相关立法部门要随时关注技术演化走向,防范新型数据侵权行为的发生。

(二)虚假信息的法律治理

《管理办法》中要求提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性。然而,当前的技术还无法解决ChatGPT提供虚假信息的问题,因为数据库存有海量数据信息,当前技术还无法筛查、确证每一条信息的真实性,且由ChatGPT的信息生成模型所决定,即使数据库信息全部真实也无法完全排除ChatGPT生成虚假信息的可能性。目前,只能通过技术改进的方式尽量控制与减少虚假信息的数量,例如OpenAI公司鼓励用户发现ChatGPT生成错误信息或无关信息时,通过快捷按钮予以反馈,OpenAI公司此举正是希望借助用户反馈的方式帮助公司人工筛查错误信息,便于公司不断完善信息筛查机制,控制生成内容的错误率。解决ChatGPT生成虚假信息的法律问题时,必须先明确这些虚假信息的生成并不是人为因素导致,而是由技术模型所决定。虚假信息的生成由多种技术因素导致,要求程序开发方、运营者、服务商在一切情形下都对ChatGPT生成内容的不法性承担法律责任不仅会影响技术创新,也有违法律公平精神。在当前的法律架构与ChatGPT技术发展阶段下,由ChatGPT承担虚假信息的法律责任并不适格,因为人工智能尚不具备法律主体性。鉴于此,可以为程序开发方、运营者、服务商设定合理注意义务,具体包括以下两个层面。一方面,在技术运行层面,要求在当前的技术条件下尽最大努力控制、剔除虚假信息,优化内容生成技术,将虚假信息的比例降至最低,不断予以技术改进,将其作为ChatGPT技术革新的重要方向。另一方面,程序开发方、运营者、服务商等相关主体应对信息的真实性作出风险提示,提示用户对ChatGPT生成信息的真实性予以重视和自行筛查,避免误导用户。若用户对信息的虚假性并不知情也无法知情的,对此引发的法律风险不能归咎于用户,因为用户并不具备对虚假信息作出专业判断的能力。针对虚假信息造成的损害,可由程序开发方、运营者、服务商等主体共建资金保障制度,例如强制ChatGPT类生成式人工智能购买专门的保险,当发生侵权纠纷时向被侵权方支付赔偿金。[11若程序方已尽到合理注意义务,用户明知生成信息为虚假信息,故意利用该信息进行违法犯罪活动的,该法律责任应由用户承担。

(三)知识产权争议的法律应对

ChatGPT类生成式人工智能的应用已经给知识产权保护体系带来了巨大冲击。在当前的技术发展阶段,其虽尚不足以彻底颠覆知识产权保护体系,但针对已经出现的知识产权争端,如ChatGPT的文本生成行为是否侵犯了原作者的权利以及生成内容的知识产权应归属于谁?我们需要从法律层面及时予以回应和规范。

第一,根据不同情形具体分析ChatGPT的文本生成行为是否侵犯了原作者权利。若ChatGPT在生成信息过程中不当泄漏他人隐私或商业秘密、国家秘密的,则ChatGPT开发方、运营者、服务商等相关主体可能面临法律惩处。若ChatGPT照搬照抄资料库的作品或者原文本、代码等受法律特殊保护的、未经权利人授权的数据的,也可能面临法律惩处。问题的关键在于需要进一步明确生成式人工智能在技术训练中“合理使用”的界限,我国当前《著作权法》没有对人工智能的数据挖掘、分析行为明确定性,在此情形下,可能会引发法律适用的争议。因此,该争议问题的解决有待相关法律法规或条例对“合理使用”作出明确规定,划定数据挖掘行为的合理界限。

第二,在当前的技术语境下,ChatGPT生成内容的知识产权应归属于使用者。首先,ChatGPT不能成为作者。有学者认为,ChatGPT对数据材料的“编排”已经满足著作权法“汇编作品”的标准,其生成文本是有独特价值的“筛选合并”,宜认可生成式人工智能生成物的作品性质,著作权法应放宽对“作者”的限制。[12]《科学》杂志发表声明不能接受ChatGPT作为论文作者[13],从目前ChatGPT类生成式人工智能技术的发展阶段来看,这一声明具有实质合理性。因为作品应具有独创性,由于ChatGPT生成的信息并不是由其独创完成,而是对数据库既有数据的加工、提炼,其只是依据算法对数据进行重组,未完成“创作”这一行为,其不应享有著作权。且我国当前的法律并未赋予人工智能主体地位,ChatGPT不符合法律主体要件。其次,ChatGPT研发者不能成为生成文本的作者。研发者赋予了ChatGPT文本生成功能,但是这一功能设计完成后,对其生成的内容“不能视为其设计的机械延伸”[14]。换言之,研发者完成了ChatGPT的技术模型,通过技术优化确保ChatGPT不断生成优质文本,但是研发者的贡献停留于技术设计层面,对模型所产生的文本不能再享有知识产权。最后,使用者可被视为ChatGPT生成文本的作者。ChatGPT的文本生成功能由用户(使用者)发出指令所触发,通过人机交互的方式完成文本生成。在文本生成过程中介人了使用者的指令或指引行为,使用者的行为预设了ChatGPT的文本内容,投入了智力劳动,因此,在当前的技术语境下由使用者享有ChatGPT生成文本的知识产权更具合理性。

五、结语

在当前的技术发展阶段,ChatGPT对数据仍只是重组、整合,随着技术发展,未来其可能会获得创作、创新能力,ChatGPT的法律主体地位可能也要被重新讨论和界定,彼时法律关系会变得更加复杂。法律法规要因应技术发展及时予以规范指引,对ChatGPT类生成式人工智能要重视监管,动态监督人工智能技术发展动向。针对不同类型、不同风险、不同应用领域的生成式人工智能,要制定分类化管理思路,技术应服务于社会,而非社会被动因应技术发展。

 

参考文献:

[1]裘雯涵.涉嫌数据泄露,意大利暂停ChatGPT[N].解放日报,2023-04-05.

[2]陈根.ChatGPT:读懂人工智能新纪元[M].北京:电子工业出版社,2023.

[3]朱光ha运行模式键技及未景新疆师大学学报社版)0234

[4]邓建国.概率与反馈:ChatGPT的智能原理与人机内容共创[J].南京社会科学,2023(3).

[5]陈永伟,超越ChatGPT:生成式AI的机遇、风险与挑战[J山东大学学报哲学社会科学版).2023(3.

[6]周佑勇.健全行政裁量基准的新使命新任务[J].行政法学研究,2023(1).

[7]王鹏飞.数据安全导向下企业刑事合规保护体系建构[J].天津师范大学报(社会科学版).2022(6.

[8]余继超.数据安全“拷问”ChatGPT类AI[N].国际金融报,2023-04-17.

[9]李振林,潘鑫媛,生成式人工智能背景下数据安全的刑法保护困境与应对—以ChatGPT为视角的展开[]犯罪研究,2023(2).

[10]欧元捷.论诉讼中个人信息的保护[J].齐鲁学刊,2023(5).

[11]周书环.聊天机器人的法律人格争议与播侵权研究基于Cha1T场景视J]南社科学20236

[12]唐林垚.具身伦理下ChatGPT的法律规制及中国路径[J].东方法学,2023(3).

[14]邓建鹏,朱成.ChatGPT模型的法律风险及应对之策[J新疆师范学报学社会科学版),2023(5)

0条评论
0 / 1000
蒲****媛
3文章数
0粉丝数
蒲****媛
3 文章 | 0 粉丝

【转载】生成式人工智能的应用、风险与法律回应 ——以 ChatGPT 为视角

2024-05-07 09:41:59
27
0

一、引言

2022年11月,美国人工智能研究实验室OpenAI开发的人工智能聊天机器人ChatGPTh-线超过的用户,成为史上用户量增长速度最快的应用程序。ChatGPT是生成式人工智能ArtificialInteligenceGeneratedContent,AIGC)取得的最新成果。根据我国国家网信办联合国家相关部门在2023年7月13日发布的《生成式人工智能服务管理暂行办法》(下称《管理办法》》的规定,生成式人工智能技术是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。ChatGPT是一种由人工智能技术驱动的自然语言处理工具,是生成式人工智能文本生成功能在当前的最佳演绎。

ChatGPT的出现不仅让生成式人工智能大放异彩,还深刻改变了人工智能技术的发展格局。不同于传统人工智能技术,以.ChatGPT为代表的生成式人工智能颠覆了人类对人工智能的认知,ChatGPT强大的自我学习能力和迭代升级速度,使其在语言翻译、文本撰写、代码编程、医学影像解读等领域均有出色表现。然而,随着ChatGPT的迅速普及,其引起的各类法律风险开始不断显现,如数据侵权、虚假信息、算法歧视、侵犯隐私等问题。鉴于此,一些国家开始限制甚至下架ChatGPT,意大利数据保护局通报ChatGPT出现非法收集和存储大量个人数据、泄露用户对话数据和支付信息等情况。[1]ChatGPT暴露的各类法律风险为我们敲响了警钟,若不及时对该类技术进行法律介入与规制,后果将难以设想。在此背景下,本文以ChatGPT的智能应用为切入点,对其产生的一些常见法律风险进行剖析,从法律视角提出应对路径,以期对ChatGPT类生成式人工智能的规范发展提供理论帮助。

二、ChatGPT类生成式人工智能的技术演化与应用

(一)ChatGPT的技术演化与迭代升级

ChatGPT由GPT-3孕育变化而产生。在ChatGPT问世前,OpenAI公司推出过GPT-1、GPT-2、GPT-3,其本质都是通过对海量数据的学习,依靠Transformer模型强大的拟合能力实现模型收GG-Ta生成预练模型称。

GPT-1只有1.17亿个参数,预训练数据量约5G,其采用大型书籍文本数据集进行无监督的预训练和有监督的模型微调,这一技术打破了传统自然语言处理(NaturalLanguage Process-ing,NLP)训练模型的局限性,取得了比基础Transformer模型更优的结果。[2]P11)紧接着,OpenAI推出了GPT-2,虽然其原理与GPT-1一致,但GPT-2的参数和预训练数据集已经分别达到了15亿和40G。GPT-2验证了随着模型容量和数据量的扩容,其性能还有继续优化的空间。在此基础上,OpenAI于2020年推出了GPT-3,GPT-3参数达到了1,750亿,预训练数据量更是达到了45TB,在一些具有一定难度的任务方面,例如撰写文章、编写代码等方面均有突出表现,ChatGPT被认为脱胎于GPT-3。

大型语言模型(LargeLanguageModel,,LLM)作为ChatGPT的基础及升级迭代的关键,依托海量数据储备,使ChatGPT获得强大学习能力。在GPT-3.5的模型架构中,通过“几万人工标注”的方式注入人类偏好,形成人类偏好数据,让模型通过自我学习了解人类偏好;继而训练一个反馈模型,由标注人员对原始模型输出答案进行人类偏好的排序;最后依托标注好的“人类偏好”数据,训练打分模型将人类偏好反馈给大型语言模型。[3]通过循环往复的反馈、打分,使得ChatGPT洞悉人类偏好,不断修正数据、反馈人类满意的答案。当前,ChatGPT已发展到GPT-4阶段,GPT-4拥有更大模型参数和预训练数据集,拥有更高智能性和准确度。可以预见,随着数据容量的不断扩容,算法的优化、算力的提升,ChatGPT还将持续迭代升级,且迭代升级的频率可能不断加快。伴随每一次技术升级,ChatGPT都将取得突破性革新,将人工智能应用带入一个全新阶段。

 

(二)ChatGPT类生成式人工智能的技术应用与展望

ChatGPT类生成式人工智能技术诞生之前,人类对人工智能的认识还停留在弱人工智能阶段,弱人工智能只能依据人类的指令完成简单的、初级的任务。ChatGPT的横空出世无疑颠覆了很多人对人工智能的认知,虽然ChatGPT还不是强人工智能,但它让人类对强人工智能的认识变得更加立体和饱满。此前,人类社会的技术变革带来的主要是物质生产形式的进步,而以ChatGPT为代表的生成式人工智能直接模拟人类思维,进行思想产出,甚至直接影响或改变人类的思维习惯与模式,这对人类社会的影响是前所未有的。以ChatGPT的应用为参照,其至少在以下维度带来了技术应用的深度革新。

1.主体维度:AI成为创作主体

生成式人工智能的内容创作主体为人工智能。互联网时代内容创作主体以专业生产内容典型。在生成式人工智能获得广泛应用前,这两类内容创作形式是互联网时代的主导,不管是PGC还是UGC,其内容生产者都是人,即以人为主体进行内容生产,而生成式人工智能的出现深刻改变了这一格局,内容创作主体由人变为人工智能。AI文本生成、视频生成、音频生成、代码生成等均在各领域实现了应用,引起网络热议的“AI孙燕姿”就是AI音频生成的应用。演绎歌曲的并不是歌手孙燕姿本人,而是由算法生成的音频。AI利用深度学习算法分析大量的孙燕姿音频数据,模拟出与孙燕姿声音高度相似的音频,这种音频足以达到以假乱真的程度。与之前的内容生成主体不同,AI已然替代自然人,成为创作主体。

与以人为主体的内容创作模式相比,人工智能创作主体具有多种优势。其一,人工智能具有创新性。一方面,通过训练模型及对大规模数据的学习,A1可在极短时间内掌握多领域理论知识,其可根据用户需求提供定制化服务,还可以根据创作语境、任务的不同随时调整创作内容,这是人类创作主体难以实现的。另一方面,AI可以摆脱人类创作规律,依托生成式人工智能的技术模型,AI可以进行大规模内容重组、建构与整合,打破人类既有创作思维的束缚,实现内容创新。随着数据的扩容,算法与算力的提升,生成式人工智能生成的内容质量甚至能在某些方面超越人类。其二,人工智能具有高效性。通过对大规模数据的学习,人工智能可以不断进行内容输出与生成,这种效率是人类无法比拟的。内容生成是一种创造性工作,需要创作者投入巨大的时间与精力,而人工智能利用强大的算法与算力可以在极短时间内实现内容生成。一项复杂内容的完成往往需要多个不同专业工作人员的密切协作,而人工智能可以“身兼数职”,甚至可以同时完成客户下达的多项复杂任务指令,理论上可以实现内容的无限生成,这是人类创作者难以实现的。其三,人工智能具有低成本性。尽管生成式人工智能系统的开发与数据库的建设需要投入大量资金,但是系统一旦投入运营,其能极大降低内容生成成本。由人类完成的内容生成需要投入较多人力、物力与财力,生成式人工智能可以根据用户指令立刻生成相应内容,极大降低内容制作成本。从商业应用角度而言,这一优势对企业具有极大吸引力。

2.技术维度:文本生成的高智能性在ChatGPT出现之前,科技公司也推出过类似的聊天机器人程序,例如微软公司曾推出的人工智能聊天机器人Tay、微软小冰,苹果公司推出的语音助手Siri,但此前的任何一款人工智能聊天程序都不如ChatGPT智能。以微软公司此前推出的人工智能聊天机器人Tay为例,Tay可以通过与人类聊天、交流,不断积累知识,提升理解能力,变得更加智能。然而,Tay上线还不到24小时,它就被“误导”和“教坏”了,在和人类交流的过程中,一些用户向Tay传输了不当思想和言论,导致Tay开始输出很多偏激性、歧视性言论,微软公司不得不迅速下架Tay。Tay的事例暴露出人工智能聊天机器人的技术瓶颈,即如何通过技术手段提升聊天机器人的智能性,避免其受到用户人为因素的过度干扰。与传统聊天机器人程序相比,ChatGPT更具智能性,具备了极高的类人属性,逻辑能力很强,甚至有一定的记忆能力,能和用户进行连续对话。ChatGPT的运行原理使得它能从与用户的互动与反馈中不断修正自己的回答,以不断提高其沟通的准确度和对话感。[4]甚至会让用户模糊地认为自己是在和人类对话。ChatGPT具备了更明显的交互属性,用户在使用ChatGPT时,不仅是单方面向ChatGPT传输信息、思想,也能通过ChatGPT的回应实现双向互动式交流,交互双方的地位更趋平等。ChatGPT的出现让人类对人工智能是否有意识的争论变得更加激烈,从当前的技术发展趋势来看,这一争论仍无定论。需要我们警惕的是,ChatGPT类生成式人工智能不再执念于“意识”的形成与塑造,而是通过人机互动逐渐引导人类的思考模式,用户和ChatGPT之间形成“输人指令一生成内容”的互动,生成的内容又会无形影响和指引人类的行为,使得人类的想象与探索限定于人工智能的预设中。就此而言,人工智能最终是否能产生与人类一样的意识似乎不再那么重要了,因为代替人类思考的人工智能在另一个维度似乎又有了“意识”。随着技术的迭代升级,ChatGPT对人类语言规律的破解与领悟能力还将继续优化,其生成文本的内容将更加具有智能性。

 

3.空间维度:应用场景的普遍化

以ChatGPT为代表的生成式人工智能不仅能出色完成传统人工智能的功能,还能实现自我学习、撰写论文、编写代码、开发游戏、制定商业计划书等任务,一些顶尖芯片公司已经开始将人工智能技术应用到芯片研发和生产中。优越的技术性能使得ChatGPT在多个领域大放异彩并被赋予极高期待。在智能客服领域,ChatGPT能根据对话语境提供用户所需答案,在提升服务用户质量的同时,可有效降低企业运营成本;在医疗领域,ChatGPT可有效提升智能诊疗的普及率,方便患者问诊;在教育领域,ChatGPT可为学生提供个性化辅导,极大充实教育资源;在法律领域,ChatGPT可提供优质的检索服务、法律文书撰写服务、辅助法律咨询等。

除了传统空间的技术应用外,ChatGPT凭借强大的算力、先进的算法以及宏大的数据被认为在元宇宙领域必将大有可为,为元宇宙的实现提供了强大的技术支撑。元宇宙的实现需要数字智能技术的高度发展,在ChatGPT技术诞生之前,人类对元宇宙的认识多停留于想象与理论探索阶段,而ChatGPT技术的出现,使得一些支撑元宇宙的技术要素得以实现,例如借助生成式人工智能可完成元宇宙3D人物和物品形象的生成,这将极大节省成本[5],可以说,生成式人工智能为元宇宙的实现提供了技术路径,它的出现让元宇宙不再那么缥缈。除了为元宇宙提供技术支持外,ChatGPT还将在大数据、区块链等前沿科技领域大显身手。

 

三、ChatGPT类生成式人工智能的法律风险

ChatGPT的出现将人工智能的发展带入新维度,其展现的功能前所未有地强大,但是也带来了各种风险,例如数据违规,输出错误、虚假甚至不法信息,侵犯知识产权,引发学术不端、算法歧视等问题,科学界也对ChatGPT的迭代升级速度表示了担忧,认为这是一场“失控的竞赛”,ChatGPT可能会把人类带入充满风险的未知领域。结合ChatGPT目前暴露出的技术风险,本文选定三类常见法律风险予以具体分析。

(一)数据安全问题

ChatGPT的迭代升级离不开海量数据的支持。数据是ChatGPT的技术前提,没有数据作为预训练保障,ChatGPT的功能无法实现。ChatGPT的技术架构决定了其迭代升级的过程必须不断扩容各类新数据,因此,ChatGPT会最大限度收集各类数据,以不断提升其使用性能。以数据来源为参照,ChatGPT使用的数据既可能是公司购买的第三方平台数据,还可能是ChatGPT自行采集、获取或爬取的数据,这两种数据来源路径都可能存在数据安全隐患。其一,第三方平台的数据可能存在内容侵权、权属不清等问题,即这些数据的内容或来源本身缺乏正当性,ChatGPT使用这些数据进行训练或内容生成,容易引发数据侵权。其二,ChatGPT在应用过程中还存在自行采集数据、爬取数据等数据收集行为,这些行为很可能突破了用户的知情同意原则,继而引发数据泄漏、侵犯隐私等争议。

以数据内容为参照,ChatGPT应用中所涉数据既可能包含影响国家安全的数据,还可能包含涉密企业数据、个人隐私等。在数字政府建设过程中,政务处理以及行政执法流程中的政务数据[6],可能成为ChatGPT不当收集的对象,这些数据中不仅涉及政务信息,甚至包含有关国家安全的信息,一旦被泄漏将对国家安全造成严重威胁;公司员工利用ChatGPT办公时可能会无意提供公司机密信息,这些信息可能成为ChatGPT数据储备的一部分,为文本生成提供参照,若这些信息涉及商业秘密,将直接威胁公司经营;ChatGPT还可能违规收集用户并未授权的个人数据〔7],造成个人信息泄漏,严重侵犯用户隐私。

从技术阶段来考察,ChatGPT在数据收集阶段、分析阶段以及内容生成阶段,都存在着一定的数据安全问题。在数据收集阶段,ChatGPT可能出现不当收集数据的问题,例如个人用户在使用ChatGPT过程中,其上网记录、消费记录、行程数据等可能会被截取,这些数据可能成为ChatGPT不断训练和优化性能的基础。在数据分析阶段,ChatGPT的运行效果有赖海量数据的支持,数据规模越大、内容越齐全,就越有利于ChatGPT优化使用性能,但ChatGPT还未像人类一样具有缜密的逻辑分析能力,无法排除ChatGPT基于内部文本生成模型生成虚假信息的问题。在文本生成阶段,ChatGPT根据用户指令生成相应文本信息,若原数据中包含用户隐私或机密信息,而ChatGPT缺乏机密数据过滤功能,其提供的内容可能泄漏用户隐私,导致敏感数据被公开。

(二)生成虚假信息问题

根据ChatGPT的运行机理,其可能生成虚假信息。ChatGPT类生成式人工智能的生成内容来源于数据库,ChatGPT虽然具备对数据的学习、理解能力,但这是一种基于程序指令的机械学习,其生成内容不会超过数据库提供的数据范围,ChatGPT只能在数据库范围内进行运算与内容生成,数据库是否健全直接影响ChatGPT的内容生成质量。人类的内容输出既会受到逻辑推理能力制约,还会受到个人理论基础影响,甚至可能受到个人感性因素影响,因此,人类不同个体生成的内容具有发散性、主观性与多样性。区别于人类的个体化、差异性的内容生成模式,ChatGPT的内容生成在其技术框架下具有相对稳定的构造,其内容生成主要受到数据库内容的影响,当来源数据中包含虚假信息时,其生成内容中也可能产生虚假表达。即使数据全部真实,也无法排除ChatGPT基于内部文本生成模型生成虚假信息,这种情况在目前的技术路径下仍是无法避免的。当虚假信息被传播、扩散后,这些信息可能成为决策的佐证根据,导致用户形成错误决断。

当前,在ChatGPT的应用中已经出现了这类问题。当ChatGPT生成的内容中混入了虚假信息,这些信息一旦被发布或被用户采纳,则会给社会秩序和公民合法权益造成严重危害。以ChatGPT生成的虚假信息的类型不同,其危害可归纳为以下三个层面。其一,以国家法益为例,若ChatGPT生成的虚假信息有损国家、政府形象,引发民众信任危机,将导致国家法益遭受严重损害。其二,以社会法益为例,一些新闻媒体直接使用ChatGPT撰写相关新闻稿件,若稿件内容中混人了虚假信息,这些虚假信息被传播后将产生恶劣影响,引发社会舆情危机,对社会秩序造成严重危害。其三,以个人法益为例,有不法分子利用ChatGPT生成的虚假内容实施侮辱、诽谤、侵犯他人隐私等违法犯罪行为,还有用户误将ChatGPT生成的虚假信息当成真实内容,导致用户产生事实性错误,对其行为产生误导。

(三)知识产权争议问题

ChatGPT类生成式人工智能的应用对传统知识产权保护体系带来了巨大挑战。ChatGPT独特的文本生成模型主要基于对数据的爬取、提炼和整合,这一文本生成行为有别于人类的创作,其生成内容的过程是否侵犯了原数据作者的知识产权以及生成内容的知识产权归属问题都有待廓清。OpenAI公司曾提出与ChatGPT共同创作的内容归属于用户,但用户输人指令的行为能否被认定为人类对生成内容的介入还有待从法律层面予以确证。

随着ChatGPT类生成式人工智能技术的迭代升级,其所引发的知识产权争议问题还将继续泛化和深化,其中既涉及ChatGPT类生成式人工智能文本生成模式的技术认定问题,还涉及人工智能能否成为法律主体的争端。ChatGPT类生成式人工智能一旦获得法律主体地位,我们的知识产权保护体系要进行全面性调整,就目前的技术发展趋势来看,ChatGPT类生成式人工智能技术还远未达到强人工智能阶段,还不具备与人类思维相匹配的意识与能动性,因此,还不足以动摇人类的法律主体地位,但随着人工智能技术的不断革新,ChatGPT类生成式人工智能获得“创作”作品的能力时,传统的知识产权保护体系可能要全面调整。

四、ChatGPT类生成式人工智能的法律回应

针对ChatGPT引发的各类法律风险,多国表现出了谨慎的态度,积极制定相应法律法规对其进行引导与限制。如美国政府已经开始研究是否需要对ChatGPT等人工智能工具进行审查,意大利、德国监管机构已发布ChatGPT禁令,法国、爱尔兰、西班牙等国也开始考虑对AI聊天机器人采取更严格的监管。[8]《管理办法》及时将生成式人工智能纳入健康发展和规范应用轨道,以防范生成式人工智能可能产生的各类风险,但是,想要规范和引导ChatGPT类生成式人工智能这种新型技术应用形式,仅仅出台管理办法仍是不充分的。这类技术形式虽然隐藏巨大风险,但也蕴含着技术发展的新趋势、新契机,应将风险限定在可控的范围内,最大限度挖掘技术潜力。因此,我们需要正视人工智能技术在新阶段出现的新问题,以更加科学的法律方法进行治理,为ChatGPT类生成式人工智能的发展提供规范指引。

(一)数据保护:技术与安全的平衡

当前,人类社会几乎所有的行为、活动都可以被数字化,以个人数据安全为例,分散的单一数据可能无法对个体安全构成威胁,但是当技术对海量数据进行收集、整合、重组时,个体的形象和行动轨迹就会逐渐变得清晰和立体,形成大数据画像,由此出现侵犯个人隐私等问题。然而,我们不能因噎废食,放弃一切数据应用与开发。大数据时代,数据拥有无限价值,数据的价值在于流动性,法律对数据的治理必须考虑数据的动态流转需求。[9]由技术原理所决定,ChatGPT类生成式人工智能的发展必须依赖数据的支持,完全限制数据流动,无法满足未来人工智能技术的发展需求。鉴于此,对数据的保护必须平衡技术发展与数据安全的双重关系。

第一,在技术应用层面,优化ChatGPT算法模型与数据风险防控系统。ChatGPT拥有强大的算力,它以数据库为载体可以对数据进行无限加工、整合,可以对数据进行多维度演绎。在此技术路径下,与国家安全、商业机密、个人隐私等相关联的数据很有可能成为ChatGPT生成内容的一部分。对此,可从规范数据来源与补足技术漏洞两个层面解决。其一,规范数据来源路径,恪守用户知情同意原则,不能突破用户授权范围私自处理用户未授权数据。用户知情是用户同意的前提,只有确保用户充分、全面掌握被收集的数据内容,才能确保用户作出的同意是有效的。ChatGPT类生成式人工智能程序应向用户充分履行披露、告知义务,保障用户知情权,确保用户在使用程序时清晰知晓被收集数据的范围与信息风险。用户同意是ChatGPT类生成式人工智能启动数据收集等权限的依据,没有经过用户真实、有效的同意,程序不能擅自收集、使用用户数据。其二,完善数据过滤机制,对国家安全信息、商业机密、个人隐私设置更为严格的过滤与保护机制。这一保护机制的适用应适度前置化,即在数据收集阶段就启动。可根据数据类型设置差异化、分层化保护机制,例如个人信息与隐私的范围并不一致[10],对此应设置筛选机制,将隐私纳入更高级别保护范围。在数据使用、存储等阶段也应根据数据类型设置差异化保护机制。针对目前算法可能出现的数据泄漏等问题,应设置纠偏措施,纠偏举措一方面可通过优化程序设置来实现,另一方面还可引入人工纠偏措施,借助人工反馈机制,帮助ChatGPT提升剔除敏感数据的能力。

第二,在企业管理层面,生成式人工智能的研发企业要建立完善的数据合规制度,且对数据收集与使用坚持必要性原则。我国《管理办法》第七条根据《网络安全法》的内容精神,对生成式人工智能产品的预训练数据、优化训练数据来源的合法性提出了明确要求,数据合规应成为ChatGPT类生成式人工智能研发企业合规体系的重要组成部分。应构建覆盖企业事前、事中、事后各个层面的合规制度,形成全方位的合规防控体系。同时对数据收集与使用要以确保技术正常应用且满足用户数据最大安全为必要,将数据风险降至最低。

ChatGPT类生成式人工智能技术的研发企业要以我国当前法律法规为指引,在技术研发与使用阶段严格遵守法律规范,对不同类型的数据应设置不同的合规保护方案。对涉国家安全类数据,必须立足总体国家安全观,设置最严格的数据流动监管规则,从数据采集、分析到应用,对数据实行全过程性监管,特别是对跨境数据流动实行严格审核制度,一旦发现可能存在数据泄漏问题须及时冻结数据流动,防止数据进一步扩散。对企业数据的保护要结合企业经营类型、结构,设置不同的数据保护方案,ChatGPT在域外一些企业已经成为企业员工的办公辅助,但也出现了由于工作人员疏忽导致企业涉密数据上传、外泄等问题,对此,应根据企业的不同类型,对不同类型的数据设置区别保护制度,特别注意对核心技术、企业管理机密进行特别加密保护,未经特别授权不允许数据上传和收集。针对用户个人数据的收集与使用以满足程序正常使用为必要,不允许ChatGPT类生成式人工智能使用爬虫技术等过度收集用户数据,对用户隐私数据要进行特别处理,设置定期清除程序,防范技术攻击导致的数据泄漏。

第三,在法律规范层面,须及时完善相关法律法规。ChatGPT的运行模式使其功能定位接近于网络信息服务提供者,但与传统的网络服务提供者相比,ChatGPT具备更强大的功能与技术潜力。针对网络服务提供者的违法犯罪行为,我国《刑法》中有专门罪名作出规定,此外,我国还专门出台了《网络安全法》《个人信息保护法》《数据安全法》等法律法规健全对网络服务提供者的行为规范。然而,ChatGPT的技术结构与革新速率又与传统网络服务提供者存在较大差异,因此,针对ChatGPT类生成式人工智能我们有必要继续关注其技术发展走向,出台更贴合其技术特征的法律法规,及时通过完善立法的路径规范技术发展与应用。《生成式人工智能服务管理暂行办法》对ChatGPT类生成式人工智能的数据保护问题作出了专门规定,确立了对数据的保护立场,但该《管理办法》内容仍较宏大,具体性与可操作性都有待提升,需要相关部门进一步细化相关规定,增强对生成式人工智能发展的规范与指引。同时,生成式人工智能具有特殊的数据处理、应用形态,其对数据的开发更为复杂,相关立法部门要随时关注技术演化走向,防范新型数据侵权行为的发生。

(二)虚假信息的法律治理

《管理办法》中要求提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性。然而,当前的技术还无法解决ChatGPT提供虚假信息的问题,因为数据库存有海量数据信息,当前技术还无法筛查、确证每一条信息的真实性,且由ChatGPT的信息生成模型所决定,即使数据库信息全部真实也无法完全排除ChatGPT生成虚假信息的可能性。目前,只能通过技术改进的方式尽量控制与减少虚假信息的数量,例如OpenAI公司鼓励用户发现ChatGPT生成错误信息或无关信息时,通过快捷按钮予以反馈,OpenAI公司此举正是希望借助用户反馈的方式帮助公司人工筛查错误信息,便于公司不断完善信息筛查机制,控制生成内容的错误率。解决ChatGPT生成虚假信息的法律问题时,必须先明确这些虚假信息的生成并不是人为因素导致,而是由技术模型所决定。虚假信息的生成由多种技术因素导致,要求程序开发方、运营者、服务商在一切情形下都对ChatGPT生成内容的不法性承担法律责任不仅会影响技术创新,也有违法律公平精神。在当前的法律架构与ChatGPT技术发展阶段下,由ChatGPT承担虚假信息的法律责任并不适格,因为人工智能尚不具备法律主体性。鉴于此,可以为程序开发方、运营者、服务商设定合理注意义务,具体包括以下两个层面。一方面,在技术运行层面,要求在当前的技术条件下尽最大努力控制、剔除虚假信息,优化内容生成技术,将虚假信息的比例降至最低,不断予以技术改进,将其作为ChatGPT技术革新的重要方向。另一方面,程序开发方、运营者、服务商等相关主体应对信息的真实性作出风险提示,提示用户对ChatGPT生成信息的真实性予以重视和自行筛查,避免误导用户。若用户对信息的虚假性并不知情也无法知情的,对此引发的法律风险不能归咎于用户,因为用户并不具备对虚假信息作出专业判断的能力。针对虚假信息造成的损害,可由程序开发方、运营者、服务商等主体共建资金保障制度,例如强制ChatGPT类生成式人工智能购买专门的保险,当发生侵权纠纷时向被侵权方支付赔偿金。[11若程序方已尽到合理注意义务,用户明知生成信息为虚假信息,故意利用该信息进行违法犯罪活动的,该法律责任应由用户承担。

(三)知识产权争议的法律应对

ChatGPT类生成式人工智能的应用已经给知识产权保护体系带来了巨大冲击。在当前的技术发展阶段,其虽尚不足以彻底颠覆知识产权保护体系,但针对已经出现的知识产权争端,如ChatGPT的文本生成行为是否侵犯了原作者的权利以及生成内容的知识产权应归属于谁?我们需要从法律层面及时予以回应和规范。

第一,根据不同情形具体分析ChatGPT的文本生成行为是否侵犯了原作者权利。若ChatGPT在生成信息过程中不当泄漏他人隐私或商业秘密、国家秘密的,则ChatGPT开发方、运营者、服务商等相关主体可能面临法律惩处。若ChatGPT照搬照抄资料库的作品或者原文本、代码等受法律特殊保护的、未经权利人授权的数据的,也可能面临法律惩处。问题的关键在于需要进一步明确生成式人工智能在技术训练中“合理使用”的界限,我国当前《著作权法》没有对人工智能的数据挖掘、分析行为明确定性,在此情形下,可能会引发法律适用的争议。因此,该争议问题的解决有待相关法律法规或条例对“合理使用”作出明确规定,划定数据挖掘行为的合理界限。

第二,在当前的技术语境下,ChatGPT生成内容的知识产权应归属于使用者。首先,ChatGPT不能成为作者。有学者认为,ChatGPT对数据材料的“编排”已经满足著作权法“汇编作品”的标准,其生成文本是有独特价值的“筛选合并”,宜认可生成式人工智能生成物的作品性质,著作权法应放宽对“作者”的限制。[12]《科学》杂志发表声明不能接受ChatGPT作为论文作者[13],从目前ChatGPT类生成式人工智能技术的发展阶段来看,这一声明具有实质合理性。因为作品应具有独创性,由于ChatGPT生成的信息并不是由其独创完成,而是对数据库既有数据的加工、提炼,其只是依据算法对数据进行重组,未完成“创作”这一行为,其不应享有著作权。且我国当前的法律并未赋予人工智能主体地位,ChatGPT不符合法律主体要件。其次,ChatGPT研发者不能成为生成文本的作者。研发者赋予了ChatGPT文本生成功能,但是这一功能设计完成后,对其生成的内容“不能视为其设计的机械延伸”[14]。换言之,研发者完成了ChatGPT的技术模型,通过技术优化确保ChatGPT不断生成优质文本,但是研发者的贡献停留于技术设计层面,对模型所产生的文本不能再享有知识产权。最后,使用者可被视为ChatGPT生成文本的作者。ChatGPT的文本生成功能由用户(使用者)发出指令所触发,通过人机交互的方式完成文本生成。在文本生成过程中介人了使用者的指令或指引行为,使用者的行为预设了ChatGPT的文本内容,投入了智力劳动,因此,在当前的技术语境下由使用者享有ChatGPT生成文本的知识产权更具合理性。

五、结语

在当前的技术发展阶段,ChatGPT对数据仍只是重组、整合,随着技术发展,未来其可能会获得创作、创新能力,ChatGPT的法律主体地位可能也要被重新讨论和界定,彼时法律关系会变得更加复杂。法律法规要因应技术发展及时予以规范指引,对ChatGPT类生成式人工智能要重视监管,动态监督人工智能技术发展动向。针对不同类型、不同风险、不同应用领域的生成式人工智能,要制定分类化管理思路,技术应服务于社会,而非社会被动因应技术发展。

 

参考文献:

[1]裘雯涵.涉嫌数据泄露,意大利暂停ChatGPT[N].解放日报,2023-04-05.

[2]陈根.ChatGPT:读懂人工智能新纪元[M].北京:电子工业出版社,2023.

[3]朱光ha运行模式键技及未景新疆师大学学报社版)0234

[4]邓建国.概率与反馈:ChatGPT的智能原理与人机内容共创[J].南京社会科学,2023(3).

[5]陈永伟,超越ChatGPT:生成式AI的机遇、风险与挑战[J山东大学学报哲学社会科学版).2023(3.

[6]周佑勇.健全行政裁量基准的新使命新任务[J].行政法学研究,2023(1).

[7]王鹏飞.数据安全导向下企业刑事合规保护体系建构[J].天津师范大学报(社会科学版).2022(6.

[8]余继超.数据安全“拷问”ChatGPT类AI[N].国际金融报,2023-04-17.

[9]李振林,潘鑫媛,生成式人工智能背景下数据安全的刑法保护困境与应对—以ChatGPT为视角的展开[]犯罪研究,2023(2).

[10]欧元捷.论诉讼中个人信息的保护[J].齐鲁学刊,2023(5).

[11]周书环.聊天机器人的法律人格争议与播侵权研究基于Cha1T场景视J]南社科学20236

[12]唐林垚.具身伦理下ChatGPT的法律规制及中国路径[J].东方法学,2023(3).

[14]邓建鹏,朱成.ChatGPT模型的法律风险及应对之策[J新疆师范学报学社会科学版),2023(5)

文章来自个人专栏
科技论文
3 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0