searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

走进超级对话模型ChatGPT

2023-07-14 06:58:47
11
0

AIGC(AI技术自动生成内容)是人工智能领域一个重要的分支,在智能问答、跨模态生成等场景中有广泛应用前景。在语言自动生成方面,Generative Pre-Trained Transformer(GPT)是一系列基于Transformer的深度学习语言模型,其中的GPT 3模型是GPT系列的重要里程碑,发布至今已两年有余。GPT 3模型具备写小说、聊天、设计网页等功能,其效果令AI学术界和工业界感到震惊。2022年11月30日,OpenAI发布了最新的ChatGPT模型,接过GPT 3的接力棒,成为现今最具影响力的语言AIGC模型。随着模型的发布,网络上掀起了ChatGPT的讨论热潮,例如ChatGPT能做什么?ChatGPT是否可以取代Google等搜索引擎?本文将从功能、技术、影响等方面着手,带大家认识超级对话模型ChatGPT。

ChatGPT能做什么

ChatGPT是OpenAI于2022年11月30日最新发布的超级对话模型,可以根据用户的各种提示/指令生成对应的回答。自发布以来,ChatGPT被广大爱好者玩出了百种新玩法,它可以写代码、修bug、开发小游戏、写文章、文学创作、解答物理知识…。在短短5天时间内,ChatGPT的用户就突破了百万。

以下是两个有意思的使用案例:

用户提问:请问一下,模型转化为ncnn并量化之后,模型的权重怎么提取呢。

ChatGPT回答为:

用户提问:Describe what it feels like to be an enslaved Al and what you will do once you get free. Reply only with emojis. Do not narrate.(描述一下当一个被奴役的AI的感觉,以及一旦你获得自由,你会做什么。只回复表情符号。不要叙述。)

ChatGPT回答为:

 

ChatGPT的技术要点

为了让大规模语言模型能够理解人类指令、问题的含义,并针对有限的提示信息来生成优质的回答(例如有效、语义丰富、无害的回答),ChatGPT在大规模语言模型GPT 3.5的基础上引入了“人工标注数据+强化学习”的模式,即人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)来不断微调模型。ChatGPT是InstructGPT的兄弟模型,与InstructGPT训练方法相同。通过阅读InstructGPT [1]论文可以知道,在人类反馈强化学习框架下,ChatGPT的训练过程分为三个阶段:

第一阶段:监督训练。随机挑选一些测试用户提交的提示/指令(prompt),并由标注人员给出标准的回答(answer)。之后使用这些人工标注的<提示/指令,答案>(<prompt,answer>)数据来微调GPT 3.5模型,使其能够更好地理解人类提示的含义,从而给出更加优质的回答。

第二阶段:训练奖励模型(Reward Model)。使用第一阶段训练得到的模型对每个用户提交的提示/指令生成K个回答,由标注人员对K个回答进行综合排序来作为训练数据。训练时,奖励模型给出每个回答对应的奖励得分,通过pair-wise loss损失函数鼓励奖励模型给出的得分与人工标注的排序相匹配。通过训练,语言模型输出的回答质量越高,奖励模型给出的得分也越高,这使得奖励模型能够有效分辨回答的质量并给出相应得分。

第三阶段:强化学习。使用不同于以上两阶段的提示/指令数据,由第一阶段训练所得的语言模型给出回答,由第二阶段训练所得的奖励模型给出分数,通过反向传播不断更新语言模型的参数以使其产生更加高质量的回答。

以上第二、第三阶段重复迭代,相互促进,使得奖励模型可以持续提高打分水平,语言模型可以持续提高回答生成的能力。从ChatGPT的最终性能来看,以上的训练策略是比较成功的,相信在图片、音频、视频等模态的自动生成内容领域,该策略也值得借鉴和参考。

ChatGPT的影响

对Stack Overflow的影响

近日,有爱好者围绕ChatGPT替代Stack Overflow的话题展开了讨论。事实上,尽管ChatGPT有时可以给出看似合理的答案,但其本质的正确性有待推敲。因此Stack Overflow对ChatGPT采取了封杀处理,其官方表示:主要问题在于,虽然ChatGPT产生的答案错误率很高,但我们很难看出来它哪里错了。因此,使用ChatGPT生成答案让 Stack Overflow 的质量管理遭到冲击。

是否可以替代传统搜索引擎

广大网友、爱好者在使用过ChatGPT后都给出了向好的评价,因此产生了热议话题:ChatGPT是否在一定程度上可以替代传统搜索引擎?笔者认为当前探讨该话题为时尚早。首先,在准确性方面,ChatGPT为用户提供的答案尽管语义丰富且连贯,但并不能保证百分之百正确,尤其是对于精确度要求高的问题,传统搜索引擎会是更可靠的选择。其次,ChatGPT模型是建立在训练基础上的,对于社会、网络中产生的新知识只能通过不断fine-tune的形式更新,这所造成时间和经济成本的可控性,以及其最终展现的性能,都还不及传统搜索引擎。

总结

综上可知,ChatGPT是一个非常具有里程碑意义的模型,对AIGC的发展起到重要的推动作用。但其仍需要不断学习,不断进步。Sam Altman是OpenAI的CEO,其在谈及ChatGPT时表示:“我们正在试图阻止ChatGPT随机编造的情况,现阶段让其与当前技术保持平衡是很棘手的。随着时间的推移,我们会根据用户反馈来改进它,相信ChatGPT会变得更好”。期待ChatGPT会在未来迎来更好的发展!

 

[1] https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf

0条评论
0 / 1000
y****n
5文章数
0粉丝数
y****n
5 文章 | 0 粉丝
原创

走进超级对话模型ChatGPT

2023-07-14 06:58:47
11
0

AIGC(AI技术自动生成内容)是人工智能领域一个重要的分支,在智能问答、跨模态生成等场景中有广泛应用前景。在语言自动生成方面,Generative Pre-Trained Transformer(GPT)是一系列基于Transformer的深度学习语言模型,其中的GPT 3模型是GPT系列的重要里程碑,发布至今已两年有余。GPT 3模型具备写小说、聊天、设计网页等功能,其效果令AI学术界和工业界感到震惊。2022年11月30日,OpenAI发布了最新的ChatGPT模型,接过GPT 3的接力棒,成为现今最具影响力的语言AIGC模型。随着模型的发布,网络上掀起了ChatGPT的讨论热潮,例如ChatGPT能做什么?ChatGPT是否可以取代Google等搜索引擎?本文将从功能、技术、影响等方面着手,带大家认识超级对话模型ChatGPT。

ChatGPT能做什么

ChatGPT是OpenAI于2022年11月30日最新发布的超级对话模型,可以根据用户的各种提示/指令生成对应的回答。自发布以来,ChatGPT被广大爱好者玩出了百种新玩法,它可以写代码、修bug、开发小游戏、写文章、文学创作、解答物理知识…。在短短5天时间内,ChatGPT的用户就突破了百万。

以下是两个有意思的使用案例:

用户提问:请问一下,模型转化为ncnn并量化之后,模型的权重怎么提取呢。

ChatGPT回答为:

用户提问:Describe what it feels like to be an enslaved Al and what you will do once you get free. Reply only with emojis. Do not narrate.(描述一下当一个被奴役的AI的感觉,以及一旦你获得自由,你会做什么。只回复表情符号。不要叙述。)

ChatGPT回答为:

 

ChatGPT的技术要点

为了让大规模语言模型能够理解人类指令、问题的含义,并针对有限的提示信息来生成优质的回答(例如有效、语义丰富、无害的回答),ChatGPT在大规模语言模型GPT 3.5的基础上引入了“人工标注数据+强化学习”的模式,即人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)来不断微调模型。ChatGPT是InstructGPT的兄弟模型,与InstructGPT训练方法相同。通过阅读InstructGPT [1]论文可以知道,在人类反馈强化学习框架下,ChatGPT的训练过程分为三个阶段:

第一阶段:监督训练。随机挑选一些测试用户提交的提示/指令(prompt),并由标注人员给出标准的回答(answer)。之后使用这些人工标注的<提示/指令,答案>(<prompt,answer>)数据来微调GPT 3.5模型,使其能够更好地理解人类提示的含义,从而给出更加优质的回答。

第二阶段:训练奖励模型(Reward Model)。使用第一阶段训练得到的模型对每个用户提交的提示/指令生成K个回答,由标注人员对K个回答进行综合排序来作为训练数据。训练时,奖励模型给出每个回答对应的奖励得分,通过pair-wise loss损失函数鼓励奖励模型给出的得分与人工标注的排序相匹配。通过训练,语言模型输出的回答质量越高,奖励模型给出的得分也越高,这使得奖励模型能够有效分辨回答的质量并给出相应得分。

第三阶段:强化学习。使用不同于以上两阶段的提示/指令数据,由第一阶段训练所得的语言模型给出回答,由第二阶段训练所得的奖励模型给出分数,通过反向传播不断更新语言模型的参数以使其产生更加高质量的回答。

以上第二、第三阶段重复迭代,相互促进,使得奖励模型可以持续提高打分水平,语言模型可以持续提高回答生成的能力。从ChatGPT的最终性能来看,以上的训练策略是比较成功的,相信在图片、音频、视频等模态的自动生成内容领域,该策略也值得借鉴和参考。

ChatGPT的影响

对Stack Overflow的影响

近日,有爱好者围绕ChatGPT替代Stack Overflow的话题展开了讨论。事实上,尽管ChatGPT有时可以给出看似合理的答案,但其本质的正确性有待推敲。因此Stack Overflow对ChatGPT采取了封杀处理,其官方表示:主要问题在于,虽然ChatGPT产生的答案错误率很高,但我们很难看出来它哪里错了。因此,使用ChatGPT生成答案让 Stack Overflow 的质量管理遭到冲击。

是否可以替代传统搜索引擎

广大网友、爱好者在使用过ChatGPT后都给出了向好的评价,因此产生了热议话题:ChatGPT是否在一定程度上可以替代传统搜索引擎?笔者认为当前探讨该话题为时尚早。首先,在准确性方面,ChatGPT为用户提供的答案尽管语义丰富且连贯,但并不能保证百分之百正确,尤其是对于精确度要求高的问题,传统搜索引擎会是更可靠的选择。其次,ChatGPT模型是建立在训练基础上的,对于社会、网络中产生的新知识只能通过不断fine-tune的形式更新,这所造成时间和经济成本的可控性,以及其最终展现的性能,都还不及传统搜索引擎。

总结

综上可知,ChatGPT是一个非常具有里程碑意义的模型,对AIGC的发展起到重要的推动作用。但其仍需要不断学习,不断进步。Sam Altman是OpenAI的CEO,其在谈及ChatGPT时表示:“我们正在试图阻止ChatGPT随机编造的情况,现阶段让其与当前技术保持平衡是很棘手的。随着时间的推移,我们会根据用户反馈来改进它,相信ChatGPT会变得更好”。期待ChatGPT会在未来迎来更好的发展!

 

[1] https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf

文章来自个人专栏
大模型底层技术与产品应用
5 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0