背景:
还记得周志华西瓜书中引言中的一段:“傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞,嗯,明天又是一个好天气.走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,一边满心期待着皮薄肉厚瓤甜的爽落感,一边愉快地想着,这学期狠下了工夫,基础概念弄得清清楚楚,算法作业也是信手拈来,这门课成绩一定差不了!”,作者通过这段描写,抽象出西瓜的关键特征,根蒂蜷缩,青绿,声音浊响,告诉初学者们,机器学习中特征的概念。每个机器学习的从业者也一定都是从简单的特征入手,慢慢进入人工智能的大门。
那时候所谓的特征,包含人为的设计与经验总结,多数分类器也都包含着数学证明以及良好的解释性,数值大小即可表示特征的重要与否。而恰恰是同时代,深度神经网络因为不能很好的解释以及复现,在投稿时多被诟病,实验是否是碰巧得到优异结果。这段时间被称为神经网络的寒冬。 从相关信息摘引可以看到:
“LeCun也看到了“人工智能的寒冬”。在90年代中期加入贝尔实验室从事人工智能研究之后,AT&T的内部矛盾导致了他的团队分裂。当时,他们推出了能读取支票的ATM机,目前这种基于神经网络的技术仍在使用中。LeCun认为,这是这项技术明确的进步。他表示:“在取得真正成功的那一天,整个项目被解散。这令人非常沮丧。与此同时,其他人工智能技术获得了主流研究人员的关注。这些方法随后逐渐失去了青睐,但它们的发展足以导致神经网络,以及作为这一领域权威人士的LeCun被边缘化。00年代初,其他学术机构甚至不允许LeCun在它们举办的会议上发表论文。神经网络先驱、谷歌的工程专家、多伦多大学教授Geoff Hinton表示:“计算机视觉圈子拒绝了他。外界的看法是,他在坚持从事80年代时看起来很有前景的工作,但目前他应该放弃这方面的工作。”
多数计算机从业者,以及人工智能从业者,基本处于使用方法阶段,而像Lecun以及Hinton这些人,却对神经网络坚持,不断进行相关方面的研究,直到BP算法提出,以及神经网络不断刷榜各大比赛第一上限,大众才逐渐认识到神经网络具备如此强大的能力。也就是那时候,人们慢慢从接受到研究,并最终有了过去10年cv,nlp全部在深度学习的强大能力下,融入人们的生活。这个过程中,只有像Hinton等原始大神,一直坚持并持续深入,推动发展,这种对事物认知的能力以及对学术界持续的贡献让人敬佩。
而其中单从模型大小角度看,原始的神经网络,到深度学习,到目前人们称之为大模型的更深更大,亿级的参数规模,其发展的规律始终是“更大”。
从90年代算起到目前,整个技术发展历经超过30年,而目前我们处在技术革命的前夕,蒸汽机提升了人工效率,电和互联网以工具的形式给我们支撑,而超大模型具备的信息判断及分析能力,带给我们的是什么,以及这种能力会造成怎样的世界变化正是本文希望描述的。
大模型与拟人化:
记得在辩论赛中,人们经常讨论的一个题目是人之初,性本善与性本恶。常规的讨论基本局限在各种例子中,但是从第一性原理出发,这个题目则是人之初,性本私。因为人是物种,而物种最本质的特征便是活下去,为了活下去,整个群体会选择适应该群体利益最大化的方向,而这种特性,在潜意识中几乎支配着一切。于是在大模型中,人们也看到模型越来越大,参数越来越多,这个核心的本质是什么,从个人角度看,不管是模型大小以及不同的模型设计,最终归结于的还是一个简单的拟人化。
像CNN的提出是基于眼睛感知,通过眼睛获取世界图像,经过不断抽取特征,最终输送给大脑进行判断识别反馈。简单的神经元设计更是包含了激活概念,阈值,传递等,和人脑神经元也极其类似。在过去十年,cv的发展从cnn模型,不断有更优的模型提出,结合目标函数loss设计,在给定的任务图像,限定大小的网络,以及最终的判定结果中存活。如果有个简单的比喻,更像是训练一只小狗,去做特定的识别工作,但是更复杂的任务却很难完成,任务更换后也比较难去短期达到STOA,于是这过程中有人提出迁移学习,其本质是更快的去寻找另一个识别工作和目前工作的共同点,进而对分布进行简单优化就达到优质效果。在后来,人们也发现基于pretrained的一些网络权重,其分布更完整,在小任务上finetune,也能达到优质效果。同样的类比,让一只狗,突破脑容量极限去解决语言,视觉各个方向的问题,像人一样具备沟通能力几乎不可能。我们需要的是真正的和人级别相当的能力,这个是通用人工智能的目标。在已有的cv方向中,期待通用人工智能,几乎不可能,上限决定了它无法实现。
但是在nlp领域,却最先迎来了变化,因为nlp,本身是语言沟通学科,在传统人给定歧义区分策略的年代,到最终现在通过持续的语料输入,以模型的角度自动区分歧义,虽然也有小模型和大模型的区分,但是本身这种变化相对更平滑。如果以拟人化来比喻,目前的cv更像是强大的眼睛和相对单一的判断准则,即我们看的很清晰,也能得到很好的结果,但是我们不需要思考这个是什么,这个是什么含义。nlp大模型却像是专门处理逻辑的一种网络,输入一段文字,输出一段文字,随着模型逐渐变大,输出的文字逐渐让人类惊慌,这到底是机器具备了情感,还是单纯的从基础数据中给出的。可以相对明确的说,短期给出的还只是基础语料中的文字及网络评论数据,但是当喂给模型所有数据后,这个模型看起来更像是一个无所不知,而且回复的内容也无法单一追溯。
虽然目前各个大模型还处于各自的发展阶段,人们也在不断探索更大的网络结构最终是否会带来更多的变化。但是基本的雏形已经看得到了,这里以拟人化的形式把各个大模型分散到不同的人的部位,可以更清晰的看到。定义中枢大模型,视觉大模型,语音大模型,行为大模型等。通过摄像头等传感器,输入视觉大模型,视觉大模型中间结果输入中枢大模型,中枢大模型继续以向量化的形式对接行为大模型,行为大模型可以操控机器人进行常规走,蹲下等拟人行动,在这个过程中,有对应语音模型接受中枢大模型的输入,进而输出语音。其中中枢大模型以及各个不同的模型之间,其本身设计以及相关设计不断进化,最终形成的一个个体,人们更愿意称之为通用机器人。虽然经过不断模型优化,修改等,但毫无疑问的是,其最后的形态也是通过生物学相关的研究,和计算机相关学科互相推动发展,也就是逐渐用机器,设计模型,各种相关形式来拟人,而且超越人。毫无疑问,这种模型的上限是难以想象的。
这时候再来回顾人工智能传统的符号学派和连接学派的争论,从符合学派占优,到现在连接学派蒸蒸日上,也没有疑问的是,人是会通过相关内容进行推理分析的,并不是所有的内容都是基于语言和情感进行描述的,纯粹的数学公式仍然是定量描述的需要,从这个角度看,符号学派和连接学派更像是某一个大学派下的分支。最终的目标只有一个,拟人并且超越。拟人更上层的描述是仿生。
大模型应用畅想
各个技术革命最终的变化都是以各自的方式极大的改变生活方式,生产效率,而目前的大模型主要论述的方向是信息领域,即我具备了一个大模型,就可以针对任何我感兴趣的问题得到回答,并且还能得到一个判断及推荐行为。这在无形中打破了信息差以及决策差,信息的平铺会造成财富的平铺,如果没有外力干扰。每个人会相对的拥有一个帮助你的人,这对整个人生进程都更有帮助。以下是一些可能的应用场景。
1.私人助理:在钢铁侠电影中,有私人助理贾维斯,在未来几年,通用场景下的人工智能助理app以及音响应该会二次出现,这个阶段,人们在获取信息上会更加便捷直接高效,而且其中最关键的是,人们会获得基于各种事实信息的加工结果,即人会获得信息,并且能够获得最优的选择推荐。剩下的选择则更多的依赖人本身的性情做出判断,在小问题及日常问题中,人会犯错更少,理想情况下,整个社会信息越来越平铺,社会资源分配也逐渐更加平均。
2.数字永生:马斯克旗下的公司正在研发脑机接口,希望是把个体的大脑进行完整复制,从而数字仿生出一个原来的你,即使身体消失,但是思考方式,及记忆都是当下的你,当然大脑的完整复制以及反馈等的复制都是长久的问题。但是大模型给出了另一个途径,即把你的相关语言,思考方式,写下的文字,聊天记录各种,包括童年经历以某种形式进行输入到模型中,不断训练进而得到一个类似的你,具备你的经历和相似的思考方式,进行了简单的大模型数据分布复刻。另一个相当有吸引力的应用是与逝去的伟人对话,通过伟人留下的各种文字信息,语音信息进行全面复刻,如此一来,当你有问题时,你可以简单求助私人助理,也可以寻找领域专家伟人,进行专业交流。当然以app的形式发布,以伟人包的形式进行付费也是一种盈利方式。
3.军事:现在战争中,借助大模型进行全范围指挥,协同作战,具备非常强的想象空间。
4.企业经营:可以帮助进行专业分析及决策,也可以借助通用人工智能机器人进行全行业覆盖,可以类比纺织行业。总之给出一个设定,大模型可以进行招聘,供应链管理,人士绩效判断,营收分析及发展趋势研判,甚至可以自动回溯,自训练。
不管大模型以哪种形式最终落地,其核心思想都是把人类几千年来积累的宝贵思想转化成当下的决策工具或者情感依靠,用于辅助判断。后期作为通用人工智能机器人的核心组件。
总的来说,科技的发展一直在减轻人的工作,让人更贴近生活中。而整个社会的变革也是信息的平铺开展来的一系列衍生变化。