beat365(中国)正版唯一|官方网站-App Platform

智算芯闻

News

新闻中心

【智算芯闻】从大语言模型到通用人工智能：第四次产业革命的滥觞

时间：2023-02-24来源：beat365正版唯一官网光启智能研究院科学家李兆石

畅想未来通识教育

2035年北京某中学的通识课上 [1]。

老师：今天我们讨论的主题是“感受时间”。请同学们充分发挥自己的想象力、感知力与求知欲，畅所欲言。AI老师，你对于“感受时间”有什么想说的？

AI：与五感不同，人类没有一个直接感受时间的器官。但人类的文学作品中，时间永远是最重要的母题之一。有“此去经年，应是良辰美景虚设”的黯然神伤，有“逝者如斯夫，不舍昼夜”的深沉内省，亦有“Do not go gentle into that good night. Rage, rage against the dying of the light”的斗志昂扬。同学们还能举出哪些跟时间有关的作品？

李雷：上周末我看了一个老电影，2014年的《星际穿越》。我不太明白，为什么电影最后，一百年后，父亲看到女儿时，父亲没怎么变样，女儿已经变成了一个老奶奶了。

AI：《星际穿越》讲述了一个爱不随时间流逝而改变的故事，是一个非常好的例子。对于女儿来说，她一直在地球，所以她的10年就是自己的10年。而对于父亲来说，他要乘坐宇宙飞船离开地球，发生了钟慢效应，积累起来父亲便比原来待在地球会更年轻。更多有关相对论的细节可以读一下霍金的《时间简史》。完整地推导《星际穿越》所依赖的物理学原理，需要等同学们学会洛伦兹变换。

韩梅梅：我也看过《星际穿越》，特别喜欢它的配乐。是不是可以认为我们听音乐的时候，都在感受时间流逝啊？

AI：时间是音乐中最基本的维度。音乐的三要素中，和声和节奏，都是一个声音在时域上有规律的重复，区别只是节奏的频率低（40~200Hz），而和声的频率高 (200~10000Hz)。对人类乐感的研究认为，人类之所以喜欢音乐，是因为人类大脑喜欢有规律的事物。

三要素中的最后一个要素，旋律，也是在时间维度影响人类感受的。诺兰的《敦刻尔克》的配乐The Mole (https://music.163.com/#/song?id=491950230&market=baiduqk) 是一个很直观的例子。这首曲子中使用了“谢泼德音阶”的手法营造越来越紧张的感觉：

图1：谢泼德音阶示意图：相邻的音阶跨一个八度

如图所示，音阶增高的同时高音强度在缩小，低音强度在增大，你的耳朵同时至少能听到两组上升的音阶，虽然音高在每一周期之间根本没有变化，但却会造成了一种音高一直在上升的错觉，让人越来越紧张。这种手法最早出现在巴赫的《无限卡农》中 [2]。

李雷：哇，原来诺兰这么喜欢玩时间游戏啊。

AI：是的，诺兰的电影大多数母题都是时间。《记忆碎片》、《致命魔术》中用了对位，《盗梦空间》《敦刻尔克》中用了卡农，《信条》用了倒放。注意，这里用音乐的术语描述时间游戏，也回应了上一个讨论中关于音乐与时间的联系。

李雷：那2023年的《奥本海姆》是不是也是时间游戏啊？

老师：请同学们不要离题太远。我们继续举一些书籍和绘画中跟时间有关的例子。

大语言模型将颠覆公立教育

上一节对教育的畅想，也许看起来还有点像科幻小说。但随着未来五年内大语言模型和多模态机器学习的发展，这种通识教育方法在技术层面将不会有障碍了。

君不见，2013年反乌托邦科幻神剧《黑镜》S02E01，讲述了一个利用亡夫在社交网络上的留下的信息，塑造了一个具有人工智能的假男友的故事。这个故事所需要的人工智能技术，在2023年已经完全成熟。我相信当模型微调和对齐的成本下降到数万美元时，会有大量的创业公司开展类似的业务。

机器学习技术在2022年底终于到达了一个临界点。所有人都已经看到，stable diffusion引领的开源文生图模型将彻底重构绘画行业，chatGPT为首的文本生成模型将成为所有人都可以负担起的商业、法律、医疗初级咨询师。

但最深刻的改变将发生在教育行业。人类很快将发现，当下教育在十几年的学校生涯中学会的事实逻辑知识，将完全被大语言模型覆盖。未来人类想调研一个问题时，不再需要在图书馆或搜索引擎中寻寻觅觅，只需要把问题抛给大语言模型即可。如今很多大学都禁止学生用ChatGPT写作业；可以预见，未来两年内肯定会有专门教学生怎么用ChatGPT类的工具查找知识写论文的课程。使用大语言模型工具将是必备技能。

因此，十年后的学校教育的首要任务，将不再是照本宣科地给学生灌输各个学科的基础知识和逻辑，而将是引导学生更有效地使用大语言模型。类似《理想国》中苏格拉底通过对话教育雅典青年的模式，将成为未来教育的主流。人类教师的责任将变成设置议题，组织学生与大语言模型对话，确保大语言模型生成的文本在事实准确性和价值观上没有问题；而AI教师则将成为所有学生都能与之对话的“苏格拉底”。

当下公立教育的反面是学徒式教育。普惠公立学校系统最初在腓特烈二世时期的普鲁士创立。这种教育的目的不仅仅是教书育人，更重要地是为国家以标准化的方式、快速地塑造人材。而在此之前，教育是一项非标准化的、非常昂贵的服务。像孔子这样的不世出的大教育家，一生也只有七十二学徒。这种学徒式的非标教育，主要的教学方式是教师的言传身教，而非当今普惠教育的照本宣科。

随着大语言模型推理成本的下降，可以预期公立普惠教育有可能再次回到“言传身教”式的教育：AI教师负责“言传”；而智能革命后释放的大量人力资源，将作为负责“身教”的人类教师。

理解AI的理解能力

"If it looks like a duck and quacks like a duck, it’s a duck."

Python: duck typing

有意思地是，人工智能领域中有大量的专家认为大语言模型不是通用人工智能（AGI）。如果AGI的定义是一个像《2001太空漫游》中HAL9000、或者《流浪地球》中MOSS那样具有自我意识和动机的AI，那当前任何的AI技术离AGI都还有很远的距离。比如，AlphaGo是世界上最厉害的围棋大师，但AlphaGo永远不会想“今天心情不错，我要去找朋友下几盘围棋”。

然而，卡马克认为通向AGI之路是一个模仿游戏 [3]。人类也许永远不会创造出具有自我意识和动机的AGI，但人类在不断创造在特定应用场景超越了人类能力的AI工具。这很像计算机图形学的发展历程：1986年提出的渲染方程类似于AGI，是现实技术水平难以到达的圣杯；而卡马克在90年代制作《毁灭战士》《雷神之锤》等游戏时，利用光栅化、纹理贴图等技巧制造了三维世界的幻象；类似的，人类在特定场景下，与AI工具交互时，也会感觉AI比人类更强。

《雷神之锤》等游戏的大卖，极大地推动了GPU等计算技术的发展。如今计算算力已经提升到几乎可以解出渲染方程了。类似的，人类在使用AI工具创造价值时，将促使更多的社会资源投入到AI相关的研究中，也许再过十年人类就可以创造更像AGI的AI了。

大语言模型，就是在语言能力上超越了人类的AI工具。由于语言在人类感知和理知中的特殊地位，大语言模型将彻底重构人类社会，为人类创造巨大的价值。

语言是人与世界交互的API

语言在认知中的作用特别令人着迷 [4]。人类必须通过语言来感知世界、思考世界。

感知与词语相连。盲人摸象，他们的触觉必须与大象、鼻子、腿等词语概念建立联系。视觉更是高度语言化的。人看到一片草，感受到的只是绿色、长条、杂乱的分布等等意象，但大脑中感知到的就是“草”这个概念。

图2：雷内·玛格丽特《形象的叛逆》。画中的文字为法语“这不是一个烟斗”。

更有意思的是雷内·玛格丽特的烟斗。人看到了烟斗的材质、烟斗的形状，脑中第一反应一定是“烟斗”。然而细看发现画中下方有一行字：“这不是一个烟斗”。懂艺术鉴赏或认识论的人，立刻就会想起“超现实主义”“自指详谬”“超语言”等等词语概念。博尔赫斯说过，所有的语言都需要感知。这话反过来讲也一样，所有的感知都需要语言。（多模态的方向有了！）

而人类有别于动物的理知能力，就是一个语言游戏的过程：人类在词语的逻辑联系中理解词语。语言是一个系统，各个词语间相互勾连。孩童学会了说话，就拥有了理知，可以学会推理。推理的过程，就是将事物带入到语言系统中由词语编织成的逻辑体系中。比如人看到“苹果”一词，就会联想起水果、红色、电子产品、美国科技公司等等概念；看到“笔记本”就会想起书写工具、电子产品等概念；而当看到“苹果”和“笔记本”连在一起时，大脑中的概念就变成了电子产品，美国科技公司，MacOS等等。在大语言模型中，语言的逻辑体系就是embedding空间；embedding空间的token向量内积，类似于上述的逻辑推理。

最后，人与人之间的合作与冲突，也都是以语言为媒介的。因此，语言也是破译人类社会组织关系的密码。

为何大模型有逻辑

行文至此，可能很多懂技术的人会有疑惑，当下的大语言模型就是基于概率统计的一个补词游戏：它在已有的文本基础上，一遍又一遍地推理下一个词。这个补词游戏怎么就理解了人类语言呢？这个问题其实换一种问法更合适：为什么人类利用大语言模型，可以更好地理解人类的语言？注意，我们需要将“理解”的主语，从大语言模型替换为人类。大语言模型只是帮助人类理解的工具。

要回答这个问题，我们需要先想一下如何判断一个人有理解能力？很简单，人说话要有逻辑，要让其他人能听懂。而我们可以将语言的逻辑再细分成三种逻辑：语法逻辑、事实逻辑和符号逻辑。大语言模型基于transformer模型。Transformer上的机器学习，对这三种逻辑都表现出了很强的学习能力。

1. 语法逻辑

我们学英语时都背过很多语法规则，这些规则就是语法逻辑。2017年的BERT在学习翻译的任务时，就已经可以学会各个语言的语法规则了。另外，注意到以中文为母语的人，从来就没有学习过条条框框的中文语法规则。类似的，人类也尚未探知大语言模型是如何在embedding空间编码各个语言的语法逻辑的。

2. 事实逻辑

语言中沉淀了大量人类所掌握的一般事实。比如“天空”这个词，就跟“蓝色”有很强联系，对应了人类知识中的一般事实：天是蓝的。这种联系可以被transformer在embedding空间习得。

需要注意的是，人类知识中有大量的“长尾知识”：专业的知识都有非常复杂的前提条件或假设。

还是以“天是蓝的”为例。如果问题变成“夕阳下的天空是什么颜色”，那么合理的答案就从蓝色变成了红色。

如果问题的语境是在讨论空气污染，问题是“2010年左右北京的天空是什么颜色”，那么合理的答案是“灰色”。

如果问题变成“1816年北半球夏天天空的颜色是什么”，那么合理的答案是“橙色”。因为“1816年北半球夏天”这个短语，包含了大量的隐含信息：1815年底印度尼西亚坦博拉火山爆发，大量火山灰进入大气层；火山灰的瑞利散射作用于橙光，使得地面接受的光照大大降低，造成了全球农作物的大量减产。

这些长尾知识必须使用大模型才能掌握。这就是20世纪80年代的对符号主义的专家知识图谱开发必然失败，以及GPT-3相比GPT-1获得巨大能力提升的道理。未来要继续提升大语言模型处理事实逻辑的能力，需要选择更多有用的语料喂给大模型，让它们去学习更多的长尾知识。注意长尾知识的提供者是人类，因此即使在事实逻辑领域，人工智能也不会彻底取代人类：人类依然需要专业学者去挖掘长尾知识。

3. 符号逻辑

人类形式化符号逻辑的推理能力体现为数学。人类借助数学“长程推理不失真”的能力，一步步地将认知边疆推进到了个体经验难以企及宇宙和原子核。目前ChatGPT进行数学符号推理的能力，还远逊于人类。

有意思的是，OpenAI在2022年，将Github上的代码语料加入GPT-3的训练集。加入代码语料训练后得到的Davincci-002-code，在符号逻辑类的任务上能力远强于之前的Davincci-002-text。考虑到编程语言本质上就是符号变换游戏，将更多人类编写的代码作为语料是解决符号逻辑推理难题的可行方向。

此外传统AI中的机器定理证明，例如吴文俊院士的工作，在符号计算等方面其实早已达到了登峰造极的程度。将传统符号主义AI在符号逻辑上的能力融合进连接主义AI大模型，是另一个提高符号逻辑推理能力的可行方向。

大模型能解决的当前AI应用痛点

2012年AlexNet开启的人工智能的第三个春天，曾经在2020年左右进入了一个“小冰期”。当时大量基于视觉的AI难以落地，AI创业讲故事的多，做产品的少。很多人觉得人工智能的第三个冬天已经来临。然而2022年大模型技术的发展表明，人工智能技术进入了盛夏。之前的“小冰期”其实只是倒春寒。

回顾之前AI落地的痛点，大体上有三条：缺少高质量标注数据、长尾应用场景、可解释性。这三个痛点都可以被当下的大模型技术解决。

1. 缺少高质量标注数据

自相关大语言模型在训练时使用的数据无需标注。但其它模态能否完全依赖无监督学习，依然有待观察。但随着大模型这条路被ChatGPT证实可行，越来越多的社会资源将投入到模型训练中。这可以在一定程度上通过堆人力解决高质量数据采集和标注的难题。

2. 长尾应用场景

以自动驾驶为代表的AI技术，痛点在于如何解决各种“黑天鹅”长尾场景。现有自动驾驶系统中，新的场景经常需要以人类写程序打补丁的方式加入模型中。随着大模型学习长尾知识的能力被证实，未来自动驾驶系统可以将收集到的长尾场景喂给大模型学习。这样就避免了人类编写复杂规则时容易出bug的问题。可以说，随着大模型学习能力被进一步地开发，Andrej Karpathy在2017年预言的Software 2.0的时代 [5]，已然降临。未来人类编程复杂系统时，要做的就是将收集到的数据投喂给大模型。

图3：Andrej Karpathy在2023年1月看到ChatGPT的能力后，发推“未来最好用的编程语言是英语”

3. 可解释性

最后一个痛点，就是基于概率统计的机器学习缺乏可解释性。这一点在大模型上尤甚：没有人能搞清楚每层的embedding空间上发生了什么。然而，我们研究可解释性的动机，是因为现有的机器学习方法不够好用。当AI变得足够好用时，我们完全可以边用边研究。要知道，解释蒸汽机工作原理的卡诺循环，要等到瓦特改进蒸汽机整整80年后才问世。这期间英国早已靠蒸汽机完成了第一次产业革命。可解释性的欠缺不会成为大语言模型应用的障碍。我们需要转变观念，将观察大模型的视角从mechanism转为organism。人类至今也没彻底搞明白有机体的运作机理，但这不妨碍有机体在地球上成功进化了上千万年。

站在第四次产业革命的起点线

表1：四次产业革命的对比

可以说，2022年11月30日是人类历史的一个星光闪耀时刻。ChatGPT在这一天发布，标志了第四次产业革命-智能革命的起点。更广袤的未来在这一天向人类展开。

回顾前三次的产业革命，它们都有一个标志起点的产品。这个产品所依赖的技术，在产品发布之前大多已经成熟，例如ChatGPT基于的transformer是2017年提出的，GPGPU是2007年左右诞生的等等。但整个人类社会都通过这一款标志性产品接触并重视这些曾经是“高精尖”的技术，并为此改变了发展轨迹。

马克思讲过，生产力和生产关系的相互作用构成为一个处于一定历史发展阶段上的、具有独特特征的社会。蒸汽革命和电力革命的生产关系变革已经完成。

蒸汽革命时代，工业技术的发展催生了圈地运动，大量失地农民涌入城市成为工人，然后在1848年革命中以无产阶级之名登上历史舞台。马克思也于1848年写成《共产党宣言》。

电力革命时代，生产力的进一步发展使得人类历史上第一次出现了商品的供给大于需求，供需失衡下出现了资本主义经济危机。为了解决经济危机，并促进电网、铁路网等大规模基础设施建设，国家资本主义出现了。而用来凝聚国家意识的民族主义则如脱缰野马，引爆了一战和二战。至今，人类社会的经济生活依然在自由主义和国家资本主义（凯恩斯主义）之间艰难地寻求平衡。

第一次产业革命之后，人类社会不断加速。终于在信息革命时代，生产关系变革尚未完成之际，就迎来了下一轮智能革命。

在我看来，当下世界最严峻的挑战，就是如何在尚未完成信息革命生产关系变革之时，适应智能革命时代的生产力爆发。在人类社会已然被信息过载之时，如何消化各种AIGC的新信息？在数据隐私权和数字主权尚未定义清楚的时候，如何解决大模型训练数据的数据所有权问题？作为一个个体，我们既要筛选可靠信源，又要避免信息茧房。而对于国家这个整体而言，则需要思考如何在信息的自由流通与管控之间寻求平衡：2021年的美国国会山事件表明，放任自由的互联网只会成为无政府主义和阴谋论的温床；有章可循的信息管控，确保信息不失去流通的活力，才能实现哈贝马斯之沟通理性，让真理越辩越明。

而放眼十年内，我们需要思考当大多数人不需要工作就能被少数人借助AI工具养活时，人之为人的价值。这里有两条进路。一条通向乌托邦：所有人像雅典公民一样，接受他者供养，每日不需要劳作，而是去思考科学、哲学和艺术。另一条通向敌托邦 (dystopia)：大多数人像《黑客帝国》里的“电池”，每日沉湎于娱乐和快感之中，沦为大公司和大模型的数据养料。我认为，对普惠公立教育系统的改革，改变当下应试化、单向度、标签化的评价体系，将是避免敌托邦之路的关键。公立教育的目的将不再是对孩子们分层后“因材施教”，而是帮助每一个孩子找到人之为人的价值。

参考资料

[1] 大语言模型在通识教育应用的灵感来源：翻电Special 建立当下与chatGPT协作的迫切性、想象力和技术 feat.雍福会•碎片谈 VOL.113 - 翻转电台FlipRadio - 电台节目 - 网易云音乐 (163.com)

[2] 我花两个月时间重看诺兰电影，终于搞懂了他的3个秘密武器【银屏系】丨机核_哔哩哔哩_bilibili

[3] The code for AGI will be simple | John Carmack and Lex Fridman - YouTube

[4] 《感知·理知·自我认知》，陈嘉映，2022.

[5] Software 2.0. I sometimes see people refer to neural… | by Andrej Karpathy | Medium