智能治理||韩庐山:ChatGPT 的真相:虚拟人和母体以及强泛化的秘密

栏目:娱乐资讯  时间:2023-08-07
手机版

  原标题:智能治理||韩庐山:ChatGPT 的真相:虚拟人和母体以及强泛化的秘密

  ChatGPT 的真相:

  虚拟人和母体以及强泛化的秘密

  作者丨韩庐山

  本文从ChatGPT带来的即时学习能力(in-context learning)入手,逐步深入地探讨了ChatGPT目前众多的关键性问题,包括:ChatGPT带来了从未有过的计算层次——虚拟人;ChatGPT带来的新的智能计算构架:母体和虚拟人;在人类语料知识用尽的时候,新的智能架构如何成长,如何吸收新的技能;强泛化能力的解释,以及大模型能力涌现的可能原因;一本正经胡说八道问题的原因和长、短期解决方案;ChatGPT如何细化到垂直领域,比如法律领域。本文并不是对已发表的大模型论文的技术总结,不是一篇综述文章,而是基于笔者自己的研究分析去探索上述问题的答案。希望能起到一个抛砖引玉的作用。文章的写作跨度比较长,大部分的写作完成于OpenAI推出plugins功能之前,所以有少部分技术内容显得有些滞后了。

  1

  ChatGPT 带来的崭新技术:

  即时学习能力

  在OpenAI的GPT-3出现之前,以往的深度学习模型只是为某个特定任务开发的,比如,翻译、分类、摘要、信息抽取等等。每个任务都有一个专用的模型,都需要人类标柱员专门为这个任务生成大量的标注数据用来训练模型。而OpenAI采用自监督的方式来训练它的超级大模型GPT-3,不需要任何人类标注数据。它使用了巨量的50TB的文字语料,其中大部分来自于互联网。而它所做的唯一一件训练任务就是根据文本中前面看到的文字,不断的预测下一个文字是什么。

  这个1750亿参数的模型充分训练完成以后,就诞生了一件非常奇妙的事情:模型即时学习的能力,术语叫做in-context learning(也可翻译为文中学习)。因为GPT-3有根据前面的文字不断预测下一个文字的能力,所以它可以生成文本,可以和人对话。 即时学习能力就是指GPT-3在这个交互过程中可以马上领会到你的指令的意图、执行你的任务,并且可以即时学习到新的知识和技能。ChatGPT通过一个良好的人机交互对话界面,充分释放出GPT-3的即时学习能力。

  诞生了超强的即时学习能力以后,以ChatGPT为代表的大模型就成为了一个新的物种,区别于以往为专用任务开发的深度学习模型。大模型不再是任务的执行者,它的角色将转换为底层的赋能者,而它创造出来的各种形形色色具备即时学习能力的“虚拟人”将成为真正的任务执行者。机器学习训练的传统范式也将发生根本性的改变。我们先从下图中的一个简单的例子看起。

  ChatGPT通过即时学习的能力记住了我教给它的新知识—中国2022年的人口总数,并在后面的人口列表中使用上了这个新知识。这是多么惊叹的一种能力!按照以往的范式,我们要改变模型存储的知识,需要用新数据在模型上进行多轮的训练。比如,往模型里增加中国2022年的人口总数这个事实,就是非常棘手的一件事情。因为我们不确定训练多少轮以后,模型才能够记住这个事实。而且,我们也不确定对这些新数据训练之后,是否会破坏模型中存储的其它知识。科研界目前也在努力解决这个问题,出现了一个新的研究方向,叫做neural editing。但是大模型即时学习的能力实际上已经解决这个问题了,而且是用一种近乎完美的方式:一条指令,一步到位。

  你这时候可能会反驳说,这条新知识其实并没有真正存储在ChatGPT大模型里面,因为当你打开一个新的对话的时候,这个知识就不存在了。然而,这恰恰是大模型非常大的一个优点:即时学习学到的东西是和母体脱离的,这样就可以实现大模型上层任务的定制化,实现各种各样不同的应用。而所有的这些都不会改变底层大模型的任何参数。底层大模型就像操作系统一样,以赋能者的身份存在。

  

  具备即时学习能力的“虚拟人”可以看作是一种应用程序,它的状态是可以存储的,可以读取的。你教授给它的新知识和新技能并不会丢失。目前ChatGPT能记住4000个(GPT-4是32000个)汉字的上下文关联。这就意味着我们当前对话中前4000个字里面描述过的知识和技能,ChatGPT都不会遗忘。今后,技术的发展肯定会带来更大的记忆体空间。越大的记忆体就意味着越高的“虚拟人”定制化水平,越宽广的任务适用范围。

  我们再列举一些ChatGPT通过即时学习能力学习新技能、新任务的例子。第一个例子是关于七言律诗的学习。你如果直接让ChatGPT写七言律诗,它会写得很不符合格式,很随意。但是如果先将百度百科中关于七言律诗的定义告诉ChatGPT以后,ChatGPT就可以写出非常工整的七言律诗。它可以从你给它的定义,马上学习到七言律诗是什么。网络上有很多教ChatGPT各种奇奇怪怪新技能和指派新任务的例子。有人发明了一种新的语言,教给ChatGPT以后,他和ChatGPT就可以用这种新语言交流了。有人让ChatGPT去模拟一个linux内核接受用户的指令,ChatGPT模仿的非常逼真。所有的这些新技能和新任务的学习也仅仅只是一个定义,一个prompt,一步到位。

  大模型即时学习的能力把大模型从知识和技能万能者的角色中解放出来了。大模型不再需要做到知识的完美,技能的完美。大模型的知识可以是不完整的,可以不用总是最新的,甚至是可以允许有错的。大模型上层创造出来的各种“虚拟人”会利用即时学习能力来完善任务特有的专业化知识和技能。“虚拟人”还可以通过自主使用API的方式从搜索引擎和数据库中获得大量的、最新的专业化知识。大模型此时真正存在的意义是赋能:即提升“虚拟人”的即时学习的能力和其它能力,比如使用API。

  2

  新的智能计算构架:虚拟人和母体

  ChatGPT这次带来的冲击和计算机发展历史中的一个大事件惊人的相似,那就是通用计算机的诞生。在通用计算机诞生以前,没有软件的概念。那个时候电子工程师们需要为每一个应用程序设计专门的逻辑电路,开发专用的计算机。直到艾伦·图灵为解决计算机理论问题而提出图灵机这一伟大发明的时候,人们才发现计算机逻辑可以用代码的形式和数据一起存储,并通过图灵机进行运算。

  通用计算机的诞生对社会生产力的提升意义重大。学习写代码比学习开发逻辑电路要简单太多了。普通人经过一段较长时间的培训都可以学会写代码。这样一来,社会各行各业都可以从软件开发中受益,社会自动化程度得到快速的提高。

  这次ChatGPT的技术变革会带来社会生产力更高层次的跃升。在ChatGPT为代表的通用人工智能出现之前,软件工程师们需要为每一个特定任务开发一个专用的机器学习模型或者代码。ChatGPT诞生之后,普通人就可以通过自然语言交流的方式给ChatGPT安排任务,快速地完成各种复杂的工作。以前,大家还需要找软件开发商来满足自己业务上的需求,现在自己动手就可能可以实现了!

  我们可以设想一下不久的未来ChatGPT将会带来的新的智能计算构架,主要可分为赋能层(母体)和应用层(虚拟人世界):

  1. 底层是一个基础大模型,我们称之为母体。大模型不再是任务的执行者,而是底层的赋能者,其角色就像通用计算机中的操作系统一样。大模型需要为上层提供越来越强的即时学习能力和API访问等其它能力。在知识方面,大模型不需要做到尽善尽美,无所不知,上面的应用层会有办法弥补大模型专业知识不足的问题。但大模型仍然需要尽量做到知识的全面性、正确性、最新性,给应用层提供最有力的支撑。

  2. 上层的应用层是一个虚拟人或者虚拟人任务的网络,我们称之为虚拟人世界。用户可以根据不同的任务用自然语言交流的方式定制虚拟人。虚拟人有自己单独的记忆体,里面可以存储任务特有的专业化知识和技能。这部分特有知识可以对底层大模型的知识进行补全和覆盖。虚拟人还可以通过自己调用数据库和搜索引擎API来获取完成任务需要的专业知识。类似人类社会的分工机制,虚拟人也可以通过分工的方式来完成更加复杂的任务,这样就会构造出一个虚拟人的网络。虚拟人即时学习到的知识和技能不会对底层大模型的参数有任何影响。当虚拟人停止工作的时候,这部分计算资源就被系统收回,但虚拟人记忆体中的知识和技能可以被保存下来等待下次工作时读取。简而言之,虚拟人的角色就像通用计算机中的应用程序。

  虚拟人的定制化是通过每个虚拟人记忆体中特有的知识和技能来实现的。长期来看,我们需要为虚拟人开发出“可显示的长期记忆体”技术来提高记忆的稳定性、可靠性、高效性。当前,ChatGPT提供了“隐式”的记忆力,GPT-3.5可以记住对话中前4000个token(汉字)中的内容,而GPT-4可以记住32000个。这些历史对话中的知识可以用来覆盖掉母体中的知识。比如,我们先提供给ChatGPT一个中国人口的数据报告,然后再问它关于人口数据的时候,ChatGPT会优先使用报告中的数据而不是大模型中的数据。这是即时学习能力的一个基本特性,我们将会在下一节进行详细的讲解。

  ChatGPT的最终形态可能就是一个超大的智能基座,像供水供电一样为全社会的各行各业提供虚拟人服务。同时,各行各业企业级的反馈又能帮助大模型成长。这时,大模型成长的主要助推动力就不再是人类长期历史文本中积累的知识了,而是各行各业企业级应用中的第一手知识。换一句形象的话说,所有虚拟人的“生活经历”将成为真正推动母体前进的燃料(有趣的是,即时学习并不会直接改变母体的参数)。

  在这个新的计算架构下,我们可以看出知识和技能有两处可选择的存储区域。一个是母体,另一个就是虚拟人的专有记忆体。一般来说,大众的、稳定的、有共识的知识和技能应当由母体来理解记忆;而任务特有的、新型的知识和技能则可以通过即时学习的能力存储在虚拟人的专有记忆体中。

  本文章写作时间跨度比较长,文章还差结尾的时候,OpenAI就把ChatGPT plugins的功能推出市场了。因为plugins是一个特别好的可以用来说明如何巧用两处存储区域的例子, 我们在这里插入补充一下。plugins作为一种新的技能,可以有两种实现的方式。一种就是通过对母体的预训练来实现,另一种就是通过即使学习的能力直接教授给虚拟人。OpenAI选择的是第二种方式,因为这种方式实现起来很快,成本很低。而第一种方式需要专门的训练语料,如果让人来标注,成本非常高。但是第二种方式也存在着一个较大的问题,就是各种plugin API的自然语言描述Prompt加起来会占去虚拟人专有记忆体很大的空间。

  这个时候其实有一个巧妙的解法,不知道OpenAI是否也是这么想的。如果我们把所有用户使用plugins的全部过程,包括在plugins内部点击选择的步骤,都详详细细地记录下来作为语料反哺给母体进行训练。一旦母体获得掌握这些知识技能之后,我们就不再需要虚拟人用即时学习能力去学这些plugin API了。甚至,用户都可以不用再在plugin内部进行点击选择了,所以的一切都会按照用户的任务目标自动进行。虚拟人只需要返回给用户一个plugin使用的确认报告就行了。

  这就给我们的计算架构提供了一种引入新的大众技能的范式。即,先通过虚拟人的即时学习能力+用户辅助来先实现这个功能,然后在大量用户使用之后,逐渐将这个技能知识沉淀到母体,随之就可以释放掉虚拟人这部分的技能定义Prompt。

  3

  即时学习能力和强泛化的解释

  我们现在开始分析一下ChatGPT的即时学习能力从何而来。OpenAI公布的文档中提及过ChatGPT即时学习能力是通过无监督训练的方法从巨量的人类文本语料中学习来的,后期的有监督训练并没有提升ChatGPT的即时学习能力。这个无监督训练方法非常简单朴质,就是根据文本中前面看到的文字,不断的预测下一个文字是什么。现在我们把眼光稍微放开一些,这个任务本质上就等于根据前面文本的约束条件生成后面文本,只不过是以一种分步走的形式来进行。我们再引申一下,这个任务可以进一步看成自然语言约束条件下的前因推后果的任务,由前文的“因”推出后文的“果”。

  而前因推后果这个任务是一个超级任务,是所有具体任务的元任务。GPT实际上就是在训练这个超级任务。因为它是一个超级任务,非常难,所以它需要非常庞大的参数模型和巨量的语料来训练。这可能这就是大模型能力涌现现象的原因所在。对于单任务模型来说,泛化意味着从此任务的已知数据点泛化到此任务的未知数据点上。对于GPT来说,泛化意味着从已知的不计其数的任务泛化到未知的任务上面。这就解释了为何ChatGPT拥有即时学习能力,有掌握全新的知识和技能的能力。要做到这样强的泛化能力,就需要GPT通过在巨量语料上的训练在其内部建立起一个良好的世界知识的模型。

  深刻理解“前因推后果”这个训练本质能指导我们更好地使用ChatGPT,构造出理想的Prompt。我们举一个例子(见下图),如果我们给ChatGPT一个人口的数据报告,然后再问它关于人口数据的时候,ChatGPT会优先使用报告中的数据而不是大模型中的数据。这是因为报告起到了一个前因的作用,所以后面的数据分析肯定是会基于前面这个报告得出的。ChatGPT用到的通用语料中的文字都是上下文相关的,不可能说前面放了一个报告,紧跟着却去说与报告无关的事情,这样的概率很小。所以,如果我们可以给ChatGPT设置一个很好的“前因”,把它带到我们想要的场景中,那么就会得到更符合我们要求的“后果”。

  

  下面我们接着探讨一下GPT强泛化能力的来由。

  根据前面的文本预测下一个字确实是一个概率行为,看似简单,但想做好却是一件异常复杂的事情。我们人类是怎么做的呢?我们需要理解前文的语义,我们大脑要有世界的知识模型,我们要预测出后面将会发生什么事情,最后我们需要根据语法规则挑选出合适的下一个字。只有这样才能生成符合逻辑的文本。GPT可能也是在做类似的事情,因为它生成了非常符合逻辑的文本,GPT-4在各种任务上文本生成的表现已经接近甚至超越了普通人的智能水平。

  很多人认为大模型的训练只是对语料中的数据进行一个拟合,或者叫做近似。但他们不了解大模型中用到随机梯度下降算法实际上是一种泛化在先的拟合算法,即通过泛化的形式来进行拟合。这种算法会先拟合所有数据点中最共性的特征,然后再拟合次共性的特征,以此类推,最后拟合每个数据点中最个性的特征。这时才等于把所有数据点都记忆下来了。

  深度学习中的随机梯度下降算法甚至不属于标准意义上的NLP统计算法,因为它的最小计算单位不再是字或者字符,不再通过计数(counting)字或者词之间关联的方式来研究语义,这和其它的传统机器学习算法,比如贝叶斯、SVM、HMM等等非常不同。大模型用高纬度向量来表达字,相当于把离散的一个个字的边界都打碎了,把字碾成了粉末,每个字其中包含的语义变成连续的、可以流动的东西,这是为了方便求导的数学运算。

  下面,我们用一个非常形象但不是特别准确的例子来解释一下随机梯度下降算法中的泛化在先原则。例子中用到的随机梯度下降优化算法为Mini-batch SGD。假设我们的世界知识是一棵长满绿叶的大树的照片,我们可以把树的叶子比喻成语料,一片叶子相当于一个文字。我们的模型初始化的时候是一张空白的纸。我们不能看见树的全观,只能通过一个个小窗口看见窗口内的树叶。一个窗口就相当于一次采样。我们的目标是要通过随机梯度下降优化算法使得模型内部构建出这颗世界知识的大树。

  我们使用和GPT同样的训练任务,即我们通过窗口内已经看到的树叶去预测与它们最相邻的一片叶子,而GPT是使用一段文本中前面的文字去预测下一个文字。和GPT训练方法一样,我们使用Transformer 掩码(masking)的方式可以同时完成窗口内每一片叶子的被预测的训练任务,并且同时完成多个窗口(多次采样)上的全部训练任务,因为我们采用的是Mini-batch SGD。这就是说,对模型参数的每一次更新实际上是基于很多个预测下一片叶子的训练子任务。我们知道,我们是通过梯度的方向来对模型参数进行更新,而梯度的方向就是真实和预测之间变化差异最大的方向。每次模型更新的梯度实际上是多个训练子任务上的梯度的叠加。所以这个总梯度可以说是一个共性的表现,因此每个训练子任务上面共性的东西就容易被放大,而个性的东西就容易被抵消,特别是在共性的东西尚未建立的混沌状态中。从统计的角度来说,大量训练子任务梯度叠加的方向近似于真实的世界知识和模型内部构建的世界知识差异最大的方向。

  最开始的时候,当我们的模型还是一张空白纸,它和那棵真实的“世界知识大树”差异最大的方向是什么呢?那必定是满屏的绿色,这就是所有知识(叶子)最最共性的特征。所有预测下一片叶子的子任务的梯度中都会有明显指向这个方向的向量维度。所以,模型最先拟合的特征就是叶子的绿色,相当于我们在白纸上画上了一片绿色。一旦绿色的特征被基本上拟合之后,次共性的特征就会变得显著,这些特征可能包括树叶的轮廓和内部脉络的基本形状。一旦这些次共性的特征被拟合之后,次次共性的特征的差异性就会显露出来了,可能包括树叶所在的区域,顶部、中部、边缘、底部,或者树叶有没有被虫咬,树叶的菌斑等等树叶之间的普遍关联特征。当共性的特征都被拟合完成之后,模型会开始着重拟合个性的特征,每片叶子具体的特点,特定叶子与叶子之间的关联关系等等。直至最后,真实世界知识大树和我们模型内部表征出来的大树之间的差异没有了,梯度消失了,我们的训练也就停止了。

  通过上面这个例子我们可以看出,随机梯度下降算法是和“死记硬背”完完全全对立的一种算法。它具有非常强的泛化性,是一种泛化在先的算法,因为它总是先拟合共性的东西。GPT也是使用了相同的方式从巨量的人类语料中学习并构建出来人类的“世界知识大树模型”。但是,机器这种在连续空间里面找共性的“思维方式”对于我们人类来说是很难理解的,因为我们习惯于在基于离散的字的空间上去思考问题。

  众所周知,ChatGPT有时候会一本正经的胡编乱造,不知道问题答案的人很容易会被它蒙骗。而这种胡编乱造的本领其实正是GPT大模型强泛化能力的一个具体表现。泛化就是理解的能力,举一反三的能力。编造不存在的东西达到以假乱真的程度正是说明GPT对它所需要描述的事物有着充分的理解,是一种“高智商”的体现。

  4

  ChatGPT 一本正经胡说八道问题的

  探讨和解决思路

  ChatGPT胡编乱造的问题牵扯到一些大模型中非常本质的东西。ChatGPT胡编乱造最主要的原因是GPT在巨量语料的预训练中完全是以旁观者的身份存在的,这里面缺少一个“自我”。语料中的内容是客观存在的,并不以GPT知不知道这些内容有任何的变化。GPT只是在模仿这些内容的生成。当然我们上节说过,这是一种基于“理解”的模仿,并不是单纯记忆。

  咱们举个法律领域的例子。假设GPT的语料中有一些案件分析的文本。这些文本首先会交代一个案情,然后法官会分析解剖这个案件,给出这些案件的法律适用(法条),最后法官还会给出几个以往的类似案例作为参照。我们使用ChatGPT做案件分析的时候,它其实是在模仿语料中的这个过程。但是如果大模型的法律法规训练得不够充分,ChatGPT找不到合适的法条的时候,它知道这个位置需要生成一个法条,它就会运用它的泛化能力编造一个最像的法条。ChatGPT不会说,我找不到合适的法条,因为它学习模仿的语料文本中不会发生这样的事情。

  造成ChatGPT胡编乱造的第二个原因是训练不充分。从某种角度来说,胡编乱造不是大模型的一种错误,而是对相关知识未充分训练的一种中间状态。假设人类世界的知识是有限的(closed world),大模型装下了所有的知识,并对之进行了充分的训练,那么绝大多数胡编乱造的情况会消失。因为大模型可以清楚地知道知识的界限在哪里,哪些是存在的,哪些是不存在的。

  但是实际上,人类世界的知识可以说是无限的(open world),大模型虽然知道很多知识,但它并不知道边界在哪里。训练语料中存在着大量的边缘知识,出现的次数比较少,大模型没有机会进行充分的训练,以至于不能很好地理解掌握这部分知识。如果在对话中涉及到这部分边缘知识,ChatGPT就会出现胡编乱造的现象。其实这就是大模型从不懂通向懂之间的一个未完成状态。

  下面我们看一个例子。我们让ChatGPT和百度文心一言同时生成演员张涵予的生平介绍。ChatGPT给出的张涵予的信息貌似有模有样,实际上都是胡诌的,出生时间和地点都是错的。不过ChatGPT大体上知道张涵予是演电影的,而且也说对了其中的一部电影《湄公河行动》。百度文心一言给出的张涵予的信息基本上都是对的。我们知道,ChatGPT训练中使用的中文语料是很少的,而百度使用的语料绝大部分都是中文而且训练是比较充分的。可以看出,经过充分训练之后大模型在演员张涵予生平介绍上的胡编乱造情况得到了大大的改善。

  

  

  解决ChatGPT胡编乱造的问题可以从上述的两个原因入手,还可以分为长期、短期两类方案。最正统的长期方案就是通过与外界交互式的训练,让ChatGPT拥有“自我”,可以根据“自我”的状态调整对话的内容。这样,当ChatGPT不拥有准确地回答某些问题的知识的时候,它就会回答“我不知道”。实际上,OpenAI也正走在这条路上。基于人类反馈的强化学习(RLHF)就给了ChatGPT和外界交互的机会,它就不再仅仅是一个世界的旁观者了。当ChatGPT胡编乱造的时候,我们人类可以对它进行纠正,告诉它这个时候正确的回答是“我不知道”。当这种反馈训练达到足够量级的时候,ChatGPT就可以将这种胡编乱造的场景和自身的知识掌握状态联系在一起,进行泛化。GPT-4发布时公开的官方文档也显示出了RLHF正在有效地解决幻觉的问题:经过RLHF训练之后的ChatGPT在TruthfulQA的问题集上有50%以上的改善(见下图)。

  

  理论上,我们从算法层面应该也可以捕捉到ChatGPT胡编乱造的状态。GPT-4发布时的官方文档显示出一个有趣的现象,预训练完成之后GPT-4在做MMLU测试集的时候,它对所选择答案输出的概率和它实际上答对这道题的正确率几乎完全一致。这说明GPT-4对答案的正确与否是“心中有数”的。所以,当ChatGPT“胡编乱造”时生成的文本,其相对应的概率曲线或者entropy曲线可能也具有某种明显特征,应该可以和“胸有成竹”时生成文本的曲线区分开来。

  

  解决ChatGPT胡编乱造的问题的第二条路就是让大模型尽可能多地吸收语料知识,并对之进行充分训练。多吸收各方面的语料知识就是扩大大模型知识的范围,使得用户提出的问题基本上可以落在大模型边缘知识以内的部分,即大模型可以充分理解的知识范畴之中。充分训练就是让大模型可以完全掌握并记忆住这些知识。前文中我们举的那个张涵予的例子可以说明充分训练的必要性。

  但是大模型的容量有限,不可能包含世界上所有的知识。就拿中文法律领域来说吧,全量案例加在一起就有1TB的数据量了。而1750亿参数的GPT-3模型的总共容量也就只有1TB。所以,至少目前大模型是不可能包含全量的案例信息。那么我们在训练大模型的时候就会面临一个语料的取舍问题,哪些是该放的,哪些是不该放的,以及训练程度问题。

  拿法律领域来说,训练至少要做到对全部法律法规的准确记忆,因为这是理解法律知识和关系的基础。全量案例不宜于都加入到语料之中,因为这么做会造成同一模式的语料占比过高,容易破坏语料的多样性,影响到大模型的泛化理解能力。

  而准确记忆和索引案例数据这个任务则交由外部的法律信息搜索引擎,比如北大法宝,来完成。通过虚拟人的即时学习能力,我们可以直接告诉ChatGPT对话机器人,“凡是需要引用实际案例的地方,请调用北大法宝来搜索案例”。ChatGPT可以理解你的命令,按照你的命令执行,因为这个命令并不涉及到ChatGPT“自我”的状态,而只是对一个客观知识(案例)的认知和理解。最近微软发布的154页的GPT-4调研报告《通用人工智能火花》的中充分展示了ChatGPT在这方面的能力(见下图)。ChatGPT可以在凡是需要数学计算的时候能够自动调用计算器来解决问题。

  所以,即使OpenAI在第一条“让ChatGPT拥有自我”的路上受阻,我们仍然可以通过第二条路,充分训练+锁定范围,来有效地规避掉ChatGPT胡编乱造的问题。虽然ChatGPT“不知道”自己知不知道,但我们可以通过训练来控制它不知道的范围。只要我们清楚它的知识范围,我们就可以通过自动调用外部工具的方式来弥补它的不足。

  

  GPT时代的生存困境与应对策略

  01

  GPT-4对人类的影响

  感谢会议主办方的邀请。我演讲的题目是《GPT时代的生存困境与应对策略》。最近两个月时间以来,关于GPT的新闻和讨论铺天盖地。在前面的演讲中,徐飞教授对GPT已经做了很多基础性的知识铺垫,所以,我主要谈谈自己对于GPT的一些个人判断和看法。我把我的演讲看成是对徐飞教授演讲的对话。

  自从去年11月底ChatGPT横空出世以来,首先引起了业内人士的高度关注。春节之后开始破圈,几乎人人必谈ChatGPT。人类从来没有像过去的两三个月里一样,经历了如此密集的AI新产品爆发。几乎每天、每周都有突破性的新产品发布,让大家眼花缭乱,应接不暇。

  面对这样一个引起所有人关注的史诗级产品,我们大家之间几乎没有任何信息差,但是,这并不意味着我们每个人对这个事情的理解的深度是相同,至于角度嘛,很有可能大相径庭。在这个群情激奋的时刻,我们特别需要保持怀疑,保持距离,在对海量信息仔细过滤之后,形成一种客观冷静、平衡综合的判断。

  我需要特别说明一下,当我谈到GPT的时候,有可能指代的是ChatGPT,也可能指代的是GPT-4,或者类GPT的其他大语言模型(LLM,Large Language Model),也有可能指代的就是人工智能AI(Artificial Intelligence)或者机器智能MI(Machine Intelligence)。这需要视具体的语境而言。

  在过去的两百年里,中国曾经积贫积弱,所以,中国人产生了某种“科技崇拜症”(科学主义或者“拜科技教”),觉得所有新的科技发明,都是好的,都是革命性的,很难听到不同的声音。不同于中国人的众口一词,我发现,美国人对于GPT的评价比较复杂,更加多元化一些。有的评价非常积极,而有的评价比较消极。仔细分析每一种评价,你甚至会发现他们的立场都与自己的利益、学术观点、研究路线等有若隐若现的关系。

  英伟达公司的CEO黄仁勋认为,“ChatGPT是人工智能的iPhone时刻”。言下之意,如同iPhone催生了大量的APP的商业应用一样,ChatGPT也会引发人工智能在各个行业层面和应用场景的创业创新。英伟达当然应该欢欣鼓舞,因为他们为OpenAI的大模型提供算力,卖出了很多GPU。

  围绕ChatGPT另外一个最大的既得利益者当属微软公司。比尔·盖茨认为,“ChatGPT是平生所见两次最具有革命性技术之一”。他所说的另外一次最具有革命性技术是70年代出现、80年代开始商业化的GUI(Graphic User Interface,图形界面)。

  GPT为什么这么重要呢?只有把GPT放在计算机发展的历史过程中,我们才能深刻理解它的是什么,以及它的价值。上个世纪的六七十年代的计算机,人类只能使用命令行的形式进行人机交互,在闪烁的提示符的后面,专业人士输入难懂难记的指令,计算机才能进行响应。到了八九十年代,当图形界面普及之后,普通人使用鼠标就可以进行人机交互,从而大大地推进了办公自动化。而自从有了ChatGPT之后,人们采用自然语言就可以进行人机交互,这是一个革命性的飞跃。

  ChatGPT是自然语言处理(NLP, Natural Language Processing)领域最重大的一次突破,同时,GPT是一个大平台,是一种底层算法,在此基础之上,人们可以架构各种应用程序。ChatGPT只能接受文本输入和输出,而GPT-4最大的特点就是多模态系统(Multimodal System)。多模态意味着,机器除了可以理解自然语言之外,还可以理解语音、图片和视频。这就使得AI可以“睁开眼睛”可以看见、并且看懂这个世界,可以“张开”耳朵听见、并且听懂这个世界。或许在不久的未来,AI还可以拥有触觉和味觉。这使得机器智能越来越接近人类智能,或者在很多领域超越人类智能。

  当然,并非所有AI领域的专业人士都把GPT当回事儿。计算机科学家,也是科普作家的吴军4月3日在得到直播间评论到,“ChatGPT不算新技术革命,带不来什么新机会”。他认为,ChatGPT所使用的基本技术早在他的博士导师1972年所写的论文中就已经出现,在1990年代自己做博士论文的时候已经广为人知。很早的时候自己就可以用类似GPT的技术写古诗,而且写的不错。

  另外一个对GPT持保留意见的是著名的语言学家、哲学家、认知心理学家乔姆斯基。他认为“机器学习通过将有根本缺陷的语言和知识概念纳入我们的技术,而降低我们的科学水平并拉低我们的道德规范”。他在一篇题为“ChatGPT的虚假承诺”(2023年3月8日《纽约时报》)中说,我们所期待的“人工智能的曙光还没有出现,这与夸张的新闻标题和不明智的投资所预料的情况正好相反”。

  面对马斯克等人签名呼吁暂停开发更为强大的人工智能至少6个月时间,深度学习领域的另外一个重量级学者,Meta公司人工智能首席科学家Yann LeCun(中文名杨立昆)则认为,“汽车都还没有发明,该怎么设计安全带呢?(2023年04月07日网络直播)。

  仔细分析这些专家的立场和观点,我们发现,凡是那些在此次ChatGPT的浪潮中赚的盆满钵满的,对此都持赞赏和积极的态度,比如,英伟达、微软;而凡是在这次ChatGPT浪潮中没有赶上趟的公司和个人,则都持相对消极的评价。例如,马斯克、吴军、乔姆斯基、Yann LeCun等。中国有一句话说得好,“听话听音”。我建议大家在浏览社交媒体上铺天盖地的新闻和观点的时候,仔细思考一下不同人对同一件事情的不同态度背后的动机和利益。不要听风就是雨,人云亦云,被各种观点洗脑,从而迷失方向。

  至于我自己是如何看待GPT呢?我的基本判断主要有两个,一个关乎如何看待GPT的重要性和影响力,另外一个关乎中美在人工智能领域的竞争。

  从事件的重要性上来说,人类历史上唯一可以与之相提并论的只有1945年的原子弹爆炸。原子弹改变了战争的游戏规则,而GPT则改变了教育和工作的基本规则,并将深刻地影响到经济和社会生活的方方面面。

  从人工智能领域的国际竞争来看,ChatGPT的横空出世,就相当于1957年的Sputnik斯普特尼克时刻。当年苏联抢先发射了人造卫星,美国举国震惊,立刻开始在科技和教育方面奋起直追。前几年,我们曾经乐观地认为中国与美国在人工智能领域的差距并不大(比如,论文发表数量和AI人才数量等),但是,现在看来,在AI领域,中国至少要比美国差五年左右的时间。我曾经被邀请体验国内某公司的类GPT产品,简单使用之后,我深切地意识到,在大语言模型方面,中国和美国差距巨大。新冠大流行三年时间,我们的国门关了起来,与世界脱节了,现在必须奋起直追呀。

  

  图1:人工智能的发展历史和未来展望

  “人们经常高估了短期变化,而低估了长期影响”(阿玛拉定律)。自从1956年约翰·麦卡锡正式提出“人工智能”这个概念以来,67年过去了,AI的发展曾经“三起两落”。每次当人类乐观地感觉到人工智能会取得巨大突破的时候,最后都在技术的成熟度和商业化方面遇到很大的阻碍,然后不了了之,资本和民众的关注度快速退潮。但是,这次ChatGPT的横空出世非常不同于以往,GPT现在已经被当做生产力提升的工具整合进了微软的Copilot或者其他软件之中,比如绘图和动画制作软件Stable diffusion, Midjourney等,极大地提升了工作效率。甚至在GPT的基础之上,出现了可以根据人类的目的(而非清晰具体明确的目标),自动连续地完成工作任务的AutoGPT。只要给AI提出一个总体的目标,它自己会分解任务并执行,同时寻求人类的反馈。总之,这是人工智能首次大规模商业化,世界变得如此不同,我们再也无法回到从前。

  02

  一个关于GPT-4的画像

  如果我们把GPT-4当做一个智能体(或者“人”),采用心理学的方法和术语,例如,智力、人格、价值观、动机等,我们可以给GPT-4做一个画像,描述GPT-4目前的发展水平。以下这些结论是我综合了我自己,以及其他学者、公司的测试结果之后,得出的一些审慎的判断。因为时间关系,我就不一一引用参考文献,或者详细说明具体的测量工具和方法。

  知识水平:GPT-4拥有无穷无尽的知识和信息。但是,广而不深,有点话痨的嫌疑。它尤其是不太擅长数学问题。但是,在调用外部专门的数学和统计软件之后,这个问题可以迎刃而解。

  通用智能(General Intelligence):所谓的智能或者智力,就是解决问题,适应环境的能力。心理学里,把智力分为一般智力和特殊智力,也就是G因素和S因素。G因素就相当于AGI(通用人工智能)的概念。G因素中最核心的两个因素包括语言能力和数理逻辑。在这两种智能领域领域,GPT-4已经可以达到研究生入学水平,包括在美国的SAT,USBAR,GRE等测试中成绩位居前10%。特别是在编程方面(规则明确的机器语言)方面,GPT-4分分钟就可以取代初级和中级程序员的大部分工作。

  特殊领域的专业水准:在很多具体的专业领域,GPT-4离专家水平仍然非常远。在自己不懂的时候,GPT经常一本正经地胡说八道,出现所谓的知识幻觉(Hallucination)。乐观估计,在接下来的几年时间里,在基础大模型(Foundation Model)的基础之上,结合具体行业的专业知识,人类完全可以训练出很多可以商业化应用的行业大模型和决策大模型(而非仅仅是提供一般性的信息和知识),例如,金融GPT、医疗GPT、法律GPT、管理决策GPT等,这是钱途可期的创业方向之一。

  因果推理水平:GPT-4在推理方面,展现出一定水平的思维链(Chain-of-Thought),特别是,当你要求它明确地写出分析过程的时候,它也可以做到的。清华大学崔鹏博士在集智俱乐部(2023年03月24日)的一次网络讨论会中,展现了自己的一个测试结果。他认为,基于事实的因果推理(factual casual inference level)方面,GPT-4可以达到9/10(满分为10分),在外显的因果推理(explicit casual inference level)方面,GPT-4达到3/10的水平,而在内隐的因果推理(implicit casual inference level),GPT-4基本上等于0/10。因为只是基于初步的测试,所以,以上结果仅供参考。

  情绪感情:GPT-4并不具有人类意义上的情绪情感,它所表现出来的“愤怒”或者“喜欢”等,统统都是伪装出来的,仅仅停留在字面意义上,大家不要相信那些人和AI谈恋爱,或者AI逃出实验室的荒唐故事。不过,斯坦福大学的一个心理学副教授经过比较严格的测试之后认为,ChatGPT可能具有9岁儿童的同理心。如果让我大胆推测一下,GPT-4至少具有12岁少年的同理心。可是,关键问题在于,建立在关于ToM(Theory of Mind,心智理论)之上的传统测量理论是否合适测试AI的“同理心”呢?这一点值得商榷。

  人格:很明显,GPT-4不具有人类意义上的人格特点。但是,很多人也发现GPT-4具有典型的讨好型人格(内设的算法),这可能与提示词和所使用的语气有关系。比如,如果你问ChatGPT,“3+4等于几?”它会回答你“等于7”。但是,如果你非常强硬地说,“我妻子认为3+4=34,或者3+4等12”,那么,ChatGPT很有可能会委曲求全,顺着你的话说你老婆是正确的。为了保护人类免受AI的侵犯(阿西莫夫机器人三原则之一),GPT习惯于做外部归因,把自己的错误归因于研究团队的算法设置,或者做出各种推卸责任的免责申明。

  价值观:不同的大模型背后隐藏着特殊的伦理和价值观,这与预训练中所用的大数据、以及算法设置等有关。GPT-4具有典型的白左、MEAN(中人)和政治正确的特征。同样地,百度的“文心一言”或者阿里的“通义千问”也具有中国主流社会价值观的特征,所以,大模型日益成为意识形态斗争的新战场。除此之外,人工智能很容易被不法分子利用,成为传播大规模虚假信息传播的温床。例如,有人利用DeepFake深度伪造的换头技术,把一个人的脸与另外一个裸体结合在一起,制造出色情照片进行诈骗,或者在网络上恶意诋毁他人的名声。

  动机:很显然,GPT没有属于人类的欲望,缺乏主动性,它不会具有自由意志,不会逃出实验室。但是,不同于以前的“小冰”、“小度”或者Siri,ChatGPT第一次具有了连续对话聊天,对于用户产生了极大的吸引力。

  创造力:GPT-4看似好像很有创造力,可以生成新的内容(小说或者设计),事实上它的创造力停留在对已有知识的重新组合的水平上。换言之,GPT-4已经基本上可以做到熊彼特所定义的组合式创新。但是,GPT-4无法进行从0到1的原创性思考,无法对前沿问题进行探索,所以,绝大多数情况下,GPT不是知识发现的工具,无法像爱因斯坦、梵高或者马斯克等人类精英一样进行原创性思考。当然,也存在例外情况,例如,三四年以前,AlphaFOLD就可以对蛋白质的折叠结构进行研究,现在AphaFold已经搞清楚了人类几十万种蛋白质的3D结构,这对于生物医药的研发非常有帮助。以前研发一种新药可能需要10年20亿美金,未来的研发成本会大幅度降低,这在新冠疫苗研制的过程中已经崭露头角。

  具身智能:所谓具身性(embodiment),是指人类认知的诸多特征事实上是因为人类的生物学意义上的“身体组织”所塑造,而不是某种与身体绝缘的笛卡尔式的精神实体的衍生物。具身性源自法国哲学家梅洛-庞蒂的知觉现象学,他认为:身体是在世界上存在的媒介物,拥有一个身体,对于一个生物来说,就是介入确定的环境、参与某些计划和继续置身于其中。很显然,GPT-4缺乏具身智能,无法感同身受地拥有类似人的知觉、痛苦和欲望等。但是,在未来十年里,GPT结合机器人技术(新材料和生物科技)一定会产生某种程度的具身智能。

  具有讽刺意味的是,我们以前经常讲,人类因为有身体这样一个臭皮囊,所以有七情六欲,有“贪嗔痴慢疑”,而“贪嗔痴慢疑”是我们需要通过毕生的修行极力消除的。但是,在人工智能的时代,珍惜和发挥人类的具身智能,甚至某种程度上的“贪嗔痴慢疑”恰好是人之为人的重要优势。如果人类智能变成人工智能,岂不非常无趣?

  04

  GPT所带来的挑战与困惑

  而我自己认为,GPT所带来的根本性挑战,主要包括关于自我、意识、智能和人类本身的理解发生了根本性转变。具体到社会经济层面上,则会产生大规模结构性失业,生活意义感的丧失等问题。贫富分化将更加严重,与此相关的财富分配问题等促使我们需要重新设计社会制度。在这种情况下,教育到底应该怎么办呢?具体到中国教育,到底应该怎么办呢?特别是,商学院教育的出路何在?

  首先,GPT的横空出世,前所未有地“危及”到人类关于自我、意识、智能和人类本身的理解,这是一个根本性的问题(fundamental questions)。其他的问题,例如,教育和工作,都是从这个根本性问题衍生出来的。这些看似抽象的问题,有着非常具体的实际应用。如果就每一个问题充分展开进行讨论,并且提供详细的科学证据,这不是我今天的演讲可以做到的。大家可以尽情地参考心理学、人工智能、神经科学和历史学等领域的最新研究。我只简单地罗列出来一些问题,希望引起大家的思考。

  问题1:究竟什么是智能?如果我们把智能定义为问题解决和适应环境,那么,GPT在多大程度上已经可以被当做通用问题解决机?

  问题2:哈佛大学心理学家Gardner多年之前就提出了多元智力理论。除了语言智能和数理逻辑智能这两种目前的教育体系特别看重和考核的智能之外,哪些智能是AI很难拥有的?例如,运动智能、社会智能、自我反省智能、艺术与审美的智能、音乐智能等。教育是否应该在多元智能方向大力发展呢?

  问题3:智能与自我、意识等否可以分离?是否存在没有意识的智能?GPT-4来了之后,我们第一次意识到,GPT没有自我,没有意识,但是,有智能。人工智能(硅基生命)与人类智能(碳基生命)可能属于两种不同类型的智能,人工智能在某些领域肯定会超越人类(比如,认知加工能力和计算能力),但是,在某些领域,肯定不如人类(例如,情感和具身智能)。

  问题4:从还原论的角度来说,自我和意识在多大程度上可以被还原为生化活动的幻觉,或者电生理活动的噪音?如果从整体论的角度来看,大脑中还有什么活动是不能被还原成生化活动或者电生理活动的呢?

  问题5:所谓的自我、意识和自由意志会不会是人类集体虚构出来的一个概念,属于主体间性(inter-subjective)?在我们的大脑中,是否存在一个“小人”一样的自我,每天在我的脑子里叨叨叨,提醒我需要具备良知?

  问题6:在传统社会里,个体不重要,重要的是家庭、家族和社区。所谓的自我、意识和自由意志会不会是过去五六百年里,自从文艺复兴、启蒙运动和工业革命之后,人文主义强加给我们的某种社会观念?

  问题7:马斯克认为,碳基生命(人类)在某种程度上可以比喻成是硅基生命(人工智能)的开机引导程序,人类的存在是为了迎接一个更加高级的智能生命,也就是硅基生命。在我看来,人类是一个没有经验的动物,学习效率很低。每个孩子生下来都得从头学起,而且父母辈的错误,他们仍然会犯。为什么新生儿不能生下来就继承了人类的绝大多数知识,然后再在这个知识基础上继续前进呢?为什么我花了几十年时间所积累下来的知识和智慧,一旦死了之后,就必须随着烈焰烟消云散呢?为什么不能把我的大脑进行复刻,存储在电脑里,再装上某种感觉器官,发射到太空中去呢?宇宙如此辽阔,人类在大气层下面已经晃悠了几百万年,现在才刚刚走出大气层,什么时候人类才能飞出太阳系和银河系呢?相比碳基生命,在宇宙探险的时候,硅基生命更有优势,它可以不吃不喝,只需要基本的能量和信息,何乐而不为呢?至少我自己的是乐见其成。当然,如果没有死亡恐惧,可能人类同时也丧失了爱和对美的欣赏能力,对时间的珍惜。

  以上所有问题,都是一些大问题,都值得皓首穷经去深入研究,也有很多相关的前沿探索。因为时间关系,我就不展开讨论了。我推荐大家去重读一下以色列历史学家赫拉利·尤瓦尔的《人类简史》、《未来简史》和《今日简史》。我以前认为他的思想过于悲观,但是,自从ChatGPT横空出世以来,我重读了他的这三本书,感觉到他非常有前瞻性,他的观点值得重视。

  05

  未来的就业市场

  自从GPT-4推出以来,许多人产生了严重的失业焦虑。两个月前OpenAI公司发布了一份研究报告《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》(GPT作为通用目的技术:关于大语言模型对劳动力市场的潜在冲击的早期评估)。在这个报告里,OpenAI评估了不同类型的职业受到GPT冲击的风险,得出的基本结论是,GPT对白领的工作影响很大。相反,倒是有一些轻体力工作没有太高的GPT暴露风险,包括卡车司机、摩托车机械师、管道工、调酒师、农业设备操作员等。

  虽然以GPT为代表的AI会创造出许多新的工作,例如,提示词工程师,但是,随着AI的发展,人类的确面临着一个大规模的、结构性失业浪潮。即使我们充分考虑到社会的各种摩擦力和保护机制,短期内社会动荡难以避免。至于未来,除非彻底改变我们关于社会、工作和金钱的基本信念、社会契约、政治制度等,否则,很难说社会可以达到一种新的动态平衡。

  不同于以往的产业革命所伴随的劳动力转移,人类从农业转移到制造业,再从制造业到服务业,现在人类已经无处可去了,服务业也已经人满为患,发达国家70%的就业都是在服务业。或许在未来,人类可以去的地方只有两个,一个是星辰大海,殖民其他星球,另外一个是元宇宙中的虚拟工作。短期内,后者可以解决更多的就业问题,而前者还有待于类似马斯克的SpaceX公司的发展。

  当AI和机器人技术结合在一起的时候,社会生产力会提高很多倍。在未来,社会大概率地分化成20%的技术精英和政治精英,以及其他80%的无用阶层。超过80%的人可能变得无足轻重,根本不值得被剥削。所以,前几年大家争论中国出生率下降的问题时,我就坚定地认为这些都是伪命题,根本不值得一提。“傻瓜,重要的问题是失业”。

  面对技术“进步”(我痛恨这个词)所带来的阶层分化,20%的精英获得巨额收入,忙得要死,而80%的无用阶层依靠UBI(Universal Basic Income,全民基本收入),每天在家打游戏,沉迷于虚拟世界,混吃等死。所以,贫富分化更加严重,共同富裕成为一个更加紧迫的问题。我听说OpenAI的创始人一直在研究一种加密货币World Coin。看来他早已经遇见到GPT对社会的巨大冲击,在为UBI做准备。美国总统独立候选人杨安泽也因为UBI这个政治主张,在美国政坛异军突起,收获众多眼球。

  在未来基本生活收入得到保障不是大问题。关键是,如果绝大部分人失去工作,将面临着生活意义感丧失的问题。我们现在习惯了的这种工作形式是在过去两三百年里,因为工业革命才诞生的。现在这种工作形式和价值观,将不再适合即将到来的人工智能时代。如果我们再固守“工作创造价值”、“劳动创造价值”等传统观念,很多人将陷入严重的自我否定、焦虑和抑郁之中。我们需要重新想象工作是什么?生活是什么?人们活着的意义是什么?总之一句话,我们需要建立新的社会契约。时代呼唤21世纪的卢梭、亚当·斯密、马克思、哈耶克和马斯洛。

  技术和政治之间的关系是我最近一直在思考核心问题。在我看来,短期内,在某些国家,政治逻辑会大于经济逻辑和技术逻辑,人工智能的影响会受到一些制度性限制或者保护。但是,长期来看,技术逻辑和经济逻辑一定会大于政治逻辑,因为生产力决定生产关系。

  在现代社会里,技术就像哥斯拉怪兽一样摧枯拉朽,横冲直撞。这一点在过去三年新冠大流行期间看得非常清楚。当政治权力和信息技术(各种行程码、健康码等)和生化技术(核酸检测)强势耦合在一起时,整个社会短期内能被管制得一点动态不得,但是,时间长了,社会经济和民生会受到严重影响。在经济和社会压力下,过于严苛的疫情防控迟早得放开。而放开之初,首先需要废除的就是各种码和核酸检测,换言之,就是政治和技术进行解耦。类似的,AI所带来的社会冲击,也会经历一个抗拒-消化吸收-再抗拒-再消化吸收的过程,而且这个过程永无宁日。

  有意思的是,社会主义制度比资本主义制度更能有效地应对人工智能带来的冲击,提供工作安全,重新进行社会财富分配。为什么呢?因为在资本主义社会里,资本是老大,资本说了算,资本内在的要求是追求跟高的利润,鼓励强者恒强,因此会产生无序竞争。而社会主义至少在理论上承诺最大程度的公平,保护弱者的权力。所以,我估计,马克思主义和社会主义会在全世界强势兴起。大家不要误解,不要把社会主义等同于计划经济。社会主义最重要的特征是公平。

  当然,我最希望看到的是,不同社会制度之间相互学习,会诞生一种新型的社会制度,它既不是传统意义上的社会主义,也不是传统意义上的资本主义,而是一种技术精英和政治精英主导的、同时重视普通人的幸福感的丰饶时代。人类每周4天工作制、甚至是3天工作制。在全民基本收入保障的基础上,工作成为可选项,而不是必选项,人们工作更多是为了兴趣和意义感,而不是因为生存压力。

  在那样一个丰饶社会里,机器人可以在黑灯工厂里自我复制,物质生产极大提升,超市里的商品丰富而且便宜。一少部分精英忙得要死,在继续创造更为发达的技术系统,而绝大多数人闲的要死,成为技术系统的弃儿或者奴仆。少部分人成为尼采所说的超人,绝大多数人成为末人。前者拥有权力、财富和美貌,甚至可以活到200岁以上,而后者每天混吃等死,在虚拟世界里消磨时光,或者做一些社区性的服务工作,安放自己的爱心和情感。

  短期内,人类是否有可能催生出一个关于人工智能的全球治理的大宪章?我个人赞同马斯克等人发起的暂停训练更为强大的AI的号召,虽然我知道这是“明知其不可为而为之”的螳臂当车。如果人工智能停留在GPT这种陪聊水平,并不可怕。最可怕的是人工智能和生物科技结合在一起,用基因技术对部分人类进行改造升级,如果那样,潘多拉的盒子一旦打开,未来将变得难以想象。

  至于未来的工作形态,本质上,只有一种工作可以大行其道,那就是人机协同和人机融合。

  在过去的两个月里,我和我的朋友频繁使用GPT,试图搞明白什么样的问题GPT不擅长回答。结合我所阅读的一些资料,我认为具有以下特点的工作,至少在短期内很被GPT平替,很难受到人工智能的巨大冲击。

  脑力工作:涉及创造力的、审美的、批判性思维、悖论整合、想象力、整全性、科学探索、歧义性的、不确定性的、无限性、意义赋予、意义生成等。

  体力工作:涉及轻体力手工精细操作、体育运动、演艺性的等。

  社会工作:涉及政治性、组织协调、管理的、创业的、人际关系的、深度情感服务、同理心等。

  

  图4:智力型工作被AI接管的二维图(摘自《AI未来进行式》)

  

  图5:体力型工作被AI接管的二维图(摘自《AI未来进行式》)

  06

  教育到底应该如何办?

  面对GPT所带来的冲击,我们先来讨论一下商学院的教育该怎么办?然后,再泛泛而谈大学教育应该怎么办?我先提出两个操作性很强的“研究假设”,请各位参考。在某种程度上,这也是两个创业机会。

  假设1:以哈佛和毅伟为代表的商学院崇尚案例教学,尤其是决策型案例,认为“管理即决策”(至少决策是管理者的核心工作之一),所以,他们要求学生就读MBA期间,要做至少两三百个案例分析,以便为未来的职业生涯进行预演和彩排。假如我们把哈佛、毅伟商学院、中欧、以及中国管理案例共享中心几十年来所积累下来的五六万个决策型案例,包括案例教学指南,喂给GPT-4,是否有可能训练出一个充满实践智慧的管理者来?

  如果这样的“管理者GPT”可以训练出来,那么,将极大地冲击现在的管理咨询行业。因为任何一个公司,都可以把自己公司所面临的决策问题总结为一个案例,提交给GPT,然后,GPT会给出自己的分析结论。这可以做为管理者决策的辅助手段,咨询公司就很难再动辄收取几十万、甚至上百万的咨询费了。

  我认为这种想法是可行的。唯一的遗憾是,现有的五六万个决策型案例,在GPT看来,根本就不是“大数据”,而是“小数据”,都不够塞牙缝的。这种建立在小数据上的预训练模型,能否涌现出优秀管理者所拥有的实践智慧,是一个值得考虑的问题。

  假设2:当下主流的管理学研究范式就是做定量实证研究。绝大多数管理学者围绕一个窄小的主题上进行深耕,因此,缺乏对于组织管理的整全性认知。假如我们把AMJ, JAP, JIBS,JBV、《管理世界》和《经济研究》等领域的几百万篇学术论文,尤其是实证文章喂给GPT-4,我们是否有可能训练出一个有整全性认知的管理学者呢?我是非常希望GPT可以承担这种人类根本无法完成的任务。

  我们知道,元分析(meta-analysis)是知识积累的重要方法之一,我已经看到有人在尝试用GPT来做元分析了(请参考公众号“管理卫来”,2023年3月3日,黎英明的文章《ChatGPT能做元分析吗》),原则上,这是可行的。只要有同一主题的所有相关实证研究的相关系数矩阵,GPT(再调用某个擅长统计的API插件)就可以轻而易举地在一天时间内完成一个元分析。反复使用GPT做元分析,再反复使用GPT强大的文献摘要总结功能,我们或许可以整合过去几十年来所积累下来的管理学研究成果,培养出具有整全认知的管理学者。

  2005年5月,在我自己的博士论文的答辩会上,我就质疑主流的实证研究是否能让我们获得关于管理的整全性认知,以及这种学术发表制度是否合理。现在17年时间已经过去了,人工智能时代已经来临,而这种长周期的发表过程、被包装成精致化的常识,越来越不适应时代变化,商学院必须从研究、教学和社会服务等各个方面进行彻底的改革,才能跟上时代变化的脚步。

  作为一个大学老师,同时作为两个女儿的父亲,GPT极大地影响了我对学习、教育的看法。我们这一辈或许可以安全退休,但是,孩子们怎么办呢?他们(她们)应该选择什么样的专业,如何进行学习,才能避免过早失业的命运呢?

  以前,终身学习是对那些优秀者而言的,而现在,终身学习成了生存的基本技能。但是,终身学习本质上就是一个伪命题。因为人类大脑在五万年前就已经定型了,再没有发生任何质的变化。用一个陈旧的大脑,如何应对当今的信息爆炸、知识爆炸和智能爆炸呢?绝大多数人在三四十岁的时候,已经学不动了,无法再大幅度地改变自己。在未来,如果一个人四十岁失业了,他或许还可以通过再就业培训获得新的工作技能,找到新的工作。但是,如果到了五十岁,他第二次失业,他以前擅长的工作被AI替代了,而社会强制要求七十岁才能退休,在这种情况下,再让他重新鼓起勇气接受新的职业培训,实在是太难了,因为这根本不符合人性。

  面对人工智能,教育是应该主动拥抱变革。但是,教育不是万能的,个人能力是有限的,我们不要对个体抱有不切实际的期望。我们需要更多地从社会制度设计上多做一些努力,才能让社会免于巨大的动荡,让个人减少失业的痛苦和焦虑。

  在人工智能时代,教育到底应该怎么办呢?教育可以做什么呢?我的几点建议,请大家参考。

  第一,教师需要做新技术的早期使用者,主动拥抱变革,甚至从中看到机会。对于GPT,学校不能完全拒绝,也不能放任自流。在适当的情境下,应该大力鼓励学生使用GPT,在另外的情境下,则禁止使用GPT。另外,不能因为有了GPT,就彻底放弃传统的知识学习和思维训练,因为学习知识的过程就相当于减肥,燃烧知识(脂肪),获得思维提升(肌肉)。GPT可以作为学生的一对一辅导的定制化导师,也可以作为教师的得力工具,做一些重复性的工作,包括批改试卷、甚至讲课。教师可以把自己的课件、讲课视频和最新研究心得输入GPT,训练出具有个人风格的教师专属GPT(CharacterGPT),让GPT成为教学的辅助手段。

  第二,在人工智能的时代,知识大幅度贬值,而上面我所说的其他多元智能更加重要。所以,教育教育,应该以育人为重,以知识传授为次。器识为先,知识为末,培养学生健全人格和创造力(请参考清华大学杨斌《GPT-4时代的教育到底应该怎么办?》,公众号“大变局下的中国管理”,2023年3月15日)

  第三,教育应该真正地做到以学生为中心,更多地采用案例教学、实验、小组项目制等探索性学习方式,鼓励更多的辩论和试验,培养学生的表达能力和合作精神。

  第四,教育必须尽可能地强调多学科融合,帮助学生建立知识地图,知道在什么地方可以找到自己需要的知识,引导学生探索不同学科之间的链接。西交利物浦大学致力于培养未来的领导者,大胆采用学习超市的形式把世界最前沿的产业知识引入学校,这非常好。领导者不需要成为某个狭窄领域的专家,但是,必须成为通才、最好是成为席酉民教授所说的产业家。不过,话说回来,我很难想象一个人浮光掠影,蜻蜓点水地同时学习多门学科,可以成为一个通才。我的个人经历提供了另外一种可能性。从理论物理本科,到实验心理学硕士,再到管理学博士,每隔几年我就换一个专业进行学习,同时,我把对哲学、历史的爱好和钻研贯彻一生,融入专业学习之中(历史与逻辑的统一)。我觉得这种串行加工方式比并行加工方式更适合培养通才。无独有偶,管理学大师德鲁克这也这样做的。

  第五,对于绝大多数人来说,上大学的收益与投资的比例越来越低。尤其是那些普通大学根本不值得上。学生和家长急需改变就业观念,认识清楚孩子的能力,尽早分流。如果您的孩子不属于学术型人才,及早考虑从事轻体力工作或者服务业。

  第六,在宽厚融通的基础知识之上,每个人都需要掌握一门技艺。我的大女儿不太擅长理工科,但是,在文史哲和艺术方面非常有天赋。我们鼓励她把历史作为主攻方向(例如,全球通史、艺术史等),但是,要求她文史哲融会贯通,同时,发挥她在钢琴和书法等方面的天赋,掌握一门AI很难代替的,在任何时候都可以谋生的技艺。这个世界不可能都是理工男的天下,也需要有艺术女。做21世纪的人文学者,可能会越来越类似古代的巫师,抚慰人类心灵的工作,只要你做得非常出色,同样有社会地位。

  第七,即使是人文社科专业的学生,也要保持开放,多了解一些最新前沿科技,知道世界变化的方向。如果你不能成为新科技的创造者,也要成为新科技的早期使用者。站在科技和人文的交叉口的人,在未来才有竞争力。

  第八,珍惜你的具身智能,并充分发挥它。虽然身体这个臭皮囊给我们带来很多烦恼,很多的贪嗔痴慢疑,但是,它也是我们人之为人的根基,它让我们有七情六欲,有死亡恐惧,也有了爱和审美。我们需要唤醒已经被社会化和工业化压迫已久的感觉器官,更多地做一些身心灵方面的修炼,让自己的感官变得更敏锐起来。

  第九,多学习一些技术哲学、技术史方面的知识,改变我们关于技术中立论的错误观念,强化关于技术伦理方面的教育和研究。关于这一点,我有很多的话想表达,所以,单列一个主题讲一讲。

  在人工智能时代,人如何进行学习呢?反思最近一段时间里我个人对技术哲学这个新的知识领域的探索过程,我发现我综合采用了“万事皆问GPT”、“请教专家,建立知识地图”、“漫游式学习”,以及在前三者的基础上的“混合式学习”,以及对学习方法和学习过程的反思性学习。我发现,前三种学习方法都有非常明显的缺点,只有综合采用多种方法进行混合式学习,尤其是在更高阶的维度上反思和关照自己的学习过程,才是AI时代的生存之道,以及应对策略。我把我的学习方法总结如下,请参考。

  

  本文是2023年4月16日赵向阳博士在第十五届“管理学在中国”会议上的主题演讲,会议地点在西交利物浦大学太仓校区。 修改后的文章将收入2023年6月即将出版的《大变局下的中国管理3:商学院批判和自我革新》中。

  

  生成式人工智能呼唤精准分层治理

  张凌寒 中国政法大学教授、博士生导师

  原文刊发于《法治日报·E法之声》2023-04-20

  为促进生成式人工智能技术健康发展和规范应用,国家网信办近日发布了《生成式人工智能服务管理办法(征求意见稿)》(以下简称《办法》),向社会公开征求意见,引起广泛关注。

  与以往分析已有数据的决策式人工智能不同,生成式人工智能可以创造新信息与内容。生成式人工智能走入公众视野的标志性事件是美国人工智能研究实验室OpenAI于2022年11月30日推出ChatGPT,其不仅具备非常惊艳的语言理解、生成、知识推理能力,而且能够实现快速迭代。一时之间,谷歌、阿里、百度等互联网公司纷纷推出自己的生成式人工智能产品,生成式人工智能也以前所未有的态势闯入了社会生活的方方面面。

  生成式人工智能虽然表现令人称叹,但带来的风险与法律挑战同样令人担忧。其可能存在知识产权侵权、生成虚假信息等问题,也存在数据安全和隐私保护风险。由于生成式人工智能的发展超出各国监管预期,因此尚未与各国法律中对个人信息处理者、数据处理者与算法服务提供者的相关义务协调衔接。

  正是考虑到生成式人工智能给社会治理等方面带来的挑战,近段时间以来,各国政府不约而同做出了相应的立法与监管动作。意大利宣布从3月31日起禁止使用ChatGPT,德国、法国、爱尔兰等国也准备效仿意大利的做法,加强对生成式人工智能的监管。4月11日,美国商务部下属机构也发布“人工智能问责政策”征求意见稿,就是否需要对ChatGPT等人工智能工具监管征求意见。正是在这样的背景下,国家网信办发布《办法》,拟对生成式人工智能进行规范。

  此次《办法》对利用生成式人工智能提供服务提出了一系列要求,包括生成式人工智能服务提供者应当进行安全评估,并对生成的内容进行标识;采取技术措施,防止虚假信息生成,防止算法歧视,以及防止侵害他人合法权益。这些要求体现了网信部门对内容安全责任分配的高度关注以及“装好刹车再上路”的监管思路。在当前各类生成式人工智能服务广受关注、千帆竞发之际,这有助于起到凝聚共识和规范指引作用。

  需要关注的是,生成式人工智能的功能远不止于提供信息内容服务,其可以作为“技术基座”给金融、医疗、自动驾驶等多个领域赋能。在产业分层中,首先通过海量数据使生成式人工智能底层大模型“见多识广”,具有强大能力;其次通过“术业有专攻”的专业优化训练,让其适配不同行业和场景;最后再向C端用户直接提供服务应用。由此可见,生成式人工智能未来将成为社会的“技术基础设施”。

  基础设施是经济社会发展的重要支撑,前期建设需要国家布局规划适度超前发展,后期使用需要强调公共服务的公平性分配,并在此过程中统筹安全与发展。生成式人工智能监管不宜为了服务应用层的信息内容安全,影响其作为基础设施的功能研发,对训练数据、模型开发等施加过多义务。

  生成式人工智能应精准治理,依照技术—行业—应用的上下游分为“模型基座—专业模型—服务应用”三层,区分治理理念与监管重点。技术层的模型基座治理应以发展为导向,关注科技伦理、推动公共训练数据池建设、合理分配算力;专业模型层治理应以审慎包容为理念,关注关键领域与场景,注重遵循行业规范,在此领域可引入分级分类治理;服务应用层应关注信息内容安全、市场竞争秩序与用户权益保护,沿用原有评估备案审计等监管工具,并适时引入新型监管工具,细化合规免责制度,给新兴技术发展留下试错空间。

  管制和创新,也即安全和发展,是网络立法的永恒命题。从某种意义上讲,不发展是最大的不安全。掌握人工智能治理的话语权、规则制定权,抢先形成新的国家竞争优势,已成为世界各国的努力目标。我国在个人信息保护和数据立法领域与欧盟、美国并行,在算法治理和深度合成治理领域则成为领跑者。在此基础上,应以促进生成式人工智能健康发展为契机,积极构建符合我国实际且能够促进我国人工智能技术产业长远健康发展的治理制度,这样也有助于形成我国的制度竞争优势。

  .

  《南方治理评论》稿约

  《南方治理评论》始创于2013年,CNKI来源集刊。广州大学南方治理研究院主办、社会科学文献出版社出版的连续性学术辑刊。《南方治理评论》秉持“培育公共精神,直面转型中国,诠释社会热点,扩展学术深度,贴近重大需求,服务国家治理”,追求“本土化、专业化、个性化、国际化”,崇尚原创研究、微观研究和深度研究的学术精神,试图在中国繁杂的地方语境下运用本土话语体系着力解读地方性知识和日常性逻辑。主要设置有“学术一线”、“数字治理”、“健康治理”、“灾害治理”、“南国讲堂”、“伶仃书评”、“回归访谈”等栏目。

  通讯地址:广州市大学城外环西路230号文逸楼512室

  投稿邮箱:gdgzpar@163.com

  投稿网站:http://iedol.ssap.cm.cn/(选择“社会政法”)

  投稿体例:https://pan.wps.cn/l/srr2hdj

  《南方治理评论》第8辑

  《南方治理评论》第7辑

  《广州公共管理评论》第6辑

  《广州公共管理评论》第5辑

  《广州公共管理评论》第4辑

  《广州公共管理评论》第3辑

  《广州公共管理评论》第2辑

  《广州公共管理评论》第1辑

  当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 爱殇 音乐: 小时姑娘 - 爱殇《东宫》电视剧插曲

  

  广州大学南方治理研究院

  责任编辑:

上一篇:5部专供成年人的动画片,既可爱又刺激
下一篇:女人三十,能否用冻卵夺取人生自主权?

最近更新娱乐资讯