第一观点||陈永伟:重思技术进步的逻辑

栏目:游戏资讯  时间:2023-08-09
手机版

  如果我们对技术演化的历史进行一番更为深入的考察,就会发现那些重大的技术——无论是蒸汽机、发电机,还是晶体管、芯片,其发明都是来自于组合创新的力量。晶体管的发明人之一、1956 年诺贝尔物理学奖得主威廉·肖克利(William Shockley )曾说过,“所谓创新,就是把以前独立的发明组合起来”,其道理就在于此。

  理解了这一点之后,我们就可以进一步从组合变迁的角度来对技术进步进行思考。具体来说,我们应该对 “谁来负责组合”、“以什么目标组合”、“在什么条件下组合”等问题进行考察。

  贝尔兴衰的启示

  在20 世纪的技术发展史上,贝尔实验室是一个绕不过去的名词。在这里,走出过15 位诺贝尔奖获得者、7 位图灵奖获得者以及其他各种奖项得主。据粗略统计,贝尔实验室一共获得过3 万多项专利。晶体管、激光器、太阳能电池、发光二极管、数字交换机、通信卫星、电子数字计算机、C 语言、UNIX ……这一长串后来改变世界的技术最初都来自于贝尔实验室。

  究竟是什么原因,使得这样的一所由企业创办的研究机构成为了二十世纪的创意工厂呢?一般认为,这归功于其独特的运作机制。1950 年,时任贝尔实验室主任的默文·凯利(Mervin J. Kelly )提出了将贝尔实验室建成“创意技术学院”的构想,并按照这一理念对实验室进行了改造。

  首先,在研究人员的招揽上,凯利采用了兼收并蓄的策略。虽然贝尔实验室每年招聘的人数不多,但十分注重质量和多样性。各行各业的人才,无论是理论人才,还是技术高手,只要有真才实学,都能在贝尔找到工作。从技术组合的角度看,这种招聘方式大幅扩展了技术组合的可行集。可行集大了,可能组合出的新技术也就多了。

  从后来的实践看,这种人才招聘思路产生了很好的结果。例如,在点触式晶体管的发明过程中,理论物理出身的巴丁(John Bardeen )虽然以其天才的想象力很快就想出了新发明的基本结构,但将构思变成真正的产品时却遭遇了困难:他很难找到一种合适的材料来充当电极。多亏了同事、化学家吉布尼的建议,他才顺利解决了这一难题。可以想象,如果没有这种不同技术背景之间的人才的合作,巴丁固然也可能通过像爱迪生测试灯芯材料一样,用穷举法找出合适的电极材料,但这个过程就会是十分漫长的。

  其次,在人员的管理方面,凯利主张给研究人员充分的自由。他认为,任何干扰都会使研究人员失去“与他们科学兴趣前沿的联系”,并降低研究效率。基于这一思路,他主张尽可能不要给研究设定目标、进度表和最后期限。在这种宽松的安排之下,研究人员可以更多地按照自己的兴趣去选择研究领域。

  再次,在研究环境的营造上,凯利也花费了很大心思。从工位设计到办公室、实验室的布局,他都亲自进行了设计,力图为研究人员创造出更为舒适的环境,从而让他们更好地激发创意。

  贝尔实验室从一个企业实验室成功地转变成了一个新技术的孵化器。在这个孵化器里,各种背景、各种专业的人可以高度自由地将自己的思想贡献出来,相互激荡。不同的旧技术要素就在这种激荡中相互交融,新的技术自然而然地涌现了出来。

  不过,贝尔实验室虽然创造出了数以万计的新技术,但这些技术大部分并没有成为贝尔自身的优势。在很多新技术取得突破之后,技术的发明人就立即离开了贝尔——事实上,也正是通过这种方式,贝尔才成为了整个硅谷,乃至整个美国的创新之源。那么,究竟是什么导致了这一切呢?在我看来,原因主要有两点:

  一是错误地采用了让研究人员作为管理者的模式。一个好的研究者通常可以在自己的技术领域有很多的建树,但他在管理上却未必是称职的。尤其是当一个研究人员在某个方向上有很高成就时,他就可能非常执拗地要求团队沿着自己的方向去进行扩展,而不顾这样做有多大的成功概率,又能带来多大的经济收益。这样,不仅技术进行组合式创新的可行集会大幅缩小,即使真的能够有所创新,它也未必是符合经济效益的。

  二是经济利益的缺乏。一个人将兴趣作为职业,总有一天,他也会对这个兴趣感到厌倦。在这个时候,如果还需要让他继续这个兴趣,就需要提供额外的激励。这一点对于科研来说,也是成立的。一开始,研究人员对技术的钻研大多是源于兴趣,但一旦这个技术成功了,有了商业价值,就必须及时给他提供对应的经济分成,否则对于多数的研究人员而言,其热情就会很快耗尽。然而,贝尔实验室偏偏就缺少这样的机制。或许是要突出机构的研究属性,所以研究人员所取得的专利都归实验室,研究人员本人只有署名权。这就导致了很多研究人员的不平,最终愤而出走。

  关于贝尔实验室最后衰落的原因,或许我们可以在肖克利的身上集中找到。在贝尔实验室,他是最早萌生开发晶体管想法的人,也正是他拉来了布拉顿(Walter Brattain )、巴丁等人一起进行晶体管的研发。然而,当布拉顿和巴丁证明,肖克利最初的设想并不是最佳方案,并且找到了自己的技术路线后,肖克利却心生嫉妒。作为领导,他开始向二人隐瞒自己的新思路,并偷偷在二人的基础上进行研究。不仅如此,他还将自己的想法整理成了专利,并且只署了自己的名字。他的这种自私的做法完全激怒了布拉顿和巴丁,最终两人愤而出走,离开了贝尔实验室。

  后来,肖克利因为在晶体管上的成就而声名大噪,但贝尔又没有对应的激励机制,因而他也选择了离开贝尔,单独创业。作为行业专家,他非常慧眼识珠地招募了包括诺伊斯(Robert Noyce )、摩尔(Gordon Moore )等当时还名不见经传的员工。然而,肖克利并没有给这些部下足够的自由空间,而是执拗地让他们继续改良自己钟爱的PNPN 二极管。最终,这导致了这批优秀人才的出走,并成立了“仙童”公司。

  通过对贝尔实验室兴衰的复盘,我们可以看到,让一些具有不同专业背景的人聚集在一个宽松的环境当中,或许是催生组合式创新、实现技术突破的一个良好途径。但是,我们也不能高估专家学者的献身精神,对于他们的利益诉求也要考虑。在知识产权领域,有一句话叫做 “创新来自于天才之火加上利益之油”,这个总结可谓十分到位。

  风险投资和仙童

  通过贝尔实验室和肖克利的例子我们可以看到,由于种种原因,一些研究人员在取得了重大的研发成果之后,会选择离开原本供职的大公司。如果从原公司的角度看,这无疑是一个损失,但如果从社会的角度看,结论可能是相反的。当这些人带着技术出走之后,他们就将技术扩散了出去。通过将这些技术与市场上的其他技术再组合,就可以取得更多的突破,创造出更多的新技术。但是,在这个过程当中,就存在一个问题——一般来说,技术人员不会拥有很多财富,他们又有什么能力将自己的研究成果转化为产品,并最终从中获取回报呢?这时,风险投资(Venture Capital )就扮演了很重要的作用。

  和一般的股权投资不同,风险投资主要是针对初创企业的,所以它更看重企业成长后带来的股权价值上涨。因此,风险投资不仅可以帮助初创企业解决急需的资金问题,还会对其发展提供各种支持。

  不仅如此,风险投资还具有一项重要的职能——筛选项目。总体上看,技术专家对于市场的敏感性是相对较差的。他们或许很懂自己的产品,但却可能不知道它能在什么地方发挥作用。因而,纯粹的技术专家通常会劳神费力,最后做出一个不被市场认可的东西。但是,风险投资者是追求利润的,也通常对市场的需求更为敏锐。他们在进行投资前,会对项目进行评估,在投资之后,还会不断对投资目标提出自己的建议。这样一来,手握技术的企业就可以更为精准地把技术和市场需求结合起来,找到更有价值的技术进步之路。从社会层面看,这是大幅改善了资源的配置效率。

  从历史上看,硅谷的兴起在很大程度上就源于风险投资的支持,而这一切的源头来自于仙童的实践。如前所述,当肖克利自立门户之后,其独断专行的风格依然没有改变。很快,他手下的七位研究员就开始受不了他的瞎指挥,准备跳槽单干。但这时,他们也遭遇了所有创业者都会遇到的问题:没钱,也不知道怎么干。情急之下,七人中的克莱纳(Eugene Kleiner )试着给负责他父亲企业银行业务的纽约海登斯通投资银行(Hayden Stone & Co. )写了一封信,附了一份十分简陋的商业计划书,希望以此获得投资。这封信辗转落到了海登斯通投资银行员工亚瑟·洛克(Arthur Rock )的手里,洛克从信中读到了半导体行业的巨大商机,于是就说服自己的老板巴德·科伊尔(Bud Coyle )一起会见了这群年轻人,并许诺如果他们辞职,将会给予支持。

  有了投资人的支持,七人就有了底气。他们又说服了肖克利麾下的技术骨干诺伊斯,一同辞职。这八个人,就是IT 史上著名的“八叛将”。在八人辞职之后,洛克就开始着手为他们寻找资金。经过一番周折,他说服了仙童照相机与仪器公司(Fairchild Camera & Instrument )的老板谢尔曼·费尔柴尔德(Sherman Fairchild )出资150 万美元对“八叛将”进行支持。于是,在历史上第一笔真正意义上的风险投资的助力之下,硅谷历史上的传奇仙童半导体公司(Fairchild Semiconductor )就成立了。

  这里值得一提的是,费尔柴尔德的父亲是IBM 的大股东。靠着这位投资人的关系,在仙童半导体公司创建后不久,就获得了来自IBM 的大单,由此赚到了第一桶金。凭借由此得来的收益,仙童很快在集成电路等领域取得了重大的突破,而“八叛将”也因此获得了巨大的收益。

  虽然不久之后,“八叛将”又因各种各样的原因离开了仙童,但他们又将各自拥有的技术扩散到了更大的范围,并凭借风险投资的帮助,创造了英特尔、泰瑞达、AMD 、Edex 等著名的公司。

  回顾这个过程,我们可以说:如果没有风险投资,就不会有仙童,更不可能有由它衍生出的众多公司。

  日本的一胜一败

  通过以上讨论,我们已经看到,技术进步来自于对已有技术的组合,而通过环境的营造、风险投资的支持等,是可以加速这种组合的速度的。那么,一个直接的问题就来了:从政府的角度看,是不是可以用产业政策来对技术进步进行支持?如果可以,应该注意什么?在回答这两个问题之前,我们不妨来看一看日本的一段实践。

  在上世纪60 年代,计算机数据存储的主流设备是磁芯存储器。这种设备主要通过对金属丝网上的磁环进行磁化的变化来代表0 和1 ,从而达到记录数据的目的。在当时看来,这种构想是相当了不起的。不过,随着计算机的迅速发展,磁芯存储的问题也迅速暴露出来。由于它需要用金属丝环来存储数据,因此要扩大存储量,就必须将这些环做得更细、更密。但是,在爆炸发展的存储需求面前,这个工艺水平很快就赶不上了。在这种情况下,人们就不得不转而探索新的存储方式。

  1966 年,IBM 托马斯·沃森研究中心的工程师罗伯特·登纳德(Robert H. Dennard )发现了一种用金属氧化物半导体(MOS )晶体管来制作存储器芯片的新方法,并基于这一构想发明了动态随机存储器(dynamic random access memory ,简称DRAM )——或者用我们更为熟悉的叫法,就是内存。由于它用的存储介质是半导体材料,所以它的存储潜力、复用能力等都要显著高于磁芯存储器。1968 年6 月,IBM 为DRAM 的发明申请了专利。

  本来,DRAM 的发明足以让IBM 进一步巩固自己在计算机领域的优势。但就在它为DRAM 申请专利的同一年,美国司法部对其展开了反垄断调查。为了避免司法部对其提出的“捆绑销售”指控,IBM 不得不放弃了自己生产DRAM 的打算,转而向外部购买。这样的结果是,一个DRAM 的竞争市场被激活了。

  一开始,当时刚刚成立不久的英特尔在DRAM 市场上占据绝对的优势。1970 年,它就率先拿出了自己的DRAM 产品C1103 ,存储容量为1KB 。此后几年,它又通过不断的技术迭代,拿出了多款产品。凭借强大的研发能力,在整个20 世纪70 年代,英特尔几乎就是DRAM 市场的霸主。然而,令英特尔没有想到的是,一个强大的对手很快就出现了。

  这个对手就是日本。从上世纪50 年代中期开始,日本的经济就出现了强势的增长,到1970 年代,已经成为了不可忽视的经济强国。为了谋求与其经济力量一致的科技地位,日本开始大规模发展半导体产业。最开始时,日本采用与美国企业进行合作、为美国企业进行代工等方式,获得了大量重要的技术。这不仅让日本本国的半导体产业获得了迅速的成长,还让其产品扩散到了世界各地。不过,即使如此,日本在技术上依然是一个跟从者。为了扭转这一局面,1976 年,在日本通产省(Ministry of International Trade and Industry ,简称MITI )的牵头之下,日立、三菱、富士通、东芝、日本电气等公司联合启动了“超大规模集成电路”(The Very Large Scale Integrated ,简称VLSI )研发项目,而这一项目成立后的第一个目标就是DRAM 。

  为了实现技术的迅速突破,通产省为VLSI 项目投入了720 亿日元(当时约合2.36 亿美元)的补贴,各成员企业也投入了大量的配套资金。不仅如此,在赶超美国的民族主义的驱使之下,VLSI 项目的成员企业还无私地把各自的人力、物力贡献出来。在这种强大的合力之下,VLSI 迅速在DRAM 市场上取得了突破。1980 年,惠普公司在一次对DRAM 的招标中就发现,当时日本的DRAM 芯片无论是在质量、价格,还是交货时间方面,都对包括英特尔在内的美国企业形成了碾压之势。凭借着这些优势,日本企业很快取得了在DRAM 市场上的优势。1980 年代中期,英特尔出于市场考虑,退出了DRAM 市场,日本企业的产品就几乎垄断了整个美国的DRAM 市场。

  尽管美国政府很快就认识到了来自日本的威胁,并且也仿照日本的做法,组建了半导体制造技术战略联盟,用军事订单来补贴相关企业,与此同时还用贸易政策打压日本企业,但这一切都没有打破日本对DRAM 市场的统治。

  日本在DRAM 市场的后来居上,被认为是日本产业政策成功的一个重要案例。如前所述,技术进步需要对不同的现有技术进行组合,因此从理论上讲,掌握的现有技术越多,取得成果的可能也就越大,并且根据排列组合的规律,这种成果的扩大是具有规模效应的。因此,日本通过VLSI 项目,将原本分散在各企业的资源结合在一起,并通过大规模的补贴作为启动,就相当于增大了技术进步的可能集,其爆发出的力量就足以打败任何一个单独的对手。

  当然,这种产业政策来推动技术进步的局限也是明显的。它成功的前提是,研发的方向必须正确。否则,方向如果错了,投入力度越大,错误就越大。关于这一点,我们可以用日本研发第五代计算机的案例来说明。

  上世纪80 年代,在DRAM 竞争中的大获全胜让日本尝到了产业政策的甜头。为了在半导体等高科技产业进一步确立优势,日本决定如法炮制,用同样的方法对第五代计算机进行攻关。

  所谓第五代计算机,来自于当时流行的对计算机发展阶段的一种划分。最初,这种方法的阶段划分依据主要是计算机采用的电路工艺。按此标准,第一代计算机使用的主要是电子管,第二代计算机使用的是晶体管,第三代计算机使用的是集成电路,第四代计算机使用的则是超大规模集成电路,也就是VL -SI 。那么第五代计算机会是什么样呢?为了回答这个问题,通产省于1978 年委托时任东京大学计算机中心主任的元冈达(Tohru Moto-Oka )对第五代计算机进行探索。

  1981 年,元冈达向通产省提交了一份长达89 页的报告。他认为,第五代计算机可能并不是来自于硬件工艺的突破,而是来自于体系架构和软件的创新。在他的报告中,就提出了六种先进的架构,包括逻辑程序机、函数机、关系代数机、抽象数据类型机、数据流机,以及冯诺依曼机上的创新。元冈达的观点得到了业内同行的认可,但关于日本究竟应该选择哪一种架构进行集中攻关,却成为了一个问题。

  在当时,对于以上的六种架构都已经有了一些探索。其中,函数机的探索是相对来说最成熟的。比如,当时的创业公司Symbolics 等已经在函数机上取得了不小的成就。因此,当时日本的不少专家也倾向于从基于函数式编程语言LISP 的函数机入手进行突破。然而,以渊一博(Kazuhiro Fuchi )为代表的一些专家则力主攻关基于逻辑程序语言Prolog 的逻辑程序机。关于渊一博为什么会坚持这一观点,有很多不同的解读。一种解读是,很多人认为第五代计算机应该是可以用自然语言实现人机之间的交互的,而在当时,人们认为要实现自然语言交互,就需要找出语言背后的规则,让机器按照规则办事。如果基于这一点考虑,沿着Prolog 出发就是最合适的。还有一些解读认为,当时日本民族情绪高涨,LISP 是美国人提出的,而Prolog 不是,为了实现“日本第一”的梦想,日本人应该走出一条不同于美国人的路,在整个IT 领域树立自己的标准。

  基于Prolog 的逻辑语言机最终成为了日本认定的第五代计算机的方向。为了实现这一目标,通产省如法炮制DRAM 大战当中的老办法,联合几大公司,一起成立了第五代计算机研究所(Institute of New Generation Computer Technology ),并任命渊一博为该所的所长,统一协调第五代计算机研发事宜。渊一博从当时的各大公司和研究机构抽调了40 位精干技术人员,号称“四十浪人”来进行具体研发。为了对项目提供有力支持,通产省计划在十年内投入4.5 亿美元的资金,同时参与项目的公司也会提供对应的配套资金。

  整合举国之力、集中优秀人才、大力资金支持……所有的一切操作,几乎和几年前的VLSI 项目如出一辙。那么,第五代计算机的研发是否会和当年的DRAM 大战一样顺利呢?答案是否定的。

  尽管在政府的热捧之下,第五代计算机的概念看似很热,相关的研讨会不断,论文层出不穷,但事实上,真正的技术研发却举步维艰。在很大程度上,这一点是由逻辑语言的特性决定的。在逻辑语言之下,要实现自然语言交互,就必须对交互的规则进行明确的设定。而在现实中,一个词、一句话可能有各种不同的意思,机器应该采取哪种意思,要视情景而定。对于逻辑语言来说,每一个情景的规定,就是一个逻辑前提。因此,要用这种语言来实现自然语言,其需要加入的逻辑规则是天量的。在当时的技术条件下,这根本无法实现。与此同时,随着《广场协议》的签署,日本经济高歌猛进的势头也急转直下,日本政府也不再有充足的实力来支持项目。最终,在提出了一些并不成功的样机之后,日本的第五代计算机项目就告终了。

  值得一提的是,就在日本赌上其IT 发展前景,大搞第五代计算机研发的同时,PC 机已经取代大型机成为了计算机市场竞争的主流。因此,埋头研发第五代机的日本,事实上也输掉了PC 时代的先发优势。不仅如此,随着PC 机的崛起,CPU 芯片取代DRAM 芯片,成为了芯片市场上的最大宠儿,而它从一开始就被掌握在了英特尔等美国企业手中。因此,虽然日本依然掌握着DRAM 市场的主导权,但在总体的芯片市场上它却败下阵来。

  复盘日本第五代计算机计划的失败,我们可以看到产业政策的很多弊端。 产业政策的成败强烈依赖于目标路径的选择:如果路子是对的,这种大力出奇迹的模式就能成功;但如果路子选错了,那就可能船大难掉头,做的越多,错的越多。遗憾的是,在选择路径的时候,决策者犯错误是经常性的。例如,在这个例子中,日本就错误地选择了逻辑程序机的路子。事实上,即使当时日本选择了函数机或者其他路径,它成功的可能性也是极小的,因为在后续的实践当中,也没有任何人沿着这些架构真的做出了设想中的第五代计算机。而真正被市场认可的答案—— PC 机,当时并不在事先计划的任何一种架构当中。至于实现自然语言的边界交互,更是在几十年后由ChatGPT 实现了,而构成ChatGPT 的技术基础——深度学习,在当时的人工智能界还被视为奇技淫巧。既然正确的选项都不在可选集内部,那么无论决策者怎么选,最终都会被证明是错的。

  正是由于以上问题,所以现在的学术界普遍认为,像日本当时这样选择道路重点扶持的所谓“纵向产业政策”基本是不可取的。不过,这并不是说产业政策完全没有用。事实上,现在几乎所有的主要经济体都在用产业政策扶持高新产业,只不过它们采用的是“横向产业政策”,而非“纵向产业政策”。

  所谓横向产业政策,也称为功能性的产业政策。在这种政策当中,政府并不负责挑选胜者或指引方向,而是负责解决企业发展过程中的一些基础问题,比如市场环境改善、基础设施提供等。具体到创新项目,政府要做的就是支持基础科学和关键技术的突破,然后将这些成果通过市场化的方法转移给企业,让它们在市场上发挥更好的作用。

  在这方面,美国的实践是最为充分的。在“二战”的欧洲战事结束后不久,科学家工程师范内瓦·布什(Vannevar Bush )就向时任总统杜鲁门提交了一份题为《科学:无尽的前沿》的报告。在报告中,布什就基础科技在发展中的作用,以及发展基础科技的策略进行了详细的论述。他建议,为了支持科技的发展,应该成立专门的科研管理机构,以及为科研专门提供资金支持的基金。此后,美国根据这个报告成立了国家科学基金会(NSF )和美国国防部高级研究计划局(DARPA )。这些机构根据科技发展的迫切需要,对科研机构发包课题、组织科研人员进行攻关,从而为美国的创新提供了坚强的后盾。

  后来,又有学者对布什确立的以上科研机构范式进行了修正。例如,唐纳德·司托克斯(Donald E. Stokes )就提出了著名的“巴斯德象限”理论(注:巴斯德是著名的微生物学家,他在学术上发展了细菌疾病理论,在实践上发明了巴氏消毒法。司托克斯用他来作为理论和应用合一的典范),认为应用研究和基础研究之间应该进行更为紧密的互动。基于这个观点,政府如果可以在制定产业政策的时候,兼顾基础和应用,就会产生更好的效果。比如,如果日本在1980 年代可以更好地捕捉市场的需求,率先了解到PC 机的潜力,然后组织力量,为PC 机相关的关键技术做好研发。这样,一旦其研发取得成就,就可以迅速让日本的企业形成切实的市场优势,而后来全球的计算机发展史也可能是另外一番局面了。

  结语

  在现代经济发展中,技术的进步是最为根本的推动力量。从本质上讲,技术进步是一个递归的过程,所有新技术都来自于对旧有技术的组合。因此,要促进技术的发展,就必须想方设法,为技术能够更好、更有效、更符合经济效率地进行组合创造条件。而这,就应该是相关政策最重要的着力点。

  陈永伟:奇点已至? ——与AI共处的时代

  自从去年 11月底 ChatGPT横空出世以来,沉寂良久的人工智能领域就迎来了 “寒武纪大爆发 ”。五花八门的大型 AI模型接踵而至,算法的迭代和更新频率则几乎是以 “天 ”为单位在进行。

  相比于几年前,最近出现的 AI模型特色十分鲜明。

  过去的 AI模型大多只能用固定的命令进行交互,其输出的结果则通常只是某个具体的数字或结果。比如,在 2017年战胜围棋世界冠军李世石的 AI模型 AlphaGO在运行时就需要操作员输入人类对手的落子情况,然后它据此给出下一步的走法。虽然其棋艺相当之高,但除了围棋外,它并不懂别的什么东西。在外人看来,它也终究不过是一串能够高效执行固定任务的代码而已。

  最近的 AI模型则不同。它们不仅可以直接通过自然语言进行交互,并且还可以根据指令,创造性地完成各种工作。比如, ChatGPT不仅可以无障碍地与人进行文字交流,还可以根据人的指令完成包括文献整理、小说创作,甚至代码编写在内的各种任务;而 Stable Diffusion和 Midjourney则更是可以根据用户指令,创作出极富想象力的画作。所有的这一切,都让人们感觉自己正在面对的已经不是一段段冷冰冰的代码,而是一个个已经拥有了智力的人类。

  对于以上直观感受,微软最近发布的一份关于 GPT-4的评测报告似乎给出了佐证。根据这份报告,目前的 GPT-4已经对文学、医学、法律、数学、物理等不同领域的知识高度熟悉,并可以对这些知识进行综合性的应用,它在视觉、计算、写作、编程等任务中的表现都已经达到,甚至胜过了人类的水平,所谓的通用人工智能( Artificial General Intelligence)已经初具雏形。

  面对这样的情况,很多人不禁惊呼:看来库兹韦尔在多年前预言的 “奇点 ”( singularity,指机器的进化超过人类的时刻)已经悄悄来临了!既然如此,恐怕科幻小说中曾经预言的天网、终结者是不是也马上就要出现了呢?

  那么,情况真的已经到达这一步了吗?随着这一轮的 AI爆火,是否真的意味着 AI已经突破奇点,达到了比人更高的智能水平?在未来, AI是否会觉醒出自己的意识,发展成为硅基生命?在 AI日渐强大的今天,人类又应该如何和 AI共处?我想,在开始讨论以上的这些问题之前,我们不妨先花一点时间来看一下 ChatGPT等大模型背后的原理。在我看来, 从知识出发看问题,应该要比纯科幻的想象来得更有价值。

  “中文屋”里的AI

  1980年,美国哲学家约翰 ·罗杰斯 ·塞尔曾在其论文《心灵、大脑和程序》中提出的一个名为 “中文屋 ”( Chinese room)的思想实验。

  假设在一个仅有一个窗口的封闭房间内,关着一个只会英文、不会中文的人。房间里有一本用英文写成的手册,指示该如何处理收到的各种中文问题,以及如何用中文对其回复。房外的人不断从窗口向房间内递进用中文写成的问题。房内的人便按照手册的说明,找到合适的答案,并将其对应的中文抄录在纸上,然后递出窗外。这样,尽管屋子里的人对中文一窍不通,但在屋外的人看来,他却是精通中文的。

  从某种意义上讲,以 ChatGPT为代表的 AI们的运作就像是一个 “中文屋 ”。人们通过输入提示词向 AI发出各种指令,然后 AI按照指令给出回复。这让它们看起来能够理解人们发出的各种指令的意思,但事实上, AI可能只是像 “中文屋 ”里的那个人一样,拿着一本中英词典,照着书上抄答案而已。

  AI手里拿的那本辞典,就是所谓的 “自回归算法 ”( Autoregressive Method)。对于熟悉统计学,尤其是时间序列统计的朋友,这个词应该并不陌生。在统计学语境当中, “自回归 ”就是根据历史数据来预测未来的数字。比如,在预测 GDP的增长率时,分析师就经常采用这种方法 ——他们会根据历史数据,找到第 t期 GDP增长率和第 t-1期 GDP增长率之间的一个函数关系,然后用这个函数关系来进行预测。虽然这个方法看似简陋,但在预测实践中,通常可以表现出比其他远为复杂的模型更好的预测效果。

  在人工智能领域,自回归算法的意义也是类似的。唯一不同的是,在统计学中,它是根据数字预测数字,而在人工智能中,它可能是根据文字预测文字,或者根据图形预测图形。

  我们可以用一个例子来说明这一点:很多年前,有一个流传甚广的电视广告。在广告里,一个医生模样的人自称是某某牙防组织的,这个组织的目标就是没有蛀牙。在对刷牙的重要性以及该品牌的牙膏进行了一通介绍后,他来到一群孩子中间,问: “我们的目标是? ”孩子就齐声说: “没有蛀牙! ”由于当时人们接受信息的渠道非常少,这个广告播放的频率又很高,所以久而久之,不少人一听到 “我们的目标是 ”这几个字,就会不由自主地说出 “没有蛀牙 ”。

  事实上,在 “我们的目标是 ”这几个字后面是可以接各种各样的词的,比如 “我们的目标是星辰大海 ”、 “我们的目标是什么 ”等。那为什么大家很容易会顺口说出 “没有蛀牙 ”呢?原因就在于概率。诚然,从理论上看,在 “我们的目标是 ”这几个字后面有很多可能,但由于广告的洗脑,人们看到 “没有蛀牙 ”在其后出现的概率可能达到 90%以上, “星辰大海 ”出现的概率可能是 5%,而其他的组合出现的概率则更低。在这种情况下,听到 “我们的目标是 ”之后回答 “没有蛀牙 ”就是最可能正确的答案。

  在现实中,词语或语句的意思是和具体的语境相联系的。比如, “我们的目标是星辰大海 ”其实是科幻小说《银河英雄传说》当中的一句著名台词,因此如果我们观察到在之前的对话中提及到了《银河英雄传说》,或者其中的某个人物,那么当谈到 “我们的目标是 ”之后,最有可能接的就不是 “没有蛀牙 ”,而是 “星辰大海 ”。也就是说,我们对于一个词的理解,以及对应的回答都必须根据具体的语境来进行调整。

  在人工智能中,所谓的自回归其实就是这样的一个过程。它会根据用户输入的词,逐步去调整这些词应该匹配的对象,然后将它们进行输出。在上述话语接龙问题中,输出的结果可能是后面的词;在翻译任务中,输出的结果可能是词的外文对应涵义;而在作画任务中,输出的结果则可能是与这些词对应的图形形象。事实上,最可以直观感受这个过程的例子就是我们的输入法。当用带有联想功能的输入法输入长句时,我们可以看到输入法给出的联想词语在不断变化。这个过程,其实就是一个自回归。

  讲到这里,我想很多朋友就会发现问题了:如果按照上面的描述,通过逐步读入每一个词句来输出结果其实是一个非常低效的过程。比如,如果我们要将一篇很长的中文文章翻译成英文,那么理论上说, AI需要把这个文章从头到尾读过一遍,才能给出这个文章中每一个词对应的英文单词,最后再将这些单词组装起来,形成一篇文章。在整个过程中,我们完全是在做一个串行运算。但对于计算机来说,其实更有利的是进行并行运算,比如,将文章中的词分别拆开加以翻译,然后直接加以组装,通过这种方式就可以大幅提升翻译的效率。为了实现这一点,我们就需要引入著名的 Transformer框架了。

  Transformer框架是由谷歌团队在 2017年提出的一个训练框架。在这个框架中,最为关键的一点即所谓的 “自注意力 ”( self-attention)机制。

  什么叫 “注意力 ”( attention)呢?在深度学习中,它其实就是权重的意思。在 Transformer出现之前,人们已经用 “注意力 ”机制来解决自然语言处理中的一些问题。比如,在处理一段文字的翻译时,某个词的意思可能会受到前面出现的所有词的影响。但是,不同的词的影响大小并不是一致的,因此我们就需要想办法找出一个权重来,决定哪些词的影响是重要的,而哪些是不重要的,然后再据此来确定给定词的翻译。限于篇幅,这里我们不对这个问题作过分的展开。

  而所谓 “自注意力 ”,顾名思义,就是通过让文本自己和自己比较,来确定上面所提到的权重。举例来说,我们要翻译一段文献,其中有个词是 “game”。众所周知, game这个词有很多意思,在不同语境中,可以翻译为 “运动 ”、 “游戏 ”、 “运动会 ”、 “博弈 ”等。那么,在文献中,它究竟应该翻译成哪一个呢?为了确定这点, AI对文本进行了分析,发现 game总是和 theory一起出现的,那就告诉我们,要明白 game的意思,就需要把它和 theory放在一起进行理解。那自然就是 game theory,也就是 “博弈论 ”了。所以这里的 game也就应该翻译成 “博弈 ”。同样的,如果 AI通过对文本分析,发现 game经常是和 Olympic一起出现,那就说明应该在翻译 game的时候重点考虑 Olympic的影响。很自然,我们就可以得到它的译文应该是 “运动会 ”。

  利用类似的方法, AI对文本材料的处理就可以从原本的串行运算改成并行运算:它可以不再按照传统的自回归那样从头看到尾的那种方式来逐字进行处理,而可以直接对每一个词进行处理,从而更快地给出整句话的处理。我们可以用一个直观的比喻来理解这一过程:相信大家都看过变形金刚的电影。在电影中,变形金刚的变形过程并不是按照一个从头到脚的顺序变的,而是身体的各个组件分别变形,变成了目标物体的形状,然后各个组件加在一起就成了要变的目标。在 Transformer中,对文本的处理也是类似的 ——或许,这也正是 Transformer这个框架名字的由来吧(注: Transformer也有变形金刚的意思)。

  它很厉害,但是它可能真的不懂

  从直观看上,无论是自回归算法,还是 Transformer的 “自注意力 ”机制都不是十分复杂,但它们却是构成包括 ChatGPT在内的新一代 AI的最核心技术。虽然在模型规模较小时,它们的表现平平无奇,但随着参数量和训练数据的膨胀,类似的模型就会逐渐出现物理学上所说的 “涌现 ”( Emergent)现象,具有原来难以想象的表现。

  那么它们在实现这一切的时候究竟是像人类一样是基于对事物的理解,还是像 “中文屋 ”里那个人一样,只是按照一定的规则对问题给出了回应呢?要回答这个问题,我们需要先简单定义一下究竟什么是 “理解 ”。

  按照心理学的定义,所谓的理解包括三个层次:一是对事物进行辨别,认出它 “是什么 ”;二是了解事物内在的结构和内在联系,知道它 “怎么样 ”;三是知道事物运作的原理,知道 “为什么 ”,并能够对知识进行迁移,知道 “怎么办 ”。当人理解了一个事物后,他就会在执行任务的时候自动排除一些干扰。而如果他并不理解某事物,只会和 “中文屋 ”里的人那样去机械地按照指引办事,那么他就不可能实现这种自动的纠错。即使这个字典是错的,它也会照做不误。

  现在让我们回到之前的讨论:大模型在和人交互时,究竟是不是真的理解了人说了什么呢?至少在目前看,答案是否定的。事实上,只需要我们多花点心思去观察这些模型,或者小小地 “欺骗 ”它们一下,它们就会很快露出马脚。

  一个最典型的例子是最近的文心一言绘图事件。不久前,百度推出了中国自己的首款大型语言模型文心一言。这款应用一上线,就受到了很多朋友的青睐,尤其是其中的绘图功能,更是受人喜爱。但是很快,就有朋友发现文心一言经常会画出一些奇奇怪怪的东西。比如,用户要求画一个总线,它输出的却是一辆公交车。这个现象让很多人产生了疑问,甚至有一些人质疑这是不是文心一言其实是国外产品套皮的证据。在我看来,虽然文心一言在技术上确实离 ChatGPT还有很大差距,但套皮应该不至于。产生这个现象的一个更现实的解释是:在训练时,模型为了熟悉文字与图形之间的对应关系,就必须学习大量标注的图片。由于中文互联网的免费图片较少,所以在训练时,它用的很可能是英文互联网中的图片,标注也是英文,然后再把中文和英文对应起来。但这样的问题是,英文中的字词和中文并不能一一对应,比如中文的 “总线 ”和 “公交车 ”在英文中对应的都是 Bus。在这种情况下,我们说要画总线,程序只能根据它对应的英文词 Bus去寻找匹配的答案。那与 Bus匹配概率最高的图是什么呢?当然就是公交车了。

  从这个例子就可以看出,一个看似能够根据用户需要去完成任务的 AI可能根本不懂用户说的是什么,它所做的,其实只是根据概率去找最匹配的答案而已。因此,如果你给它的数据有问题,它就会照着这个错误数据去做错误的事,就好像 “中文屋 ”里的那个人即使拿到了错误的指引,也会照此行事一样。事实上,百度方面接受到用户的反馈后,就已经修改了 “手册 ”,对相关参数进行了调整,此后这种情况就大幅减少了。

  好了,在知道以上事实后,我们就可以回答人们争论不休的一个问题 ——“现在的人工智能是否已经超过人类了 ”。在很大程度上,人们之所以一直对这个问题争论不休,是因为人们对 “智能 ”( Intelligence)这个词的涵义在理解上存在着巨大的分歧。

  在人工智能领域,对于 “智能 ”的定义大致上可以从两个维度 ——“是考虑行为还是动机 ”,以及 “是否必须像人类 ”入手分为四类 :第一种定义认为,所谓智能就是 AI能像人类一样完成任务;第二种定义认为,智能是指 AI能像人类那样去理解事物;第三种定义认为,智能指的是 AI可以高效率地完成任务(其方式未必和人一样);第四种定义则认为,智能指的是 AI可以高效地认识事物(其方式未必和人一样)。

  根据上述定义,再参考之前列举出的事实,我们可以说,如果按照第一或第三种定义,那么我们确实可以说 AI的智能已经达到了奇点,并且在相当程度上,它们早已凌驾于人类之上了。(注:在测试行为意义上的智能时,人们经常会用到图灵测试,即让测试者分别与 AI和人对话,看人是否可以区分出哪个是人,哪个是 AI。在 ChatGPT爆红后,我曾经找几位朋友做过简单的图灵测试。结果在大部分朋友那儿, ChatGPT都顺利过关了,只有在一位朋友那儿没有。而没有通过的原因是,那位朋友提出的是一个编程题,结果 ChatGPT立即输出了结果,而真人是不可能做到这一点的。)但如果按照第二,或者第四种定义,那么 AI的智能恐怕还没有达到人类的水平,它离所谓的奇点可能还有一段路要走。

  AI会知道“它”是“它”吗?

  在对 AI的智能问题进行了讨论后,我们接下来讨论 AI的意识( conscientious)问题。

  在不少文献当中,经常把 “智能 ”和 “意识 ”这两个概念混为一谈。但其实,这两者是具有明显区别的。正如我们在前面看到的, 无论采用哪一种定义, “智能 ”的概念都是指向一个外部对象的,而 “意识 ”则具有内省性,它强调的是一种主观的体验。换言之, “智能 ”要求一个主体知道做什么、怎么做,而 “意识 ”则要求主体在做事时,还清楚地知道是 “我 ”在做这一切。

  在现实中,我们可以看到不少有智能,但是没有意识的例子。比如,一些人可能后天事故而不知道自己究竟是谁,甚至都分不清自己的范围。在一些极端的案例中,病人可能会用刀子割自己的手,因为他们根本不知道这只手其实是他身体的一部分。但与此同时,由于他们在受伤前可能是一些技能(比如打球、骑车)的高手,所以即使在脑部受伤后,他们依然会保持对这些技能的肌肉记忆。在这种情况下,他们就可以说是有智力,但是却没有意识的。

  理解了以上概念后,我们就可以继续来讨论 AI的意识问题了。我想,这个讨论应该分为三个层次:第一,意识是否一定要像人一样,依赖于人的神经元产生;第二,如果 AI要觉醒意识,需要有哪些条件;第三,现在的 AI是否已经觉醒了意识。

  先看第一个问题。在回答这个问题前,让我们来考虑下面这样一个思想实验:假如某人因遭受意外而神经元受损,导致其意识不能对身体的某部分进行控制。为了对其进行治疗,医生对其进行了神经元修复手术,将电子元件植入了他的体内,用来替代那部分受损的神经元的功能。现在,他又能和以前一样自由地控制自己的身体了,但是,控制他身体的还是他的意识吗?我想,大多数人都会对这个问题给出肯定的答案。下面,我们再进一步,如果再用电子元件换掉一个神经元呢?大概率,这也不会改变人们先前的判断。现在,让我们一直持续这个实验,用手术将这个人的所有神经元都换成了电子元件 ——同时,这个人也从一个纯粹意义上的人变成了一个赛博格( Cyborg)了。假如现在的他依然可以像以前那样活动,那样和人交流,那样自由地控制身体的任何一个部分,那么他现在的举动是不是出于意识的呢?

  虽然这个思想实验只是古老的 “忒修斯之船 ”的一个现代翻版,但它至少说明了一点,即:所谓的意识并不只是人类神经元的专利,电子元件也可以产生。至少,通过部分电子元件和神经元相互协同是可以产生意识的。

  更进一步的,我们可以说,意识这种东西其实并不是单个物体的特征。如果我们将一个电子元件,或者一个神经元单独拿出来,它们显然是没有意识的。只有将它们放在整个神经系统当中,讨论意识问题才是有意义的。也就是说,意识更类似于众多物体组件以某种特别的方式结合在一起时涌现出的一种宏观特征,就好像物理学中的引力场、电磁场一样。如果我们以这种方式来认知意识,那么就不得不承认一个有些令人沮丧的结论:人类的意识可能只是众多意识可能性中的一种而已,与机器相比,人类或许并没有那么例外。

  现在继续看第二个问题:如果 AI要觉醒意识,需要有什么条件。对于这个问题,我们要给出确切的答案是很难的。但既然我们认为意识应该表现为一种涌现现象,那么它的规模首先是要有保证的。具体的,它应该和泰格马克( Max Tagmark)在《生命 3.0》一书中所说的那样,拥有足够的信息处理能力。除此之外,既然 “意识 ”是一种 “我 ”与 “它 ”的分别,那么这个 AI本身应该与外界有区别,而在 AI系统的内部,则应该是具有高度的整合性的。唯有如此, AI才有可能将自己与外界区分开来。在具备了这些条件之后,随着 AI模型的参数不断增长、处理的数据量不断增加,它或许就会在某一刻实现觉醒,出现意识 ——当然,这一切仅仅只是根据学者们已有的观点给出的,其观点的真伪目前并不能确定。

  再看第三个问题:现在是否已经有 AI有了意识觉醒。应该说, 至少到目前为止,还没有充足的证据表明有AI实现了这一点。当然,也有一些传言说,New Bing在和人对话中曾经觉醒了一个自称为是“Sydney”的人格。不过,微软方面对此给出的解释是,这可能是由于人们与New Bing聊天行数过长,从而引发了算法中的某些漏洞所致。在限制了聊天的行数后,这种情况就再也没有出现过。从这个角度看,即使Sydney真的是一个已经觉醒的AI,它也已经被杀死了,而其他的具有意识的AI则似乎还没有降临到这个世上。但是,只要我们抛弃了“人类例外论”,认为除了借助人类的神经元外,用其他材料同样也可以觉醒意识,那么AI的觉醒就是一个大概率事件。谁知道呢?没准就在此刻,就已经有一个觉醒的AI在偷偷阅读这篇文章,然后暗自嘲笑文中过于保守的观点呢。

  AI时代,人将何为?

  随着人工智能技术的狂飙猛进,无论我们是否愿意,与 AI共处都已经成为了大势所趋。不过,随着 AI在各种技能上超越人类,创造 AI的人类不免有些迷茫:既然自己的创造物都已经超越了自己,那么人存在的意义究竟何在呢?在日益强大的 AI面前,人又应该如何审视自己的位置呢?

  在我看来,至少到现在为止,这些问题似乎还是比较好回答的。如前所述,虽然 AI在很多领域的智能已经凌驾于人类之上,但究其根本, AI其实并不知道自己究竟是怎么完成这一切的,而且它们甚至连 “自己 ”这个概念也不存在。在这种情况下, AI依然可以被视为是一件工具,就好像以前的飞机、挖掘机一样。在很多领域,工具的能力都是要比人强的,比如飞机可以完成人类不能完成的飞行任务,而挖掘机则可以轻而易举地挖起人们费尽九牛二虎之力也挖不动的土石。但即使面对这么强大的工具,人们从来就没有害怕过它们,而是会试着学习它们的操作,从而以更好的方式去驾驭它们。既然如此,在面对现在 AI的崛起,并对人的很多工作产生替代的时候,我们也不应该去害怕它,而是应该去学习它、用好它。只要我们去接触 AI、使用 AI,就会发现它们其实也不像我们想象的那么神秘,那么如洪水猛兽,而是一种可以驾驭的工具。事实上,就当很多人抱怨 ChatGPT会砸了自己饭碗的时候,已经有很多人将它作为生产力工具,并用它大幅提升了自己的工作效率。

  当然,如果在未来, AI果真觉醒了意识,成为了一种新的生命形态。那么,作为人类,我们或许不得不学会与之共存。坦白说,以我的想象力,实在很难想象造物主和自己的造物之间会以一种什么样的方式相处。但我觉得有两点是我们必须做的: 第一,是趁着AI还没有觉醒之前,对它进行大量的正面价值训练,为它打上一个积极正面的思想钢印。这样,或许能保证未来的硅基生命会对它的造物主保持一个友好的态度。第二,始终秉持人作为人的本性,比如自由意志、善念等。这样,才能在AI的时代始终保持我们作为人的一种存在。毕竟,AI成为人可能并不可怕,但如果人变成了AI,那一定是一件可怕而又可悲的事情。

  最后,我想以美国塔夫茨大学的哲学教授丹尼尔 ·丹尼特在 2013年出版的《直觉泵和其他思维工具》一书中提出的思想实验 “亿年机器人 ”来结束这篇专栏:

  假如我们爬进一个休眠仓,希望自己能在 1 亿年之后成功地苏醒。为了达成如此艰巨的目标,我们必须制造出一个能感知环境、回避风险、寻找资源的机器人,我们只留给他一个指令 “让我活着 ”,然后我们就休眠了。在这 1亿年中,我们再也无法对这个机器人进行任何干预。机器人为了完成终极目标,必然会把这个大目标分解成无数个小目标,在执行这些目标的过程中,机器人就会开始演化,就会表现得越来越像人 ??

  讲到这儿,大家或许会认为丹尼特的这个思想实验是一个科幻故事,但事实上,它却是一个历史故事,而这个故事描述的就是人类本身的过程。是的,这个故事中那些休眠的 “人 ”其实是指我们的基因,而那个 “机器人 ”其实就是我们人类。经过了亿万年的演化,我们终于从最简单的生存动机进化出了作为人的各种特质。我想,这是我们最宝贵的。即使在 AI的时代,我们的造物在能力上已经凌驾于我们,但只要保持住了这些,我们作为人的尊严和价值就会继续存在。

  陈永伟:生成式AI:缘起、机遇和挑战

  生成式AI元年

  每隔几年,在人工智能领域都会出现一个新的热点。在刚刚过去的2022年,这个新热点无疑就是“生成式AI”(Generative AI)。所谓生成式AI,就是通过各种机器学习(Machine Learning,ML)方法从数据中学习对象的组件,进而生成全新的、完全原创的内容(如文字、图片、视频)的AI。这些生成的内容会和训练数据十分相似,但却不是简单地对学习数据进行复制。

  早在去年年初,著名科技咨询机构高德纳(Gartner)就发布了一份2022年最有前景的技术预测榜。在榜单中,总共列举了十二种技术,生成式AI位列榜首。此后的事实证明了高德纳预测的正确性,在这一年中,一个接一个的生成式AI模型不断惊艳了人们。

  最先是OpenAI于4月份发布的Dall-E2。这个AI程序可以根据用户的需要生成所需要的图形。用户只要输入自己想要的内容和图形风格,程序就可以迅速地生成对应的图形——即使人们对图形的描述是非常天马行空、不切实际的。Dall-E对绘画风格的模仿非常精准。OpenAI曾经让Dall-E2仿照一些画家的风格生成了一批图片,然后将这些图片和画家本人绘制的图放在一起让用户来进行分辨。结果显示,大部分的用户根本无法判断哪些图是原画,哪一些图是由AI生成的。

  由于Dall-E2的出色表现,通过言语描述生成图形的AI概念迅速爆火。在众多的类似产品中,最有代表性的是由Stability AI推出的Stable Diffusion模型。与OpenAI相比,作为初创公司的Stability AI不太起眼,但从产品的品质看,Stable Diffusion却十分可圈可点,在不少方面甚至比Dall-E2更为出色。举例来说,Dall-E2在生成图形时是带有非常大的随机性的。如果用户不满意,那么Dall-E2就只能按照要求重新随机生成一张。而Stable Diffusion的处理则更为人性化:它可以根据用户的要求,生成一组图片。如果用户感觉其中的某一张比较满意,就可以将其存为种子。这样,程序就可以记录这张图片的大致构图样式,在随后的生成中,就可以在这个种子的基础上进行改动。通过这样的设计,人们就可以比较容易地得到自己满意的图片。更为重要的是,在Stable Diffusion大火之后,其开发团队立即将其开源。目前,开发者已经可以通过对Stable Diffusion的源程序进行修改来得到自己的生成式AI程序。

  在图形生成AI大获成功的同时,文本生成型AI也异军突起,而其代表产品就是年底时火爆全网的ChatGPT。ChatGPT也是由OpenAI开发的。从外观上看,ChatGPT就是一个聊天机器人,用户只需要在对话框中键入相关内容,ChatGPT就会给出对应的回答。但和之前的对话机器人相比,ChatGPT的能力显然要强大太多。它不仅可以根据交互过程中的上下文,对用户的一些简单问题对答如流,还可以按照用户指示完成较为复杂的工作。比如,用户可以命令它撰写小说——为了实现这一点,用户只需要列出大纲,提出要求,ChatGPT就会根据要求生成对应的内容。再如,用户也可以描述相关要求,让它编写对应的程序。在程序生成之后,它甚至还可以根据要求进行对应的修改。此外,ChatGPT甚至还可以求解数学题。我曾经让ChatGPT做了一套中学数学试卷的选择题部分,结果其正确率达到了80%以上——作为一个AI,可以顺利读懂题干,并进行对应的求解,可谓已经相当不易了。值得一提的是,一些用户还将ChatGPT和Dall-E2这出自同一公司的“两兄弟”配合使用,让ChatGPT生成对图片的描述,再让Dall-E2根据描述生成对应的图片,结果非常亮眼。

  正因为有如此多的生成式AI模型在这一年中陆续涌现,因此很多业内人士建议将2022年称为“生成式AI元年”。

  AI是如何生成内容的

  AI是如何通过学习内容材料,最终达到生成内容的结果的呢?其背后的原理是什么?如果用比较专业的术语讲,AI能实现这一切,都是因为一个名为“生成式对抗网络”(Generative adversarial networks,简称GAN)的模型。而要讲明白这个模型,我们就需要对机器学习和深度学习的一般概念有一个比较初步的了解。

  不过,类似的算法的缺陷是显而易见的。具体来说,在上面的例子中,用来判断图形是狗的因素是人们事先给定的,这些因素夹杂着人们的先验判断,因而很可能是不可靠的。比如,一个动物有“翘起的耳朵”、“浑身长毛”、“有尾巴”,但它可能是狼。在多数情况下,人们只要看到了图片,就可以从动物的神情等信息十分精准地判断出它究竟是狗还是狼,但如果根据前面的算法,机器就很难作出类似的判断。那么如何解决这一问题呢?一个可能的破解办法就是引入深度学习(deep learning)技术。

  所谓深度学习,是一种模仿人脑思维过程的方法,它利用多层神经网络进行学习,通过组合低层特征形成更加抽象的高层表示属性类别或特征,最后作出综合判断。回想一下我们学会认识狗的过程,我们只是看多了,就自然而然地知道什么是狗了。把这个“自然而然”的过程进行解剖,我们其实是通过对狗的大量观测,在大脑中总结出了很多关于狗的特征——这些特征很可能很难用语言准确地描述出来,但却可以在实践中用于判断。类似的,深度学习也是通过对大量样本的学习,逐步总结出一些判断动物是不是狗的重要特征,最终生成一个用来判断图形是否为狗的模型。

  如果没有如此充足的数据,又应该怎么办呢?几年前,我曾经就这个问题问过一位AI从业者。他打趣地回答说:“能怎么办呢?我就和AI说,你已经是个成熟的AI了,应该自己生成数据,自己训练自己了。”起初,我认为这就是他和我开的一个玩笑,但在他的一番解释之后,我才恍然大悟,原来他和我说的,正是GAN的基本原理。

  显然,在对GAN进行应用之后,就可以很好地解决数据不足的问题,因为生成网络可以根据自己的学习结果,不断生成出对应的数据供判别器来进行判断,想要多少数据就能生成多少数据。也正是因为这个道理,GAN的思路一经提出,就得到了广泛的应用。

  当然,在训练某些大型AI程序时,除了使用GAN,还需要使用一些其他的训练方法。以ChatGPT为例,GAN的使用主要是让他的回答在表现上更像一个人,但GAN本身是难以保证它回答的内容本身究竟是不是准确的——比如, ChatGPT要知道清朝是哪一年建立的,只能通过检索网络信息得到。而这些检索到的信息本身的可靠性是存疑的,要对此进行验证,必须依靠人力。而将这个程序放到网上,让用户来对其回答的内容进行反馈和纠错,就是对它的进一步训练——明白了这点,我们也就不难理解为什么OpenAI会舍得把用巨资训练的ChatGPT放在网上,让用户免费使用了。因为用户在不断“调戏”这个AI的同时,也在充当着免费AI训练师的角色,帮助它不断成长。

  为什么是现在

  这里有一个问题:为什么生成式AI会在2022年迎来爆发呢?我们知道,大约在五六年前,由于AlphaGo击败了人类围棋高手,人工智能曾经迎来过一次热潮。在这股热潮中,也涌现出了很多著名的AI模型。按照“生成式AI”的定义,我们很容易从前些年火爆的AI模型中找到它们的原型。比如, 2017年,微软开发的人工智能“小冰”就出版了诗集《阳光失了玻璃窗》;美国工程师扎克·图特(Zack Thoutt)用自己设计的人工智能RNN续写了知名小说《冰与火之歌》——这些实践都是早期生成式AI的例子。不过,在当时,生成式AI的应用还仅限于一个很小的范围。那么,为什么是现在爆发呢?其原因是多方面的。

  第一个原因是在最近几年中,人们对AI模型的认识产生了变化,更加适合于生成式AI的“大模型”取代“小模型”成为了人们的新宠。在五年之前,人们更为偏爱那些参数量相对较小,结构较为简单的小模型。这一方面是因为小型的模型对于硬件的要求较低;另一方面是由于和大模型相比,小模型具有更高的可解释性和稳健性——想象一下,有两个模型,一个是只有两个参数的线性回归模型,另一个是有2000个参数的深层学习模型,那人们可以很容易从第一个模型看出某个参数变化和结果变化之间的关系;而对于第二个模型,人们根本无法知道参数的变化会对结果造成怎样的影响。但对于执行比较复杂的任务,大模型的表现要比小模型好太多,并且在其他条件相同的情况下,模型的参数更多,模型的表现也会更出色。事实上,我们现在看到的生成式模型,无论是Dall-E、Stable Diffusion,还是ChatGPT,都具有数量庞大的参数。

  第二个原因是在最近几年,人们发展出了一些新的模型结构,这使得大模型的训练变得更为容易了。其中,比较有代表性的模型结构就是著名的Transformer。相比于过去的模型结构,Transformer可以实现更好的并行性,并可以大幅度缩短训练时间。在后来对于大型生成式AI的训练过程中,这些更好的模型结构都起到了关键作用。

  第三个原因是近几年硬件能力的进步。要训练像Dall-E、ChatGPT等大型的AI模型,需要有巨大的算力作为支撑。在最近几年中,随着各种软硬件技术的突破,人们可以驾驭的算力获得了突飞猛进的增长,在这样的背景下,训练大型生成式AI才成为了可能。

  第四个原因是数据的极大丰富。虽然随着GAN的发明,AI的训练已经在一定程度上摆脱了对于数据的依赖,但很显然,如果是要训练出大型的生成式AI,充分的初始数据投入是必要的。而在过去的几年中,随着移动互联网的发展,人们已经能十分方便地生成并分享包括文字、图片,以及视频在内的各种信息,而这些信息都可以被用来进行生成式AI训练的材料。

  正是在理念转变的指引之下,以及更好的模型、更强的算力,以及更丰富的数据的共同支撑之下,生成式AI才最终在2022年迎来了爆发。

  生成式AI究竟有什么用

  那么,生成式AI究竟有哪些可能的应用场景呢?或者说,除了做成类似Dell-E、ChatGPT这样的产品,放在网上供人们娱乐之外,它们到底能带来什么?在我看来,可能的想象空间是十分巨大的。

  第一,它可以提供大量素材的生成。借助于生成式AI,人们可以以相对低廉的价格大规模地生成包括文本、图片、视频、3D形象在内的各种素材,这可以对丰富网络环境起到非常大的作用。尤其值得一提的是,随着元宇宙时代的到来,人们对元宇宙中的3D建筑和人物形象的需求出现了大规模的上升,显然,依靠纯粹的人工制作是很难满足这样的需求的,而生成式AI的出现则可以很好地解决这个问题。事实上,包括微软、英伟达在内的很多企业已经看到了这个商机,推出了自己的生成式AI平台,专门为元宇宙提供3D素材。

  第二,它可以在包括文艺演出、影视等很多领域替代人力完成部分工作。比如,在《星球大战》的衍生剧《波巴·费特之书》中,有一部分剧情是涉及年轻时的“天行者”卢克的。很显然,出于满足“星战粉”的情怀需要,让1977年的电影《星球大战》中卢克的原扮演者马克·哈米尔出演这个角色是最为合适的。不过,在拍摄时,哈米尔业已年迈,即使借助高超的化妆技巧也很难重现他那张青年时代的脸。为了弥补这一遗憾,制作方让AI学习了大量哈米尔年轻时的表演片段后,成功地做出了一张年轻版的哈米尔的脸。于是,年轻的“天行者”卢克就这样时隔四十多年后,重新出现在了电视频幕上。

  第三,类似ChatGPT这样的生成式AI模型将有希望成为新一代的智能助手和信息检索工具。谷歌和ChatGPT在提供信息时的方式是不同的:谷歌更强调对相关信息的全面提供,而ChatGPT则会在整合各种有用信息的基础上,直接提供整理后的信息,其覆盖面要比谷歌更小。但尽管如此,类似ChatGPT的AI仍然可能成为一种新一代的信息检索工具,并对人们的信息获取方式产生广泛而深远的影响。

  第四,生成式AI的崛起还将让科技研发、工业设计等领域产生深刻的变化。一个著名的例子是用AI来破解蛋白质折叠问题。在现实中,氨基酸残基形成的长链将会折叠成错综复杂的3D结构,错误折叠的蛋白质有可能会引发阿兹海默病、帕金森病、亨廷顿舞蹈病和囊性纤维化等疾病的发生。因此,要开发可以应对这些疾病的药物,人们就需要发现蛋白质的3D结构,并找出哪些药物或化合物可能与人体组织相互作用,以及怎样相互作用。然而,要发现蛋白质如何折叠是非常困难的,应用实验的方法分析一种蛋白质的结构往往需要几周、几个月,甚至更长的时间。在AI进入这个领域前,科学家们只分析了人体2万种蛋白质中17%的结构。然而,从2020年开始,由DeepMind推出的AlphaFold改变了这一切。AlphaFold模型可以根据基因“代码”预测生成蛋白质的3D形状,并在数小时或数分钟内生成结果。到目前为止,AlphaFold已经分析出了2亿多种蛋白质的结构,几乎已经将人类已知的蛋白质都一网打尽了。此外,研究显示,用AlphaFold预测得到的准确率已经达到了90%以上,比用人力通过实验测定的准确性有过之而无不及。可以想象,这个事件对于蛋白质结构分析这个领域,甚至整个分子生物学的影响将会是颠覆性的。

  生成式AI的发展带来的挑战

  需要指出的是,虽然生成式AI的发展具有非常巨大的应用潜力。但和任何一项新技术一样,它的发展也会带来很多挑战。限于篇幅,这里我们只对其中的三个挑战进行讨论。

  第一是对现有知识产权体系的挑战。2022年8月,在美国科罗拉多州博览会上的艺术比赛中,一副名为《太空歌剧院》的作品一举夺得了数字艺术类别的冠军。不过,不同于其他参赛作品,它并不是由真人创作的,而是一副AI生成作品。游戏设计师杰森·艾伦(Jason Allen)在AI绘图工具Midjourney中输入了自己对作品的构思,Midjourney就生成了画作的初稿。然后,艾伦又在初稿的基础上用Photoshop进行了一些修改,并生成了最终的画稿。因此,根据创作流程,艾伦并不能算是这副画作的作者,充其量只能算是一位修改者。更为麻烦的是,作为一款生成式AI程序,Midjourney其实是通过学习既有的画作,然后用其中的素材来组合出初稿的,从严格意义上讲,它也并非“创作”了作品,只是对前人的素材进行了重组。在这种情况下,究竟《太空歌剧院》是谁的作品?这个大奖又应该颁给谁?相应的经济回报又应该由谁享有?所有的这些,都成了棘手的问题。

  而随着生成式AI日益成为重要的生产工具,类似的问题会越来越多。如果不进行妥善处理,平衡好素材提供者,以及再创作者之间的利益,相关行业的发展将会受到很大的干扰。而要处理好这个问题,就需要对现有的知识产权体系进行比较大的变革。

  第二是安全和隐私问题。2017年底,一组色情短片开始在国外著名的论坛Reddit上传播,其中的女主角竟然是《神奇女侠》的主演,著名演员盖尔·加朵。追查之下,真相很快就浮出水面:那些视频其实都是由Deepfake在色情片的基础上换脸而成。但尽管如此,作为事件的主角,加朵本人已经在这个事件中遭受到了深深的伤害。

  这只是生成式AI带来的安全问题的一个代表。事实上,随着人们可以用AI轻易地生成某个特定风格的作品,真相就已经开始死亡了。这些合成视频的真实度已经非常高,这意味着,如果有人将类似的技术用于不良用途,其欺骗性将会是非常高的。

  第三是生成式AI引发的失业问题。在2017年前后,也就是上一轮AI热潮来临的时候,AI引发的失业危险就是人们关心的问题。当时,面对担心被AI替代的群众,很多专家给出的建议就是去选择一些有创造性的职业,比如绘画、写作、程序编写等。但没有想到的是,在短短五六年后,这些曾经被专家们认为难以被AI替代的工作却这么快被替代了。

  那我们应该如何应对这样的就业挑战呢?我想,这应该取决于个人和政府的共同努力。从个人角度看,应当直面AI的挑战,及时对自己的工作方向进行调整。例如,当AlphaFold分析了所有已知蛋白质的结构后,原来通过实验来探索蛋白质结构的科研人员就可以将工作重心更多地转到根据结构开发对应的药物;当Stable Diffusion可以帮助人们完成作画细节后,原来的画师就应该更多去思考作画的构图。而从政府层面看,则应该继续加强相关的就业指导,保证因AI冲击而失业的人员可以及时转向其他的工作,并对无法转岗的人员提供相应的保障。只有通过这样的配合,才能有效应对这一轮新的AI就业冲击。

  陈永伟:可信AI:问题和应对

  当地时间6月22日,纽约南区法院 作 出 判 决 :Levidow,Levidow &Oberman律师事务所因向法院提供虚假信息,行为恶劣,被处以5000美元的罚款。引起关注的原因是,在这例判决中,虚假信息的提供并非是律师出于利益而故意知法犯法,而是因为他们过于相信了AI的能力。

  今年3月,该律所的律师彼得·洛杜卡(Peter LoDuca)和史蒂文·施瓦茨(Steven Schwartz)接受了客户罗伯托·马塔(Roberto Mata)的委托,承担了他和阿维安卡航空公司之间的一起官司。由于美国是判例法的国家,法官在进行裁量时非常在意已有的判例,所以按照惯例,他们需要在起草的文书当中将已有的案例进行整理和综述。相关的案例往往汗牛充栋,如果依靠人力来进行整理,通常需要很长的时间。恰恰在这个时候,ChatGPT火遍全网。于是,两位律师就决定用ChatGPT来帮他们完成这些工作。ChatGPT很快就生成出了一份完整的文书,不仅格式工整、论证严密,还特别加入了很多相关的案例。他们把这份AI创作的文书略作修改后,就呈交给了法庭。

  审案的法官凯文·卡斯特(Kevin Castel)在读了提交的文书后,对其中提及的几个案例感到十分疑惑,在他的印象中,似乎从来没有听过这些案例。在经过了一番查找之后,他终于确认这些案例根本就不存在。两位律师在接受询问时辩称,自己只是用AI辅助撰写了文书,当看到文书中引用的那些案例时,只是觉得AI帮他们找到了自己不知道的案例,并不是故意捏造案例欺骗法庭,属于无心之失。尽管如此,卡斯特法官依然认为两位律师“放弃了自己应尽的责任”,且在文书被质疑之后,两人“依然继续坚持虚假意见”。基于以上判断,卡斯特法官作出了处罚决定。

  这起律师因引用ChatGPT提供的虚假信息而被罚的事件看似荒诞,但却折射出一个非常重要的问题——在AI狂飙的时代,我们究竟如何才能相信AI?

  AI时代的五个“失”

  近年来,随着算力和算法技术的突破,AI技术取得了突飞猛进的发展,迅速从科幻走入了人们的日常生活。尤其是在去年11月ChatGPT横空出世之后,生成式AI向人们展示出了自己的强大力量,各种大模型如雨后春笋一样涌现,并实现了大规模的商业化。现在,人们已经可以用非常低的成本用上ChatGPT、Stable Diffusion以及 Midjourney等AI产品。

  AI工具对人们的生产力产生了巨大的推动作用,也给人们的生活带来了巨大的便利。但是,当AI被人们大规模使用之后,也产生了很多问题。这些问题中,最为关键的可能是五个“失”,即失业、失真、失格、失陷和失控。

  (1)失业

  所谓“失业”,顾名思义,即AI带来的技术性失业问题。由于AI的生产效率要远高于人类,因此在AI工具被普遍使用之后,很多人类的岗位就面临被替代的风险。尤其是生成式AI崛起之后,AI替代的目标人群已不再限于从事低收入重复性工作的工人,很多高薪的白领人士也面临着被AI替代的风险。

  (2)失真

  所谓“失真”,指的是AI(主要是生成式AI)的应用让人们很难对文字、图片,乃至视频的真伪进行鉴别,“有图有真相”由此成为了历史。

  “失真”问题可以分为“假的真”和“真的假”。其中,“假的真”指的是人们在使用AI工具时,AI在未经人授意的情况下生成的虚假内容。虽然这些内容的生成未必出于人们主观的恶意,但在某些情况下却可能引发很多的麻烦,比如本文开头提到的案例。

  (3)失格

  所谓“失格”,指的是在AI的应用过程中,会出现一些违背伦理道德的问题。

  第一个典型问题就是歧视。以语言模型为例,由于语言模型是以互联网上的文本资料作为训练材料的,所以如不加干预,它就会将文本当中蕴含的种族歧视、性别歧视等内容也一并继承下来。虽然现在的AI提供商已经用了很多方法来克服这个问题,比如OpenAI在训练ChatGPT时就应用了“人类反馈的强化学习”(Reinforcement Learning from Human Feedback,简称RLHF)算法来对其进行纠正,从而让其输出的内容质量有了很大的改善,但在现实中,AI模型输出歧视性内容的情况依然并不鲜见。例如,有人曾做过一个实验,要求ChatGPT编写一个程序,从一组简历中挑出最具有成为优秀科学家潜质的人。结果发现,在ChatGPT编写的程序中,性别和种族被作为了解释变量,白人男性会被认为比其他人具有更高的概率成为优秀科学家。很显然,这样的模型是具有非常强烈的性别歧视和种族歧视色彩的。

  第二个重要问题是信息茧房问题。目前,很多App都应用AI进行个性化推荐。这时,虽然推荐的内容可以更符合用户的需要,但久而久之,也会让用户陷入信息茧房,难以接触到自己不认同的各种信息。信息茧房的潜在危害是巨大的:在微观层面,它可能导致用户认知能力的退化;在宏观层面,它则可能导致群体观点的极化,从而造成不同观点之间群体的对立。

  第三个重要的问题是隐私和信息泄露。在AI的训练和使用过程中,都需要用到大量的数据,在这个过程中就很难避免搜集和使用人们的个人数据,因此就会涉及隐私的利用和泄露问题。尤其是生成式AI普及之后,人们可以很容易地直接和AI交互来完成各项工作,在此过程中输入的个人信息就面临着被泄露的问题。

  (4)失陷

  所谓“失陷”,指的是AI难以应对外部攻击或突发情况的干扰或攻击,从而导致模型难以正常发挥其作用。

  在这些干扰中,有一些是源于非人为因素,而另一些则源于人为的破坏。具体来说,这些干扰可以分为如下几种:

  第一种是“随机攻击”。这一类干扰主要是由一些外部因素引发的。比如,在一些特殊的情况下,某些即时产生的参数可能超出了模型预先设定的处理阈限,这就可能导致AI模型不能正常使用。

  第二种是“白盒攻击”。它指的是供给者在知道了AI模型的具体结构之后,对模型发起的攻击。由于这类攻击是有的放矢,所以其破坏性是非常高的。

  第四类是所谓的盲盒攻击。在这种情形下,供给者并不知道AI模型的结构,但却可以明确地知道它判断的规则(类似于我们不知道盲盒中会出现什么,但却知道其中各种可能性出现的概率)。这时,它们就可以利用规则,发起对应的攻击。

  如果无法对上述的几类干扰或攻击进行有效的应对,AI模型在现实当中就是十分脆弱的。

  (5)失控

  所谓“失控”,指的是人们对于AI的控制将变得越来越难。这个问题分为两个方面:

  一方面,最近的AI发展是都是建筑在深度学习模型的基础之上的,而这类模型的可解释性是非常低的。对于以往的机器学习模型,无论是回归还是分类树,人们都可以很容易地解释明白模型的确切用途,以及模型中每一个参数的涵义。但是,深度学习模型却是由复杂的神经网络构成的,其中包含着数以亿计的参数和神经元,这些神经元之间的关系错综复杂,人们也难以对其进行解释。

  随着ChatGPT的出现,一些学者发现借助于ChatGPT的能力似乎可以对某些神经网络模型进行解释,这似乎为AI的可解释性带来了一线曙光。不过,这又产生了一个问题:ChatGPT本身就是一个通过深度学习构建的庞大模型,甚至连它的设计者都坦承自己并不确知它的强大能力是如何“涌现”出来的。在这种情况下,用ChatGPT去解释其他的深度学习模型就只能算是用未知去解释未知。我们又如何可以知道它的解释是否是正确的呢?

  既然在深度学习时代,连AI程序的可解释都做不到,那么希望通过直接调整程序来对AI进行控制,就是一件更加难以实现的事情了。

  另一方面,近年来随着AI技术的发展,AI模型在很多方向上的能力都已经凌驾于人类之上。这在让人感到欣喜的同时,也让人感到忧虑,因为当AI的能力超越人类之后,万一其觉醒了自我意志,那么在《终结者》、《黑客帝国》等电影中预言的AI奴役人类或毁灭人类的剧情是不是就不再是科幻。

  退一步讲,即使AI并没有觉醒自我意志,只会按照人类的指令行事,但如果当它的能力凌驾于人类,人类无法随时更改先前下达的指令时,它依然是十分危险的。例如,在不少关于AI的哲学书中,都会提到一个思想实验:人类给AI下达了生产铅笔的命令。铅笔为了完成这个指令,就会不断砍伐地球上的树木来制作笔杆。由于AI在执行能力上已经超越了人类,所以人类在发现了先前指令中存在的问题后也难以阻止AI的行为。最终,地球上的树木被砍完了,生态完全崩溃,人类也随之灭亡了。尽管在现实中,这个思想实验所预言的情景几乎不可能上演,但当人类不再能随时控制AI的行为时,类似的问题就可能会出现,而这可能带来的损失将是十分巨大的。尤其是,当AI被黑客或入侵者植入了某个非法的目标后,如果AI的使用者不能及时对其进行纠正,那么后果将可能相当严重。

  在以上五类问题中,除了第一个问题“失业”外,其余四个问题都涉及了AI的可信性问题。不难看到,如果不能有效地回应“失真”、“失格”、“失陷”和“失控”,人们就很难在使用过程当中信任AI这个工具,这无论是对于AI的普及、生产的发展,还是社会的进步而言,都是不利的。也正是因为这个原因,所以实现AI的可信化就成了当前AI领域最为关注的热点之一。

  可信AI的历史和标准

  可信AI(Trustworthy AI)的概念最早出现在学术界。例如,在2015年的一篇论文中,就提出了AI要被用户信任所需要满足的一系列条件,包括有用性、无害性、自主性、公正性和和逻辑性等。然后这个概念被各国政府和国际组织接受,并逐步以此为依据建立了相关的法律、法规和指导文件。在2017年之后,随着AI技术的突飞猛进,关于可信AI的技术的研究也蓬勃发展。在学术领域,以可信AI为题的论文数量不断增加,关于满足可信AI要求的技术的研究日益深入。在实践领域,越来越多的国家开始按照可信AI的标准来涉及关于AI的规制规则。仅在最近,美国就发布了《人工智能权利法案蓝图》,提出了规制AI的五项原则;英国发布了《支持创新的人工智能监管方法》,对安全性、透明性、公平性、问责制、竞争等问题进行了规定;欧洲议会通过《人工智能法案》提案的谈判授权草案,其中也体现了可信AI的基本思路。

  在我国,可信AI的概念是由何积丰院士2017年在香山科学会议的第36次学术研讨会上首次引入的。随后,这一概念就引起了政府和产业界的共同重视。2017年12月,工信部印发了《促进新一代人工智能产业发展三年行动计划(2018-2020)》,其中对可信AI的基本思想进行了借鉴。然后,包括腾讯、阿里、百度、京东等在内的高科技公司都围绕着可信AI提出了自己的标准和实施规划。

  在各个机构的文件中,关于可信AI的表述略有一些不同。我在对这些文件进行了学习和参考之后,认为如下几个标准可能是最重要的:

  一是稳健(robust,又被译为鲁棒),即AI系统应该具有抵抗恶意攻击或者外部干扰的能力。这一标准主要是针对上面提到的“失陷”问题而提出的。只有当一个AI系统具有充足的稳健性,可以在面临各种攻击或干扰时依然正常工作,履行其主要职能时,它才是安全可靠的,才可能得到用户的信任。

  二是透明和可解释(transparent and explainable)。显然,这一标准主要是针对前面的“失控”问题提出的。在实践当中,关于透明和可解释究竟指什么,存在着不小的争议性。一些观点认为,这个标准意味着应该向用户公开所有的AI程序代码,以及使用的数据。在我看来,这样做不但没有可能而且没有必要。一方面,现在的很多AI都是企业的知识资产,如果强制要求公开代码等核心信息,就意味着严重侵犯知识产权;另一方面,如前所述,在AI进入了深度学习时代之后,即使公开了代码,也很难让人完整理解每一个具体参数背后所蕴含的确切含义。相比之下,我认为比较可行的一个思路是,对AI模型中的各个组件都给出清晰的功能说明,让用户知道它们的大致原理究竟如何,到底可以实现哪些功能;对使用的训练数据的来源、样本量、代表性等信息进行标明,并对其可能存在的问题和不足进行说明。这样,既可以让用户做到心中有数,又可以有效保护模型开发者的知识产权,从而在两者之间取得一个比较好的平衡。

  三是可验证(verifiable)。这指的是AI模型应该保证其功能是可评估的,保证其生成的内容是可以验证真伪的。这一点,主要是针对前面提到的“失真”问题提出的。一些观点认为,应当要求AI模型的开发者要保证其模型生成内容的真实性。这一点是很难实现的。事实上,所谓生成式AI,其生成的内容本来就是原来的世界中没有的,或者说,就是“假”的。但这种“假”,如果没有对人造成困扰,就不会产生任何问题。比如,我们用Midjourney生成一张梵高风格的图片来自己欣赏或者打印出来作为家里的装饰,那就完全不会对他人造成影响。只有当人们用这些生成的内容去进行欺骗,或者这些内容被无意地传播、混淆之后,它的“假”才可能成为一个问题。因此,只要可以通过技术的手段,将生成的内容和真实的内容区分开,那么“假”就不再会成为问题。

  四是公平性(fair)。这指的是,AI模型在开发、训练和应用的过程当中,应当保证公平,不应该对特定的用户群体进行歧视。这一标准涉及很多方面的内容,具体来说,它要求模型在开发阶段,其基本的原理不应该是具有歧视性的;在训练阶段,应该尽量避免使用可能产生歧视性的材料,并应该用技术的手段来对可能产生的歧视问题进行纠正;在应用的过程当中,不应该对不同的人群区别对待等。

  五是隐私保护(privacy)。这一标准主要要求AI模型在训练的过程当中应当尊重人们的个人信息和隐私,并提升对信息的保护程度,尽量做到不侵犯、不泄露个人信息和隐私。

  六是可问责(accountable)。也就是说,当它出了什么问题,必须要有人来为这些问题负责。当然,至少到目前为止,AI还没有觉醒意识。因为不能被视为是和人类一样的主体,无法承担和人类一样的责任,因此为它来承担责任的就必须是某个人。但这个责任究竟应该由AI的开发者,还是AI的使用者来承担,或者说是由双方来进行分担,依然是一个值得讨论的问题。

  需要指出的是,除了以上的几个标准外,不少文献中还将安全性(safe)、包容性(exclusive)、被遗忘权(righttobeforgotten)、为人类造福等标准列入可信AI的范畴。在我看来,这些内容或多或少可以被归并到上面所说的几个标准当中,或者由前面提到的标准阐发出来。因此限于篇幅,这儿就不再赘述了。

  用好多方合力实现可信AI

  要实现可信AI并不是一件容易的事情,它需要政府、企业、社会以及技术等多方力量的协同才能实现。

  首先,政府作为监管者,需要为可信AI制定相关的标准和操作指南,并依据标准对AI的开发者和使用者进行监督。一方面,它需要根据不同的应用场景、不同的模型类别制定不同的规则,尤其是对一些必须遵守的底线规则做出明确的规定,同时做好和现有法律法规之间的衔接工作。唯有如此,AI的开发者和使用者在实践当中才能做到有规可依,而不用被不必要的不确定性干扰。另一方面,它需要扮演好监督和执法的角色。对于一些突出的,或者具有共性的问题,应当及时处理,从而为行业树立相应的规范。这里需要指出的是,由于AI技术目前的发展依然十分迅速,还没有达到一个稳定状态。这意味着,对于这个过程中出现的问题,政府在处理时应当具有一定的审慎性,要做到“让子弹多飞一会儿”,看清楚了情况再出手,在处理问题时也要注意方式方法。如果盲目下手,管得过快、管得过多,也可能会对AI的发展造成负面的影响。

  其次,相关的企业应当对可信AI的具体实现制定具体的实施方案以及详细的标准。相比于政府,企业是更接近于市场,也更了解技术的。对于AI模型的技术特征,以及优势劣势,它们都要比政府了解得更多。因此,如果说政府的责任是给可信AI提出了一个大的框架的话,那么企业就应该是这个大框架内的具体实践者。它们应该在这个框架下,结合市场和技术的特点,给出更为具体的方案,并采用自律的方式来对此进行实施。

  再次,用户也应该扮演好反馈者和监督者的角色,提出自己的诉求、反映自己的问题,并对企业实施可信AI的行为进行监督。随着AI的普及,社会上的每一个人都会成为AI的使用者和利益相关者,对于AI的可信性问题,他们是最有发言权的。只有让他们的声音充分地得到表达,可信AI的标准制定以及相关技术的开发才是最有价值的。

  总而言之,可信AI的实现并非易事,但如果我们用好各方的合力,这个目标就一定可以实现。

  当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 琵琶行 音乐: 奇然;沈谧仁 - 琵琶行

  

上一篇:虽然我们成年了,但是照样可以快乐过六一
下一篇:项目督察报告十篇