关于大模型和自动驾驶的几个迷思

栏目:素质教育  时间:2023-07-19
手机版

  在CVPR2023的workshop上,Tesla和Wayve都分享了各自最近关于world model方面的工作,但不详细。想请教一下大佬们,world model的作用,作用原理以及对自动驾驶未来发展的影响,谢谢

  这两天朋友圈被Falcon刷屏,在大模型飞速发展的今天,本来以为又是一个王婆卖瓜,结果看了看人家确实是屠榜了。在Huggingface open llm leaderboard上排名榜首了。

  

  所以看了看Falcon模型,结果论文还没发,仅仅通过官网博客还有huggingface上的一些只言片语,重点大概总结如下,觉得有用的可以关注我。

  本模型是阿联酋大学推出的,最大的是40B,在AWS上384个GPU上,使用了1万亿的token训练了两个月,具体型号没说,考虑到中东富豪的咖位,那估计是最贵的没跑了。然后中东富豪们也不打算用大模型赚钱,这个模型直接可以免费商用!这对比Llama无法直接商用简直是各大公司的福音。模型的训练性能也还不错,说是之用了CPT3的75%的成本。

  做了大量的数据清洗和去重工作,从下图可以看出,洗到最后,只剩下原始数据的11%,大概5万亿个token。这5万亿个token按照之前的研究结论,可以支持训练一个250B的模型是没有问题的。我猜很快就会有人跟进训练一个250B的模型,以期望超越GPT-3.5,这是一个巨大的商业机会。

  

  为了普通人也能玩一玩,还训练了一个7B的模型,这次使用了1.5万亿的token。整体模型的架构是在Bloom的基础上进行了修改,使用了 FlashAttention (Dao et al., 2022) 和 multiquery (Shazeer et al., 2019),所以说这个模型的推理速度是很快的,具体快了多少,等论文数据吧。粗略看了下代码,代码里还用到了苏神的RotaryEmbedding。语料以英文为主,中文效果并不好,大家之前llama中文化的路估计在这上面需要再走一遍。可以看下表,前两个是GPT系列,并没有开源,再往下都是开源的。

  从这个表可以得出如下结论:

  falcon确实是比llama好,目前在Huggingface的排行榜上是属于开源里面最好的。虽然没有llama-65b-instruct的结果,但是从两个base的效果来看,falcon的base还是更好。至于为什么好,到时候看论文吧,目前猜测一是数据处理上确实下了功夫,再一个新引入的一些技术比如FlashAttention,mulitiquery,RotaryEmbedding等技术让模型的训练效率有所提升。毕竟数据决定上限,算法框架只是加速这个过程。falcon比起GPT-3.5还差得远,这也可以理解,毕竟参数量在那摆着。175B vs 40B,GPT3.5是falcon的4倍还多。还有个细节就是falcon在指令微调后某些测试反而下降了,说明指令微调这一块还有提升的空间。

  本文对falcon目前能收集到的内容做了总结,很多细节还不明晰,我们等论文出来再好好读读。reddit上的网友的一个调侃还挺有意思:https://huggingface.co/tiiuae/falcon-40bhttps://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboardhttps://falconllm.tii.ae/https://www.reddit.com/r/MachineLearning/comments/13sdz8p/n_abu_dhabis_tti_releases_opensource_falcon7b_and/觉得有用辛苦点个赞:)

  这两篇best paper再次说明了,cv的科研要么把novelty拉满,要么把工程拉满。

  先说Visual Programming: Compositional Visual Reasoning Without Training。我是在Award Candidates上第一次看到这篇文章,看完文章后我惊了,这特么是CVPR23的文章?CVPR23的投稿时间比ChatGPT发布还早啊。。。这文章比VisualGPT,HuggingGPT系列文章超前了至少半年。。。可能是我刚接触这个领域,不是特别了解ChatGPT,GPT4之前的相关工作,但是这篇文章确实让我学到了做高水平科研的一个选项是做超前思想。是的,我认为现在这波LLM和多模态是在实践一种新的科研思想,那些说这是搭积木的人请以后不要用cv2了,自己从头写所有源代码吧。几年后,一旦调用foundation models和调用cv2一样方便,计算机视觉的科研该何去何从,这是需要提前思考和布局的问题。

  再说UniAD: Planning-oriented Autonomous Driving,这篇文章展示的是高水平科研的另一个选项,系统工程。cv本质上是应用型学科,一篇成熟度很高的系统工程文章拿下应用型学科的会议最佳论文奖实至名归。自动驾驶作为目前cv三大最可能大规模落地的应用(LLM, AIGC, AD),不管是从技术栈本身的全面性,还是技术栈未来可能直接transfer到机器人领域的潜力,在cv学术会议中的分量只会越来越重。

  今年CVPR的确没有出现像ResNet, ViT等这种基础创新的工作,这种工作基本5年才出现一次,但是best paper每年都有啊。我们需要学习的是尽力提高自己工作的novelty和工程成熟度,并时刻准备着基础创新的机会能不能眷顾自己,其他的看概率。毕竟,超前科研要多么超前是个玄学问题,这种相对超前,后面火的一塌糊涂的方向最好了,但是可遇不可求;或者真超前五到十年的思想,硬件和funding也不支持啊。真猛男可以去创业,效仿OpenAI GPT系列,看准了就坚持做,直到惊艳所有人。这就说到系统工程了,系统工程能否做好是个非常非常非常复杂的事,真应了那句“江湖不是打打杀杀,是人情世故”。当个喷子谁不会,但只有遇到困难并解决困难的那些人,才能到达喷子到不了的高度。

  当然了,做科研是为了推动技术进步的,不是单纯为了拿奖的。这葡萄真酸。UniAD的两个作者要来我们组读博了,自带best paper进组,唉,组强我弱。。。

  利益相关,我做了很多年neural-symbolic和program相关的工作,也审了不少这方面的文章。这篇Visual Programming: Compositional visual reasoning without training刚在评选列表里面的时候我就点进去看了。本文希望通过多个视角对最佳论文进行解读和剖析。

  本文大量使用ChatGPT辅助讲解阅读,不过各位放心,ChatGPT的部分全部加了引用。本问的目的之一,也是传授用ChatGPT剖析问题,挖掘深入的过程。准备好了吗?

  是的,我准备好了。有什么我可以帮助您的吗?这里主要解读一下几个比较重点大家想知道的事情:

  这个领域究竟在做什么?这篇文章的主要贡献是什么?这篇文章比其他文章优秀在哪里?这个方向值得入坑吗?我现在还想引入一个新的视角,就是神经符号领域的反对者的视角,因为我觉得只有融入了反对者,才能比较完善地反映这个领域的现状,深入剖析问题,这个反对者将用斜体加粗来表示:

  我觉得神经符号领域存在着一些问题。

  所以本文可以看成是三个人在讨论,我(用正常字体),ChatGPT(用引用标出)和反对者(用斜体加粗)。我觉得这样会让本文看上去生动和深入很多。

  这个领域叫做neural-symbolic,字面翻译叫神经符号,起码我当年的本科毕业论文是这么写的。

  Neural-symbolic是做什么的?

  神经符号化(Neural-Symbolic)是一种集成了神经网络和符号推理的方法,旨在解决涉及符号知识和推理的复杂问题。它试图将神经网络的学习能力与符号推理的表达能力相结合,以获得更强大的智能和推理能力。神经网络主要用于处理感知任务和模式识别,通过学习大量数据来捕捉模式和关联。然而,神经网络的推理能力相对较弱,难以处理符号级别的知识表示和推理任务,例如逻辑推理、符号推理和知识表示。神经符号化的目标是通过结合神经网络和符号推理的优势来克服这些限制。它使用神经网络来学习从原始数据到符号表示的映射,并使用符号推理技术来处理和推理符号级别的知识。这种集成方法可以在不同领域如自然语言处理、知识图谱构建、推荐系统等中应用,以提高系统的智能和推理能力。总之,神经符号化旨在将神经网络和符号推理相结合,以实现更强大的智能和推理能力,从而解决复杂的知识表示和推理问题。这个领域被AAAI21重点关注,有一个track是做这个的,不过并没有很多亮眼的文章放出来。

  我再用大白话解释一下neural symbolic做什么,字面意思就是把网络(neural)的东西和符号(symbolic)的东西结合起来,这个虽然听起来浅显,但是道理却很深刻。神经网络一个众所周知的问题是神经网络没有符号推理能力。我们人是通过符号严谨推理的,并不是通过一个黑箱的神经网络。(1)光靠神经网络没有符号推理,比如ChatGPT,虽然能够拥有非常强大的神经网络推理能力,但这种推理能力是不可控的,我们一个重要的发展目标是让神经网络可控化,那么神经符号就能起到这一点。(2)如果光靠规则系统呢,比如传统的专家规则系统,则不具有很强大的泛化能力,并且编写规则系统的过程也是非常费力的。我们来看看ChatGPT的解读:

  Neural-Symbolic方法相对于传统方法具有几个优势:1、结合了学习和推理能力:Neural-Symbolic方法将神经网络的学习能力与符号推理的表达能力相结合,克服了传统方法中学习和推理之间的差距。这使得系统能够从大量数据中学习模式和关联,并在符号级别进行推理和推断。2、处理不完整和噪声数据:传统方法在处理不完整和噪声数据时可能存在困难,而神经网络具有较强的容错性和鲁棒性,能够处理具有噪声和缺失信息的数据。Neural-Symbolic方法利用神经网络的学习能力来提取数据中的模式和特征,并利用符号推理来处理不完整的信息和推断缺失的部分。3、自适应性和灵活性:Neural-Symbolic方法具有自适应性和灵活性,可以根据不同任务和领域的需求进行调整和扩展。神经网络部分可以通过训练来适应特定任务和数据,而符号推理部分可以根据领域知识和规则进行定制和调整,从而实现更灵活和可扩展的系统。4、结合了概率和确定性:传统方法中的符号推理通常是基于确定性逻辑规则进行推断,而神经网络更倾向于基于概率模型进行学习和推理。Neural-Symbolic方法能够结合概率和确定性的方法,既能处理不确定性和概率推理,又能进行精确的符号级别推理。5、弥补了知识表达和推理的差距:传统方法中的知识表示和推理往往基于人工定义的规则和逻辑形式,而神经网络能够从数据中进行端到端的学习。Neural-Symbolic方法能够弥补知识表示和推理之间的差距,通过神经网络学习数据中的模式和关联,并利用符号推理进行推断和推理。确实,我觉得ChatGPT概括的已经很准确了,我也相信大家对Neural Symbolic有个大概的了解了。

  我觉得你的描述不能反映Neural Symbolic的历史背景,毕竟ChatGPT去年底才出来。并且,我现在仍然不知道Symbolic究竟是个啥东西?Symbolic指的是规则吗?

  的确,我想指出的是Neural-Symbolic的提出背景和发展背景都跟大模型无关,跟大语言对话模型更是扯不上关系,但是神经符号学说却能深远地影响到大模型甚至未来的AI学说。神经符号提出于认知心理学以及其他的人工智能学者,最早至少可以追溯到上世纪八十年代。在AI模型的当代,在自然语言处理、图像理解等各个领域都有重要作用。值得指出的是,虽然上文重点讨论了规则,但是神经符号学说中的神经可以指除神经网络外的其他东西,符号也可以指规则之外的事情,有很多拓展的文献。

  Neural-symbolic是以理念为基础的领域,区别于以任务为基础的领域,比如跟踪领域或者视频分割领域。

  什么叫做以理念为基础呢?就是说神经符号相当于一个理念,可能生成不同的方法运用于不同的任务上,而不是以某个具体的任务为导向,去优化模型。所以说,神经符号运用的范围是非常广的。

  我们提出了VISPROG,这是一种神经符号方法,用于在给定自然语言指令的情况下解决复杂且构成性的视觉任务。VISPROG避免了任何特定任务的训练需求。相反,它利用大型语言模型的上下文学习能力生成类似Python的模块化程序,然后执行这些程序以获得解决方案和全面且可解释的解释。生成的每行程序可以调用多种现成的计算机视觉模型、图像处理子例程或Python函数来生成中间输出,这些输出可能被程序的后续部分使用。我们在四个不同的任务上展示了VISPROG的灵活性,包括构成性的视觉问题回答、基于图像对的零样本推理、事实知识对象标记和语言引导的图像编辑。我们相信像VISPROG这样的神经符号方法是一个令人兴奋的途径,可以轻松有效地扩展AI系统的范围,以满足人们希望执行的复杂任务的需求。本文的重点在于不需要在每个任务上分别去精调模型,而是借助了大语言模型的上下文学习能力。举个例子,给定一个提示语比如隐藏Nicole的脸,那么可以借助大语言模型去生成一个program,比如利用Facedet去检测人脸,然后再利用Select做筛选,最后再用Emoji函数去隐去人脸,等等。

  这里program的设计方式和调用方式并不是新的,同时逐个数据集的点数结果也不高。

  确实正如反对者所言,在原文引用的[2,9,10,12]和其他一些未被引用的文献里面,从语言提示(prompt)中获取程序(program),再执行到图片中这一个框架是本领域广泛使用的框架。

  不过本文的一个大的优势是利用了大语言模型,这样取得了泛化能力。

  我看到有回答说,本文领先了ChatGPT,这句话也对也不对。对的成分是,确实本文的方向是一个很有前景的方向,从时间上看也先于ChatGPT。同时,比其他出现在ChatGPT之后往视觉领域应用的工作而言,确实早了不少。这也算是一个佐证,视觉领域也有向大语言模型发展的趋势,而不是落后ChatGPT做应用。

  当然要说本文领先ChatGPT也有不准确之处。本文的背景应该是在前人[2,9,10,12]等工作没有考虑到利用大模型不去训练的情况下,对于前人工作的自然改进(应用到大语言模型上),这么看来是非常自然的跟ChatGPT的独立工作。二者的motivation并不相同。

  至于说本文的点数不高,确实,这里面很多数据集都有排行榜(leaderboard),本文落后排行榜上的榜一榜二大哥相当多的点数,大家可以自己点进去看。这也是本文非常不容易的地方,能够从众多审稿人挑剔的眼光中不靠刷点入选best paper,反映的是民心所向。不靠刷点,靠通用性取胜是未来。靠逐个数据集拼命调点堆trick,是没有很大意义的)。真正有意义的是做新的通用系统。

  本文点数不高能够中稿,不靠效果取胜,实属不易。

  前面提到的,不靠效果取胜,这算其一。很多CVPR的优秀论文都是依赖于拼点和取得好的效果,这种效果非常的靠经验,也就是说,可能换个数据集,参数稍微变动一下,结果就不会好了。要当选best paper,自然得稳重solid,所以本文的点数一般,开创性好,是一个巨大的优势。

  其二,与其他审到的program的文章相比,本文条理清晰,创新性高,开创了新的篇章。

  我看有些回答说,这个领域非常前沿,之前都没什么人做过。与之恰恰相反,很多本领域热门的工作如【2,9,10,12】早就出现过了,本文的框架也不是特别的创新之处。

  恰恰相反的是,本文是在神经符号已经火过几轮,很多热门选手纷纷退场之后重新翻火的工作。所以在本领域的人看来,是非常开心的。开心之处在于有人坚守这个领域,并且取得了不错的成果。

  其三,本文有很好的可视化展示结果,可以看Figure1,此处不再赘述。好的可视化也就意味着有了“破圈“的根基。这就好比围棋界的战鹰,能“破圈“就是因为她的抽象操作非常让人印象深刻,视觉冲击力强。本文也一样,在没有读过前人工作的人看来,很可能觉得本文做出了非常impressive的成果,所以可以拿奖。

  总而言之,本文优秀之处在于圈内人看了心欢喜,因为它在热门选手退场之后仍然选择了坚守,取得了突破。圈外人看了也高兴,因为展示度好而且集大成,没有太多的竞争者,选择它不会引起争议。同时圈外人也看惯了热门选手的统治,一看这是个冷门选手,自然也非常高兴。

  圈外人圈内人都喜欢,best paper自然非他莫属。

  上文提到,热门选手选择了退场,那么问题在哪里呢?是热门选手不够强吗?自然是这个领域无比之坑。

  负责任的说,本领域水非常之深,我看到的大多数神经符号领域的投稿都死的非常惨。常见的例子主要有:

  1、有一些好的idea,比如我上文说的神经符号方法可以解决神经网络某方面的问题,便加之应用。应用来发现效果不错,便一投稿,结果四个strong reject,收到的原因是忽略了大量相关工作。

  2、构建了一个数据集,讲神经符号领域的故事,同时看到最近transformer和GNN非常火,拿来一结合,效果非常好,便一投稿,结果四个strong reject,收到的原因是数据集很toy,没有novelty。我刚开始入行学的时候,知道一个说法叫MIT standard。这里面主要有两门技术,识别MIT standard和做出MIT standard。识别MIT standard指的是能准确评判一个submission的质量,即便看上去一个submission像模像样,也是九页有图有文字,效果也好,懂MIT standard的人一眼就能识别出来这个submission是一个外行人做的,可能是一个undergraduate做的。这里面的门道很深,一般人如果靠模仿是很难做出对味的工作的。至于做出MIT standard,就更加难了,不过只要懂了识别之术,能客观评价自己做出来东西的质量,不要自己骗自己,再加上积极纠正,大概也很快能掌握这门技术。

  这两门技术都是本领域人上树的看家本领,不可轻易传授。事实上这门本领也很难传授,毕竟每个人可能犯的错误都是不同的,想学这门手艺也就意味着要纠正每个人个体的错误,这个过程是很难的。我们都能看到很多优秀的论文,但是自己做的东西却有可能有千奇百怪的错误。

  那么我们再回头来看,这篇best paper是MIT standard吗?

  我的回答是,这篇best paper并不是MIT standard,做这个领域久了,是不是这几个人做出来的一眼便知,可以扫一眼本文的相关文献就能看到很多熟悉的面孔,它们的文风也非常显然。但是本文却不一样,一看就是一个局外人做出来的,从标题插图文字,行文逻辑组织架构,都跟前人不一样。但是本文的质量却很高。没有对比就没有伤害,我特别想把我审到的本领域未中稿文章拿来给大家学习,这对新手来说是大有裨益的事情,也能更好地帮大家理解本文的厉害之处。不过这样做显然是不好的,大家可以自行去openreview进行学习。这篇文章不同于其他热门选手的工作,本身更加值得鼓励。

  所以你是想劝退吗?说我们把握不住?

  事实上我并不想劝退,不过不要低估本领域的难度。深入的理解、充足的实验、长期的坚守仍然是可以帮你获得成功。能不能把握住得看具体个体的实力,难以一概而论。但是可以肯定的是,后面应该会有很多follow-up的工作,跟别人后面跑也是风险较低的打法。不过想要再出很厉害的工作是有难度的。事实上,别人点数不高是创新和开创性工作,很可能自己做一个出来就被打效果很差,strong reject。

  刚开始写这个回答的时候,心态是非常复杂的。毕竟我与他们是同领域的人,应当说我做神经符号比他们还早,但是他们在上台领奖,我在写知乎科普,心里总归有些遗憾。不过认真剖析完之后,心中对他们充满了敬佩,其实是非常不容易的工作。

  下面简短评一下另外一篇best paper。这篇Autonomous Driving有好多熟人和熟悉的面孔,有些应该算我的学长,有些是之前的恩师,这些人在我看来早就值得一个best award的。如今终于得奖,可以说是实至名归。这两篇best paper一篇来自中国,一篇来自美国,细细品味对比,韵味无穷。

  首先说说相同点:

  (1)这两篇都做了系统性的工作,并不是简单的小修小改,在已有数据集上调模型。

  (2)这两篇都融合了多个神经网络模块,以解决多个任务。

  (3)这两篇都来自机构,属于业界与工业界的合作,非单独在学校完成的工作,却也有学校的成员融入进行合作。

  再说说不同点:

  (1)Program这篇主要基于之前的NMN等工作完成,这些都是美国学术体系内的著名工作。而Driving这篇也有很多的技术积累,有很多来自于中国。

  (2)Program这篇主打多模态,利用语言指引视觉模块,但是Driving这篇属于视觉领域工作。

  (3)Program这篇只有两个作者,但是Driving由众多大佬合作完成。

  这些工作对我都有非常大的启发,Driving这篇可以说是非常好地体现了扎实和接地气的科研特点。能在较短时间把自动驾驶这种大系统搭建好,实属非常不易。再次表示祝贺。

  评论区还有人问什么是符号,我这里简明扼要的阐述一下我的理解。

  符号是一种明确的精炼的表征,代码算一种符号,规则也算一种符号,数学公式也算一种符号。这种明确性和精炼性是目前的神经网络所不具备的。大规模训练出的神经网络往往是黑盒模型,好坏难以保障,并且得到的表征也不够精炼。这里的符号就是指的让AI更加受控制,更加明确具体安全。

  汉字是象形文字,而西方的文字是符号文字。有种说法认为,中国之所以没有诞生现代科学,一个原因是因为中国没有符号文字。这种说法认为,数学公式比如F=ma在英文中出现是比较自然的,但是放到汉字中,却显得格外别扭。因此基于符号和推理的现代科学就没有在中国出现。姑且不论这种说法有多大的事实基础,符号的力量确实是值得我们深入研究的课题。

  自2022年11月上传arXiv[1]以来,盘古气象大模型受到了气象学界的广泛关注。我们十分感谢同行们提出的意见和建议,它让我们更好地审视这个工作的缺点,也明确了未来的工作方向。在本文中,我们更新8个月内的进展,以期进一步充实对盘古气象大模型的理解。

  盘古气象大模型的首次文稿,请参见:

  谢凌曦:华为云提出盘古气象大模型:中长期气象预报精度首次超过传统数值方法,速度提升10000倍以上盘古气象预训练模型已于2023年3月公开,见此链接。

  我们公开了论文中使用的1小时、3小时、6小时、24小时模型,使得所有研究者都能够在ERA5数据集上与我们达到相同的测试结果。这些模型的运行速度很快,即使在CPU上,单步迭代需要的时间也不超过1分钟。这意味着每个研究者都可以在自己的个人电脑上,在几分钟内,完成未来7天的高分辨率全球天气预报。

  2023年1月中旬,我们将盘古气象大模型的preprint精简之后,投稿至Nature正刊,题为《Accurate medium-range global weather forecasting with 3D neural networks》。对于这次投稿,我们完全没有把握,因为团队成员没有任何Nature系(包括子刊、通讯等)投稿的经历和经验,被盲拒的可能性比较大。好在Nature的编辑认可了文章的价值,经过一轮沟通后,同意将文章送审。

  让我们欣喜的是,在首轮评审中,三位审稿人都同意了文章的贡献,当然他们也给出了许多修改意见。其中R1的意见比较有代表性,他认为我们的某些陈述需要弱化,特别是诸如“AI方法超过传统方法”的论述。我们进行了针对性的修改,后续的审稿过程就比较顺利了。在4月中旬,我们得到了accept in principle的结果,并且在5月中旬得到final accept,7月上旬在线发表。正文链接:

  https://www.nature.com/articles/s41586-023-06185-3正文内容大体与arXiv版本相同。我们根据审稿人的建议,更新了一些结果,例如不同年份、不同区域的确定性预报结果,以及集成预报的两个新指标。我们也改变了可视化图的配色,使其更符合气象学界的要求。

  在论文接收以后,三位审稿人都选择了公开身份和审稿意见,完整审稿意见请参看此链接。三位审稿人的部分正面意见摘抄如下:

  R1 (Martin G. Schultz): I am convinced that the paper makes an important contribution to the field and that it is scientifically and technically sound.R2 (Matthew Chantry): The results themselves are a significant step beyond previous results. This work will, in my opinion, make people reevaluate what forecasting models might look like in the future.R3 (Imme Ebert-Uphoff): Our group picked one trained model, the 24h forecast model, and I can confirm that it is very easy to download and run it. It just took us one afternoon to get this to work, and it executed quickly on even a desktop computer. This means that anyone in the meteorological community can now run and test these models to their heart's desire. What a great opportunity for the community to explore how well the model predicts specific meteorological phenomena. Now THAT's going to help with progress in the field.在此,我们非常感谢三位审稿人。第一位审稿人是慕尼黑工业大学的Martin G. Schultz教授,作为非常资深的气象学家,他几乎逐字逐句地读了我们的文章,并且巨细靡遗地给出了修改意见。我们对他的治学态度十分尊敬。第二位审稿人是欧洲气象中心的?Matthew Chantry博士,他追问了许多实现细节,或许也希望复现AI方法。第三位审稿人是科罗拉多州立大学的Imme Ebert-Uphoff教授,她仔细测试了我们发布的模型,认为这些模型将推动业界的研究。有趣的是,Imme Ebert-Uphoff教授还应邀为Nature撰写了一篇观点性文章,题为《The outlook for AI weather prediction》。这篇文章与我们的文章同日在线发表(见此链接),进一步补充说明了我们工作的价值。

  这次投稿,也让我们学到很多。Nature的投稿有一定套路。除了文章中取得的突破以外,还有一些加分项。例如投稿应该按照Nature的风格(多参考以往发表的同领域文章)、不要overclaim(这点我们没做好,第一轮的投稿踩到了很多雷区)、要提供足够的细节供复现,等。从审稿记录中可以看到,我的英文写作并不能让审稿人满意:R1指出了许多语法错误(没指出的还有更多),而R3直接用clumsy来评价我的写作。AI领域对于写作的要求普遍偏低(可能非native speaker太多,大家习惯了各种不标准的英文写作),给我一种自己写作还可以的错觉。最后,开源开放也是至关重要的。

  关于这次投稿的经验,将来有空的话,我会单独写一篇文章来分享。

  早在去年11月,欧洲气象中心(ECMWF)就通过邮件与我们联系,陆续进行了不少沟通。在2023年2月,我们的模型开放以后,欧洲气象中心非常积极地测试了我们的模型,随后给出了一系列测试报告。

  第一次,ECMWF的技术报告,3月30日。报告文件见此链接。报告的作者是Matthew Chantry(也就是我们的R2)。作者在一张展示盘古结果的大图中配文“landscape has changed in 2 years”,并且表明他们测试了盘古模型,发现其在确定性预报和一些天气过程(如冬季风暴Friederike)的预报中表现良好。

  图1:局面发生了变化,人们开始重新审视AI气象预报的能力(图源:ECMWF的技术报告)图2:盘古模型在冬季风暴Friederike的预报上表现良好(图源:ECMWF的技术报告)第二次,ECMWF在世界气象组织(WMO)研讨会上的发言,5月27日。会议信息见此链接,其中最后一个段落有会议议程链接,里面可以找到所有发言人的slides。在这次报告中,ECMWF的执行总裁Florence Rabier大篇幅提及了盘古模型。ECMWF称,盘古模型提供了一种“undeniable skill”,并且在推理功耗上显著低于传统方法(相当于大象和蚂蚁的差别)。同时,ECMWF还充分测试了盘古模型,发现其在包括冬季风暴、夏季风暴、发生在芬兰的寒潮、发生在伊比利亚半岛的热浪等天气现象中,都展现出良好的结果。

  图3:AI气象预报展示出了不可否认的能力,在某些方面超越了传统数值方法(图源:ECMWF报告的slides)图4:AI气象预报所消耗的能源,远远少于传统方法(图源:ECMWF报告的slides)图5:IFS、盘古、FourCastNet在风暴Otto预报上的对比(图源:ECMWF报告的slides)图6:IFS、盘古、FourCastNet在芬兰的一次寒潮预报上的对比(图源:ECMWF报告的slides)图7:IFS、盘古、FourCastNet在伊比利亚半岛热浪预报上的对比(图源:ECMWF报告的slides)在这次会议中,我也代表盘古团队发言。除了ECMWF大篇幅提及盘古模型以外,英国气象局、法国气象局、NVIDIA和Google的报告中也多次提及盘古模型。顺带一提,此次会议的主题是Early Warnings for All,即建立起能够普惠全球所有人的早期灾害预警系统。WMO正致力于为最不发达国家提供廉价的气象预报服务,而AI方法得益于其低廉的推理代价,正使得这一愿景成为可能。

  图8:英国气象局正在构建框架以测试盘古模型(图源:英国气象局报告的slides)图9:法国气象局对于盘古模型的初步测试结果(图源:法国气象局报告的slides)第三份报告,ECMWF的技术博客,6月20日。博客原文见此链接。在这篇题为“the rise of machine learning in weather forecasting”的博客中,Matthew Chantry(还是我们的R2)大致总结了过去两年间AI在气象预报的发展,并指出新的方法给ECMWF带来了很大的冲击。

  图10:盘古与IFS高分辨率模型的热带气旋预报误差对比(图源:Matthew Chantry的博客)图11:IFS、盘古和FourCastNet对热带气旋Freddy的预报结果对比(图源:Matthew Chantry的博客)此外,ECMWF还与我们团队多次通过邮件沟通。在盘古模型开源后,ECMWF的研究人员们还编写了一个开源工具(见此链接),将盘古模型与他们的系统接口融合起来,更加方便了用户的使用。作为世界领先的气象预报组织、传统气象预报方法的统治者,ECMWF的危机意识很强,对于新技术的关注度非常高,并没有因为AI对于传统方法的冲击而排斥AI。我想到一句话:技术的发展不以人的意志为转移。虽然当前AI还有诸多缺陷,但AI的进化速度很快,潜力巨大。假以时日,AI一定会成为气象预报的强大助力。

  为了让更多研究人员能够训练气象预报模型,我们改进了训练方案,提出了一种轻量级的模型。相比于原文使用的版本(4个模型,每个模型192块V100训练16天,需要从ECMWF下载60TB数据),我们的轻量级方案只需要1%左右的计算代价(1个模型,8块V100训练3或6天,需要从ECMWF下载不到1TB数据)。主要改动包括:

  修改网络结构,使用更大倍数的下采样使用更少的训练数据,从39年减少到11年,同时每天只采样UTC-00点的数据只训练24小时预报模型图12:盘古轻量级训练方案及测试结果与GPU消耗对比修改细节和训练效果如图所示。可以看出,即使在轻量级的训练方案下,盘古模型的3天、5天、7天确定性预报结果,仍然大部分超越了ECMWF的IFS系统。

  我们相信,这样一种轻量级方案,将吸引更多AI研究者来探索气象预报领域。

  北京时间7月5日晚11点,我们的文章如期在线发表。我们很荣幸被多家新闻媒体报道,包括国内的观察者网、量子位,以及国外的MIT Technology Review等。

  《Nature》刊发华为云盘古大模型最新成果 盛赞:重新审视气象预报的未来华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来New AI systems could speed up our ability to create weather forecasts虽然盘古气象模型在一定程度上得到了业界的认可,但前方的路还有很长,未解决的问题还有很多。我们期待与更多同仁一起,继续探索AI在气象预报以及更广阔的科学领域的应用。《Nature》刊发华为云盘古大模型最新成果 盛赞:重新审视气象预报的未来虽然盘古气象模型在一定程度上得到了业界的认可,但前方的路还有很长,未解决的问题还有很多。我们期待与更多同仁一起,继续探索AI在气象预报以及更广阔的科学领域的应用。New AI systems could speed up our ability to create weather forecasts 虽然盘古气象模型在一定程度上得到了业界的认可,但前方的路还有很长,未解决的问题还有很多。我们期待与更多同仁一起,继续探索AI在气象预报以及更广阔的科学领域的应用。《Nature》刊发华为云盘古大模型最新成果 盛赞:重新审视气象预报的未来虽然盘古气象模型在一定程度上得到了业界的认可,但前方的路还有很长,未解决的问题还有很多。我们期待与更多同仁一起,继续探索AI在气象预报以及更广阔的科学领域的应用。

  未来如有更多进展,也将在此一并更新。

  23年的AI绕不开的问题就是大模型,最近私下以及在几个workshop上反复和各种同学讨论相关的问题。借这个机会也整理一下几点个人的看法和大家分享讨论~

  Q1: 究竟什么是大模型?参数量或计算量大就叫大模型吗?Large Model or Foundation Model?

  A1: 其实在讨论所有关于大模型的问题之前,都需要明确这个问题。大模型(Large Model)这个名词其实是一个非常误解的名字,其实更准确的应该是基石模型(Foundation Model)。经常发现和很多人聊了很久,观点针锋相对,最后发现双方根本讨论的不是一个东西。。。就目前而言,我认为的大模型至少要有两个要素:1) 跨任务的通用性 2) 跨域的通用性。参数量和计算量的scale up只是大模型的一个必要而不充分条件。以GPT为代表的NLP大模型,通过prompt来统一了不同任务,也通过利用了基本上所有可用的文本数据将所有NLP问题变成了域内问题。

  如果我们以这个标准来讨论,就会发现其实现在很多所谓的大模型,都不能叫做大模型。去讨论这样的模型到底能做什么,边界在哪里自然就是一个没有意义的事情。如果能理解这点,很多所谓的行业大模型本身就会成为一个伪命题,只能叫做通用大模型在垂直行业的一个应用(当然这件事情本身很多时候也是有商业价值的)。而反过来讲,想只靠某些垂直领域的数据去训练一个所谓的行业大模型不如叫做小模型或者专业模型变大,这和大家在讨论的Foundation Model就是完全不同的两个东西。

  Q2: 目前视觉领域存在这样的大模型吗?如果没有可能的原因是什么?

  A2: 很遗憾,虽然这方面已经有了很多如CLIP或DINO之类的尝试和进展,但是目前对于CV而言,还远未到达ChatGPT时刻。究其原因,本质还是视觉信息与语言信息这两者在信息密度上的巨大差异。语言只需要考虑一维上(前后文)的context,然而视觉需要考虑在三维(2D图像的x y和时间)的context。这会使得context信息密度的急剧下降,对于需要的数据量和计算量有指数级的上升。说到底,语言毕竟还是人的逻辑思考的产物,而图像或者视频则完全是自然的展现。具体到技术层面上来说,也有若干没有确定答案的open问题:

  什么是最合适的监督形式?年初SAM带火了一波视觉大模型,但其实本质上仍然是监督学习的范式。做的事情也是在工程上推到极致,通过这样的方式继续scale up的难度是非常大的。而现在视觉自监督最常见的两种范式Contrastive Learning和Masked Autoencoder也遇到了继续scale的难题:似乎视觉模型随着参数量和计算量的增加并没有出现语言模型的Grokking现象,甚至随着规模的scale up性能出现了一定程度的饱和。这和在NLP里面的大力出奇迹的表现非常不同,究竟是规模还不够大,还是因为这样的监督方式就有问题,目前还不得而知。

  多任务的表示形式怎么统一?这一点其实是在一次的panel上 @代季峰 老师提到的。在NLP中我们可以通过prompt的形式把基本上所有的NLP任务统一成text to text的形式,但是CV中呢?naive地类比成image to image translation显然会存在很多的问题。没有统一的表示使得多任务很难共享同样的网络,仍然需要单独训练不同任务的head,使得模型的泛化性大大降低。

  不敢妄言视觉大模型正确的思路是什么,但是可以分享一些我认为的视觉大模型该考虑到的一些点或者说具有的一些性质:以自监督为范式,时序和3D为基础,能预测物理世界。第一点是scale up的基础,无需多言。第二三点其实我认为是目前所有视觉预训练模型都没有解决的一个核心问题,也是打通low level vision与high level vision的一个关键的桥梁。现有的视觉预训练数据基本都来自于单帧的web data,这和在自然物理世界中会遇到的数据分布其实是有巨大的差异的。而CV和NLP我认为最大的区别就在于,CV的大模型最终极的目标是能和这个物理世界产生互动,能够理解这个物理世界中的常识。为了达到这个目标,只使用单帧的web data是显然不行的。在这个方向上,SFMLearner是一个很好的尝试,解决了low level vision自监督中的一些问题,但是仍然没有向上去解决high level的语义问题。希望在这个角度上,能看到更多有意义的尝试。

  Q3: 现在有很多大语言模型在机器人领域的尝试,这是否意味着传统的规划控制会被全数据驱动的方法取代?

  A3: Of course no! 以有限的对LLM for robotics的了解,现在的工作大致可以分为两类:1) 用LLM作为一个更好的环境理解与人机交互的接口。 2) 用LLM + Neural Symbolic的方法去做task planning。在这两个方向上确实LLM取得了很好的进展,但是这就是规划和控制的全部吗?分享一些我能看到的问题:

  1) 更底层的运动控制与规划是一个被well solved的问题吗?目前还没看到有什么证据表明LLM可以直接去控制一些复杂的被控目标。和执行器打交道的更底层控制,仍然需要对被控对象进行精细的建模。我也不相信Boston Dynamic这样的公司真的会去用大模型去解决这些复杂的底层控制问题。

  2) 现在看到的应用中基本上都是对于静态环境与静态的agent交互。对于更复杂的POMDP,目前并没看到有什么相关的尝试。这恰恰算是在规划控制问题中一类常见的问题,例如无人车的规划,竞技类的棋牌游戏亦或是星际争霸。这样的一些任务中,状态空间巨大,也需要对不确定性进行很好的建模。目前也没看到LLM能够通过一些prompt的形式实现这样的功能。

  所以总结一下,LLM for robotics确实有很多有价值的应用,尤其是在任务理解和规划层面,但是想完全取代也是不现实的。

  Q4: 端到端自动驾驶算不算大模型?都拿了CVPR best paper了,你们L4为什么不跟进?

  A4: Well,如果以Q1中的定义的话确实不算。除了实际的一些工程问题之外,其实在L4中不去这样做的一个核心问题还是在于可靠性。在很多场合我都表达过追求全系统的端到端对于L2来说是可行的,但是对于L4是不适合的。L2系统很多时候可以在效率与安全之间tradeoff,但是L4系统的设计目标则是在保证worst case安全的前提下来优化效率。显然,任何一个纯数据驱动的feedforward系统是不会有这样保证的。为了达到这样的安全目标,我们必然要去在系统设计层面设计足够多的算法冗余,这就会打破端到端的模式。更详细的阐述见我之前写的这篇文章:

  Naiyan Wang:海量数据就是高级别自动驾驶的银弹吗?最后,为了防杠,想补充的一点是,上下游协同设计和优化的这个思想我认为是非常正确和有意义的,只不过在部署端一定会存在模块化的冗余。在这一点上,还是有很多有意义的方向可以尝试,除了常见一些模块之间的表示与接口有很大的优化空间,就算在端到端方向也有一些有意义的问题:第一,怎样把一些行为有保障的planner(一般会是一个非凸的优化问题) formulate成对输入可导的形式,从而指导上游模块的学习?这样系统就不是一个纯feedforward了,从而可以加入各种约束和保证。我们之前在多目标追踪方向上做过这样的一些尝试,但是这个问题中的优化形式相比于planner还是过于toy了。 第二,如何评测一个端到端训练的系统输出以便可以比较?在端到端的系统中,传统的感知评测的metric都已经不再适用。期待在这些问题上能有一些突破性的进展。

  Q5: 那大模型在自动驾驶中可能有哪些应用?有没有实际落地的场景呢?

  A5: 在车端而言,我确实没看到有什么去做部署的可能。一方面是实际算力的问题,一方面是并没看到一个特别清晰的杀手锏应用,也就是说没看到什么现在车端小模型一定解决不了但是大模型可以解决的问题。换句话说,如果给一台8卡A100在车上跑,L4自动驾驶就做出来了吗?答案显然不是的。但是在离线场景中,确实大有可为。这面最典型的应用可能就是数据集和corner case的检索与扩充。这个在 @王井东 老师在Apollo Day上有详细的介绍,我们做过一些类似的尝试,也取得了很不错的效果。除此之外,在预标注和自动标注方向也有很多的应用,也可以用更直接的model distill的方法来辅助在线模型的训练。总结下来,核心思想都是通过无论是数据还是特征的方式,将大模型更强的表征能力赋予在线的模型。也期待后续能有一些更新的范式出现,解决在线场景中的一些棘手的问题。但所有这些的前提都是大模型真的可以可靠解决小模型解决不了的问题。

  在2023.7这个时间点来mark一下现在的认知,可能随着技术的发展有很多东西都要被打脸,也欢迎大家评论区理性讨论,观点碰撞~

上一篇:学生卡手机卡二合一,北京一卡通推出“超级SIM
下一篇:深圳体育中考新增7项难度适中 力争2025年每位学生熟练掌握1

最近更新素质教育