2022剑桥AI全景报告：扩散模型是风口，中国论文数为美国的4.5倍

栏目：继续教育时间：2022-11-25

　　阿尔法公社

　　重度帮助创业者的天使投资基金

　　━━━━━━

　　阿尔法公社：近日，剑桥大学的2022年 AI 全景报告出炉，报告汇总和聚焦了过去一年里 AI 行业中炙手可热的事件，援引数据来自知名科技公司和研究小组，由研究者Nathan Benaich和Ian Hogarth编写，从研究、产业、政策、安全、预测五个维度出发，对最新的 AI 发展现状和未来预期进行深度分析。以下是报告重点介绍，欢迎参考。

　　1.扩散模型火热、模型开源提速

　　从研究领域来看，今年 AI 发展呈现五大趋势：

　　基于文本到图像的生成能力，扩散模型（Diffusion Models）席卷计算机视觉世界

　　扩散模型是深度生成模型中新的 SOTA，在一些基准测试中，其图像生成能力超越了 GAN，是当前文本生成图像最火热的模型，并逐渐扩大到文本生成、文本转音频、文本转视频以及分子设计等领域。

　　今年4月，OpenAI 发布 DALL-E 2，只需要给到寥寥几句文本指示就可以生成全新的图像，刚亮相就在图像生成和图像处理领域引发极大的关注度。不久，谷歌也紧接着推出的 Imagen，基于大型 Transformer 语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力，将文本生成图像的逼真度和语言理解提到了新高度。

　　而真正将生成式 AI 推向创作高潮的，是Stability.Ai 在8月份公开发布的 Stable Diffusion 模型，只需输入几行文字描述，几秒钟后，AI 便能生成一幅幻彩斑斓的画作。

　　可以看到，目前 Stability.ai 和 Midjourney 等公司所创建的文本转图像模型，已经可以跟发展成熟的 AI 实验室的产品相媲美，其中，Midjourney 采用了订阅制的收费模式已经盈利，Stability 的模型则是开源的。

　　图注：Stable Diffusion 生成图像

　　此外，基于扩散的文本到视频生成的研究也从今年4月左右就展开了。

　　9月下旬，Meta 发布“Make-a-Video”，宣布了从文本到视频生成的 DELL-E 时刻早于预期，文本转视频的扩散模型首次在业界引起轰动。不到一周后，谷歌也发布了两个模型：基于扩散模型的 Imagen 和非扩散模型的 Phenaki，后者能够通过附加提示动态来调整视频生成。

　　AI for science，聚焦塑料回收、核聚变反应堆控制和天然产物发现等更多科学问题

　　在 AI for science 研究中，今年有不少突出的工作。

　　其中，DeepMind 与悉尼大学、牛津大学合作，将 AI 模型应用到数学领域的拓扑和表示论猜想，提出了一种新的算法，通过研究纽结的结构，发现数学在不同领域中的隐藏联系，该研究发表在《自然》杂志上。

　　图注：纽结结构

　　一年前，DeepMind 发布 AlphaFold2，以原子水平的准确度预测了三分之二的蛋白质结构，并与 EMBL-EBI 共同发布蛋白质结构数据库 AlphaFold DB。

　　到了今年7月28日，DeepMind 宣布 AlphaFold DB 已从 100 万个结构扩展到超过 2 亿个结构，扩大超过 200 倍，可用于植物、细菌、动物和其他生物的蛋白质预测结构，极大地提升了人们对于生物学的理解。

　　在塑料回收方面，来自 UT Austin 的研究人员设计了一种能够降解 PET 的酶（PET 是一种占全球固体废物12%的塑料），称为 PET 水解酶（ FASTPETase），能够在一周内几乎完全降解51种不同产品，并且还可以从回收的单体中重新合成 PET FASTPETase。

　　标度法则重新聚焦数据：模型标度并不是全部都需要的，朝单一模型发展，其核心在于数据

　　对于通用多任务、多模式模型的尝试，可以追溯到谷歌此前提到的“一个模型来学习”。

　　此前有研究发现，LLMs 可实现让机器人通过自然语言对每个步骤的解释来完成各种任务，但由于对机器人所处环境和现实能力缺乏认知，LLMs 的解释时常会出现无法被理解的情况。随着 PaLM-SayCan 的出现，这一问题也已经得到解决。

　　DeepMind 推出的 Gato 将这项工作带到了另一个层次，通过一个1.2B参数转换器，可以实现在机器人、模拟环境、视觉和语言中执行数百项任务。

　　此外，Transformer 作为一种解码器架构，当前其影响力已经超出 NLP，在计算机视觉上也发挥着重要作用，正在成为真正的跨模态产品。

　　图注：与 Transformer 相关的论文占比

　　社区驱动的大型模型开源速度加快，集合模式可以参与同大型实验室的竞争

　　OpenAI、DeepMind 旗下有多个模型已被开源社区实现、克隆和改进，进度远超预期。

　　图注：社区驱动的 GPT 等开源

　　尽管 AI 研究将越来越集中于少数大型实验室，但随着计算成本和访问权限的降低，因此也出现了最先进的研究在更小、以前不为人知的实验室得到提出等情况，同时，这些新的独立研究实验室也在迅速开源。

　　受神经科学的启发，AI 研究方法向认知科学的方向发展

　　图注：中美 AI 论文数量对比

　　数据显示，自2010年以来，中国机构撰写的 AI 论文数量是美国的4.5倍，远远超过美国、印度、英国和德国的总和。

　　同时，中国的论文更关注与监控相关的任务，包括对象检测、跟踪、场景理解、动作和说话者识别等。

　　2.AI初创公司投资放缓

　　新贵 AI 半导体初创公司与英伟达相比是否有作为？

　　报告显示，英伟达的芯片在 AI 研究论文中最受欢迎， GPU的使用率是ASIC 的131倍，是Graphcore、Habana、Cerebras、SambaNova和 Cambricon的芯片总和的90倍，是谷歌TPU的78倍，是FPGA的23倍。

　　图注：英伟达芯片在 AI 论文中的引用数量

　　招聘冻结和AI实验室解散，促使许多初创公司从DeepMind和OpenAI等巨头中诞生

　　DeepMind和OpenAI的校友各自开花，组建了许多新的初创公司，分别研究不同领域的AI技术，如:AGI、人工智能安全、生物技术、金融科技、能源、开发工具和机器人技术。

　　图注：由DeepMind和OpenAI分解出来的初创公司

　　最新AI技术被大型科技公司和初创公司转化为商业开发人员工具

　　OpenAI的Codex迅速从2021年7月的研究演变为2022年6月的开放商业化，微软的GitHub Copilot现在以每月10美元到每年100美元。亚马逊在2022年 6月发布了CodeWhisperer预览版。谷歌透露，其内部正在使用以ML驱动的代码完成工具，也许几年内会出现在浏览器IDE中。同时，拥有100多万用户的 Tabnine筹集了1500万美元，承诺有望实现准确的多行代码填写。

　　人工智能加快药物研发，促进医疗产业发展

　　人工智能药物发现公司在临床试验中拥有 18 项资产，高于2020年的0项。

　　图注：每家公司各个阶段的资产数量和资产百分比

　　另外，由于放射科医生的短缺和成影数量的增加，通过评估X光片针对疾病变得更有挑战性。因此立陶宛初创公司Oxipit创建了一个名叫ChestLink的计算机视觉系统，该系统可以自动报告没有异常的胸部X光片，就无需放射科医生来检查，这是业界首个基于计算机视觉的诊断自主认证。

　　大学是孕育人工智能公司的温床

　　目前，大学是人工智能公司重要的资源来源，包括Databricks、Snorkel、 SambaNova、 Exscientia等。在英国有4.3%的人工智能公司是大学拆分出来的，是所有英国公司的0.03% ，人工智能是能够拆分的代表性行业之一，通常这需要高昂的代价，技术转让办公室（TTOs）通常就拆分交易条款进行谈判。

　　随着市场的扩大，对AI初创公司的投资速度在放缓

　　与去年相比， 2022年预计使用AI的公司融资额将减少36%，但仍有望超过 2020年的水平，这与全球所有Start-up阶段和Scale-up阶段的公司投资相当。

　　VC投资的下降在1亿以上的轮次中最明显，而投资规模较小的轮次预计到2022年底全球将达到309亿美元，与2021年的水平相当。

　　综合公共企业价值（EV）已经下降到2020年的水平。同时，私营企业的估值不断增长，综合企业价值已经达到2.2万亿美元，比去年增长16% 。

　　图注：对 AI 初创公司的投资（按轮次）以及对所有初创公司的投资（按轮次）

　　目前美国的AI独角兽公司数量领先，其次是中国和英国。美国已经创造了 292 家AI独角兽公司，企业价值合计4.6万亿美元，中国创造了69家AI独角兽公司，企业价值合计1.4万亿美元，英国创造了24家AI独角兽公司，企业价值合计 2070亿美元。

　　图注：各个国家独角兽企业数量以及独角兽企业

　　尽管对于美国 AI 初创公司的投资大幅度下降，但它们仍然占全球人工智能总投资的一半以上。

　　图注：对AI公司的投资金额

　　企业软件是全球投资最多的类别，而机器人技术占据了 AI 风险投资的最大份额。

　　图注：各个领域投资金额

　　尽管IPO和SPAC IPO的数量急剧下降，但AI公司的收购数量可能会超出2021 年的水平。

　　图注：全球AI公司的退出数量，以及2022年退出的AI企业

　　3.对未来一年的预测

　　在2021年的报告中，曾对2022年 AI 的发展情况做出了8项预测，其中已实现 Transformers 在游戏中超过人类表现，这主要得益于 DeepMind 的 Gato 模型可实现对未来状态和动作的预测，日内瓦大学提出的 IRIS 模型则解决了 Atari 环境下的任务。

　　未实现的预测中提到，Graphcore、Cerebras、SambaNova、Groq、Mythic 中至少有一家被大型科技公司或者半导体公司收购，在今年也没有实现；ASML 的市值当前仅为1650亿美元，距预期中的5000亿美元还存在很大差距；JAX 框架的使用仍然占 Papers With Code 每月回购的不到1%，未达到预测中的5%。

　　图注：2021年预测中共4项实现

　　还有一些往年的预测在今年实现了，其中，美国 CHIPS 法案在今年禁止接收方在中国扩大业务，原预测中英伟达最终未能完成对 Arm 的收购、该交易也于今年正式取消。在 AI 初创公司方面，Helsing（德国）在今年筹集了1亿美元的A轮融资。

　　而对于一直备受关注的 AI 治理问题，2019年预测至少有一家主流 AI 公司会对治理及管理模式作出实质性的调整，Anthropic 也在今年成立、作为公益性公司活动。

　　图注：2020年及之前的预测在今年实现

　　报告中也提出了对未来12个月的9项预测，分别是：

　　DeepMind 训练了一个10B参数的多模态 RL 模型，比 Gato 大一个数量级

　　英伟达宣布与一家专注于 AGI 的组织建立战略关系

　　SOTA LM 在比 Chinchilla 多10倍的数据点上进行训练，证明数据集缩放与参数缩放

　　生成音频工具的出现，到2023年9月吸引超过10万名开发人员

　　GAFAM 向 AGI 或开源 AI 公司（例如 OpenAI）投资超过10亿美元

　　面对英伟达的主导地位，半导体初创公司面临现实困境，一家备受瞩目的初创公司被关闭，以低于其最近估值的50%的价格下跌或收购

　　一项像 Biosafety 实验室这样监管 AGI 实验室的提案得到英、美或欧盟政治家的支持

　　超过1亿美元将在明年投资于专门的 AI 对齐组织

　　一个用户生成内容方（如 Reddit）与一家生产 AI 模型的初创公司（如 OpenAI）协商商业解决方案，以对其用户生成内容的语料库进行培训

　　你觉得哪些可能会实现呢？

　　参考链接：https://www.stateof.ai/

　　本文转载自AI科技评论，作者黄楠、施方圆。

　　关于阿尔法公社

　　阿尔法公社（Alpha Startup Fund）是中国领先的早期投资基金，由曾带领公司在纳斯达克上市的许四清和前创新工场联合管理合伙人蒋亚萌在2015年共同创立。

　　阿尔法公社基金的三大特点是系统化投资、社交化创业者社区运营和重度产业资源加速成长，专注早期科技天使投资。目前已经在天使轮投资了包括白山云科技、领创集团(Advance Intelligence Group)、Zenlayer、帷幄科技、所思科技、薪人薪事、句子互动、中科海网等为数众多的优秀项目。

　　阿尔法公社获36氪“2017年最受创业者欢迎天使投资机构Top20”、“2019年中国企业服务领域最受LP欢迎早期投资机构”、“2019年中国企业服务领域最具发现力投资机构TOP10”，及“2020年中国最受创业者欢迎早期投资机构TOP50”、“2021年中国最受LP认可早期投资机构TOP30”、“2021年中国最受创业者欢迎早期机构TOP50”、“2021年中国跨境出海领域投资机构TOP10”、“2022年中国最受LP认可早期投资机构TOP50”等奖项；获得钛媒体“2020 EDGE TOP50投资机构”奖；创业邦“2022中国最受赞赏的早期投资机构TOP30”奖，还获得母基金研究中心“2018年中国早期基金最佳回报TOP30”、“2019中国早期基金最佳回报TOP30”，以及母基金周刊“2020中国投资机构软实力GP100科技力Top10”等奖项。

　　创始合伙人许四清获得2020年“福布斯中国创投人100”、投中“2019年中国最佳早期投资人TOP50”，以及36氪“2018年中国企业服务领域投资人TOP10”、“2019企业服务领域投资人TOP20”等奖项。创始合伙人蒋亚萌获得2019及2021年“福布斯中国创投人100”、36氪“2019年中国中生代投资人TOP50”大奖。

　　举报/反馈

上一篇：自考英语二为什么要刷真题？怎么样刷真题？
下一篇：专科自考本科的流程是什么？自考本科认可度高吗？

2022剑桥AI全景报告：扩散模型是风口，中国论文数为美国的4.5倍

最近更新继续教育