AI 科学家：迈向人工智能驱动的物理规律发现和生物医药工程

栏目：学历教育时间：2023-04-23

　　导语

　　AI 大模型解放码农双手？已经实现！AI 大模型解放科学家大脑？或许真的可以实现！最近卡耐基梅隆大学的几位化学家，利用 GPT-4 模型，在化学合成实验上自动化合成和研究新物质，解放科研生产力。在物理学领域， AI 可以从实验数据中发掘有效信息，发现背后的物理学定律。在生命科学领域，通过分析海量的基因数据和生物信息学，AI 能够帮助我们理解基因、预测疾病，甚至设计全新的蛋白质。本次分享将由王瀚宸和刘子鸣分别从物理和生命科学领域，为大家阐述 AI 如何推动科学发现的突破和发展。

　　AI+Science是近年兴起的将人工智能和科学相结合的一种趋势。集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以 "AI+Science" 为主题的读书会，从 2023 年 3 月 26 日开始，每周日早上 9:00-11:00 线上举行，持续时间预计 10 周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

　　简介

　　本次读书会由两部分组成，从物理和生物医学两个角度为大家介绍 AI 将如何帮助我们探索科学世界？

　　第一部分 , 子鸣将分析人工智能科学发现的主题。四百年前，开普勒三定律的发现曾花费了十年时间，如果今天利用机器学习，能够加快物理问题的解决吗？本次分享将讨论如何使物理知识与数据和知识资源可持续动态更新，涉及到支持人工智能系统的透明度、可解释性、开放性、可重用性和可信度等前沿研究综述，以及自己神经新物理学检测器（NNPhD）的工作。

　　第二部分 , 瀚宸为大家解读 AI + 生物医药和临床研究的前景。AI for Life Science 远不止蛋白质语言模型 , 比如单细胞基因测序在基因治疗、合成生物学、药物开发有着广泛的应用前景。在这次分享中，将着重介绍在基因数据领域，AI 可能带来的变革和展望，包括需要哪些分析工具来做数据工程，以及自己用 Concept Bottleneck Models 在单细胞基因测序领域数据理解、整合的研究工作GeneCBM。

　　分享大纲

　　Part 1：AI for 物理发现

　　AI 加速物理发现综述

　　神经新物理学检测器 NNPhd 的原理

　　需待解决物理问题展望

　　Part 2：AI for 生命科学概述

　　AI + 生物医学中的数据工程 ( Data-Centric )

　　Integrating ( GeneCBM )

　　Generating/Simulating

　　Mining/Screenning/Understanding

　　待解决问题以及我们需要哪些工具

　　主讲人介绍

　　刘子鸣，目前是麻省理工学院（MIT）物理系博士生，导师是 Max Tegmark。此前 2020 年他从北京大学获得物理学士学位。他的研究兴趣在 AI 和物理的交叉：一方面 AI for Physics，利用 AI 工具自动化物理规律和概念的发现；另一方面 Physics for AI，利用物理启发构建 AI 理论和更具可解释性的模型。

　　个人主页：https://kindxiaoming.github.io/

　　王瀚宸，现任斯坦福计算机科学系与基因泰克新药研发部门联合博士后，导师为 Jure Leskovec 教授和 Aviv Regev 院士。他的研究重点在于将 AI/ML 等先进计算技术应用于基因组学及新型疗法的临床研究，并涉猎与基础模型相关的领域（如自监督学习、持续学习、机器学习系统等）。他作为第一作者在 Nature、Nature Machine Intelligence、NeurIPS、ICCV 等期刊和会议发表文章，也在 ICML、NeurIPS、ICLR 上举办过一些与 AI for Science 相关的 workshop。他本科保送至南京大学匡亚明学院物理系，导师是王欣然教授。他在剑桥大学获得机器学习博士学位，导师是 Joan Lasenby 教授。

　　个人主页：https://www.hanchenw.com

　　直播信息

　　直播时间：

　　2023 年 4 月 23 日（周日）晚上 21:00-23:00

　　参与方式：

　　扫码参与读书会，加入群聊获取本系列读书会的视频回放权限、资料权限，与社区的一线科研工作者和企业实践者沟通交流。

　　相关工作

　　AI 结合理论和数据发现科学方程

　　科研人员往往需要通过实验、模拟发现能够准确描述实验数据的有效公式。自然现象的数学模型可以根据领域知识手动创建，也可以利用人工智能的方法从数据中自动创建。如何使的结果更具有可解释性是 AI 推动科学发现的关键。

　　图 1｜对系统实施的科学方法的解释。（来源：Combining data and theory for derivable scientific discovery with AI-Descartes）

　　AI 引导人类直觉，帮助提出数学猜想

　　数学的实践包括发现模型、使用它们来提出和证明猜想，得出定理。严谨的逻辑推理结合良好直觉是解决数学问题的关键，DeepMind 团队在 Nature 杂志上发表的一项研究为我们展示了人类与 AI 合作，利用机器学习从海量数据中探索新模式，指导数学家的专业直觉，精确并严格的给出猜想和证明过程。

　　图 2｜新的框架以 ML 和归因技术两种方式帮助引导数学家的直觉。（来源：Advancing mathematics by guiding human intuition with AI）

　　AI 从实验数据发现物理定律

　　同样的案例也可以在物理学领域，我们已经开始使用 AI 来破解我们之前无法理解的问题，例如混沌理论。庞加莱的混沌体质揭示了这个世界的不确定性，然而我们可以利用神经新物理探测器来破解混沌的规律，从而获得更深层次的认识。

　　图 3｜拉格朗日神经网络重新发现了阻尼双摆的摩擦力，从天王星的轨道发现海王星，从螺旋轨道发现引力波。（来源：Machine-Learning Non-Conservative Dynamics for New-Physics Detection）

　　传统物理学研究是基于守恒的物理系统，但在当今的研究中，不守恒的物理系统也显得越来越重要。与传统物理学相比，不守恒的物理系统更为复杂，涉及到非线性效应、耗散效应和量子力学效应等多个方面。在这个过程中，科学家们需要用到更多的实验和数据分析，来理解这些复杂系统中的行为和规律。

　　图 4｜拉格朗日神经网络重新发现了阻尼双摆的摩擦力，从天王星的轨道发现海王星，从螺旋轨道发现引力波。（来源：Machine-Learning Non-Conservative Dynamics for New-Physics Detection）

　　神经新物理探测器（NNPhD）的开发和应用，为科学家们提供了极大的帮助。NNPhD 是一种基于人工神经网络和机器学习的新型物理学探测器，通过机器学习的方法，分析和预测不守恒的物理系统中的变化和行为。

　　AI 破解生命科学密码

　　而在生命科学和医疗领域，人工智能已经成为了研究生命密码的利器。通过分析海量的基因数据和生物信息学，AI 能够帮助我们理解基因、预测疾病、甚至设计全新的蛋白质。克里克的发现揭示了生命背后的神秘面纱，而如今的 AI 技术则能够让我们更深入地探索生命的奥秘。

　　图 5 | GoGNN 包括以原子特征为输入的分子图神经网络和产生预测任务图表示的交互图神经网络。（来源：GoGNN: Graph of Graphs Neural Network for Predicting Structured Entity Interactions）

　　近日，华盛顿大学的 David Baker 团队发表了一篇名为 "Top-down design of protein architectures with reinforcement learning" 的论文，其中提出了一种基于强化学习的全新蛋白质设计软件。该软件利用数百万个简单的起始分子，进行了一万次尝试，并随机改进每一次，以达到预定的目标。通过这一过程，计算机学会了如何将蛋白质扭曲成想要的形状，为蛋白质设计带来了全新的思路和方法。这一成果再次证明了人工智能在生命科学领域的重要性和潜力，同时也为研究和应用蛋白质在药物研发、工业生产等领域带来了新的机遇和前景。

　　图 6｜自顶向下的设计策略与计算管道。 ( 来源：Top-down design of protein architectures with reinforcement learning )

　　" 我们的研究结果表明，强化学习可以做的不仅仅是掌握棋盘游戏。当训练解决蛋白质科学中长期存在的难题时，该软件在创造有用的分子方面表现得很出色，" David Baker 说，" 如果这种方法被应用到正确的研究问题上，它可以加速各种科学领域的进步。" 在这一过程中，计算机以特定的方式延长或弯曲蛋白质，直到学会如何将它们扭曲成想要的形状。

　　随着人工智能在科学研究中的应越来越广泛，科学哲学也需要随之改变。传统上，科学哲学强调科学研究中的 "归纳推理" 和 "演绎推理"，即从特定事实推断出普遍性规律和从普遍性规律推断出特定事实。但是，人工智能在科学研究中的应用打破了这种传统的思考方式，它可以从数据中直接推断出规律和模式，而不需要依赖人类的归纳和演绎推理。

　　集智推文

　　如何发现 AI+Science 中的下一个 AlphaFold 和 ChatGPT？

　　AI 科学家：自动发现物理系统的隐藏状态变量

　　无量纲学习：机器学习识别无量纲数与标度律

　　长文综述：给生物学家的机器学习指南

　　Science 前沿：大语言模型涌现演化信息，加速蛋白质结构预测

　　集智学园最新 AI 课程推荐，

　　张江教授亲授：大数据驱动的人工智能

　　理解人类语言、创作艺术品、下围棋、蛋白质结构预测、新质子模型的发现、辅助数学定理证明，所有这些不同领域的难题都正在被新兴人工智能技术逐一攻破。人工智能，特别是以大数据、机器学习、神经网络等技术为主体的智能技术，近年来获得了迅猛的发展，它正在与各个学科发生交叉、融合，逐渐演化为一种解决各种复杂系统问题的跨学科方论，成为支撑复杂系统分析与建模的重要新兴技术。

　　本课程面向具有一定理工科背景和编程技术基础的学生，全面介绍基于大数据技术驱动为主的人工智能技术的最新进展，包括但不限于：神经网络、深度学习、强化学习、因果推断、生成模型、语言模型、面向科学发现的 AI 等前沿领域。希望学员能够在本课程的学习过程中了解数据驱动的人工智能最新方法、技术和前沿发展情况，同时通过一定的课程项目实践，能够具备利用人工智能解决复杂问题的实操、编程能力。

　　课程定价：399 元

　　课程时间：课程目前已上线到第 2 课。从 2023 年 3 月 -6 月，每周二中午 12:00 更新课程。法定节假日除外。

　　https://campus.swarma.org/course/5084?from=wechat

　　AI+Science 读书会启动

　　AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的 " 第五范式 "。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。

　　集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以"AI+Science" 为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会从 2023 年 3 月 26 日开始，每周日早上 10:00-12:00 线上举行，持续时间预计 10 周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

　　详情请见：

　　人工智能和科学发现相互赋能的新范式：AI+Science 读书会启动

　　点击 " 阅读原文 "，报名读书会

上一篇：中华文化对古代琉球王国的政治体系产生了哪些影响？
下一篇：汇聚微力量为基层治理赋能

AI 科学家：迈向人工智能驱动的物理规律发现和生物医药工程

最近更新学历教育