在本文中,我们将主要探讨以下几个话题:

  • 人类的科研范式经历了哪些变迁?
  • GPT目前仍是会出错的猜测机器,用来辅助科学研究靠谱吗?
  • 什么是AI4S,为什么是现在?
  • 科研全流程主要分几步,AI如何被嵌入其中?
  • 为什么说AI4S已经驱动AI制药进入2.0时代了?AI制药1.0时代和2.0时代有什么不同?
  • AI4S的应用前景如何?以化学、生物、材料等领域为例。

01 为什么AI能极大地助力科学研究?

▎科研的第五范式

人类科研范式的发展是一个螺旋式上升的过程——最初是基于观测数据归纳的经验范式,以开普勒为代表,他通过观察和简单的数学计算,发现了行星运动的定律;接着是第一性原理驱动的理论范式,代表人物是牛顿,即从事物的本质出发,发现事物的规律,并用方程来描述;随着数据量越来越大,再回到计算范式、数据驱动范式。

数据驱动的方法尽管可以有效地通过数据发现事实,但是不能很好地帮助人们找到事实背后的原因。基于第一性原理列出的数学方程,则往往不好解。AI4S这种融合第一性原理驱动和数据驱动的第五范式应运而生。

AI for Science:站在科研范式的转折点上

一个简单的方程可以帮助你理解第五范式。

𝑋=𝑋(𝜃) + 𝜖

蓝色的𝑋(𝜃)是某个描述物理世界的理论方程,但基于实验观测列出的理论方程必然存在能力边界,无法完全精准地还原物理世界(即绿色的X),所以会存在一个𝜖,代表理论和实际间的残差。

这就到了AI大放异彩的地方。简单来说,AI不仅可以帮助计算残差,还能帮助求解理论方程𝑋(𝜃)。

可能有人会说,我用过ChatGPT,有时它说出来的话很不靠谱 ,AI诚然有强大的生成和输出能力,但它本质还是一个猜测机器。ChatGPT的语言生成都是按照一定的概率计算出来,猜测机器往往会出错,用于科研难道没问题么?

没错,但问题也能解决。我们在使用AI工具增强科学研究能力的同时,只要结合科学验证,就能把“垃圾”过滤掉,留下有用的部分。

事实上,当前AI已经被广泛应用于科学的各个领域。基于AI的算法,可以极大地提高第一性原理进行建模的效率和准确性。通过提供新的实验设计、更准确和高效的实验表征算法,甚至新的实验设备,AI还可以改进我们做实验的方式。

比如在数学领域,数学家会利用计算机辅助计算、提出猜想和进行数学证明;比如在物理领域,AI可以在量子力学和经典的粗粒度模型之间架起一座桥梁,将不同尺度的物理模型有效连接起来;比如在化学领域,AI被用于设计化学分子或化学反应;又比如在生物领域,AI被用于设计生物分子或药物;在材料领域,对AI的使用加速了新材料的探索、设计、合成与优化……

可以说,AI4S正成为推动科技革命和新质生产力发展的核心之一。

▎下一次科技革命,将是数字和原子世界的深度融合

如果我们回看人类此前经历的工业革命和电气革命,二者的创新进展大都是随牛顿力学体系、热力学理论、麦克斯韦电磁场理论等宏观物理定律的建立而催生的。

然而进入微观世界后,一切都不一样了,宏观物理定律或许不再好用。于是,专门用于解释微观世界物理规律的量子力学应运而生,开启了第三次科技革命。可以说,量子力学诞生后,人类正式进入了微观范式。此后,半导体技术飞速发展,计算机越来越普及,互联网和移动互联网技术日新月异,AI技术不断突破,科技创新从物理世界逐渐转向到数字世界。

然而,按照康波周期,或者螺旋式上升的发展规律,下一次科技革命可能会从数字世界回到物理世界,当然最有可能的,还是数字世界和物理世界的深度融合。一旦要在物理世界实现创新,对微观粒子(电子、原子、分子)的测量、计算、调控和制造就变得至关重要。

这正是AI可以大显身手的领域,从狭义角度来看,AI4S可以研究微观粒子和其之间的相互作用,也就是研究微观世界的底层规律,这也是物理世界的重要基础。AI4S将推动下一次科技革命。

AI for Science:站在科研范式的转折点上

何谓微观世界?

微观与宏观相对,一般指肉眼看不到的尺度。物理学里的微观,是指原子尺度小于零点几纳米;生命科学里的微观,一般是匹配生物大分子的尺度,例如几个纳米到几十个纳米;材料科学里的微观,则是指材料直径小于10个纳米(1纳米等于一百万分之一毫米)。

AI for Science:站在科研范式的转折点上

举个例子。

如果碳原子按照蜂巢晶格的片状结构排列,就是石墨烯。如果按照呈正四面体连接成无限的三维骨架,就是金刚石。同样是碳原子,但因为排列和相互作用方式不同,就会有不同的性能。而在碳的基础上,继续加上氢、氧、氮,并以一定形式排列,就组成了双螺旋结构的DNA,即整个生物学的构成基础。

所以我们会说,研究微观就是在研究不同物质的分子组成(或者是序列)。我们关心分子的结构、动态,以及由结构和动态形成的功能。

如果用传统物理计算的方式来算分子模拟,会面临“维度灾难”,即随着变量的增加,问题的复杂度会呈指数级增长。特别是面对大系统和长时间尺度的模拟,不仅耗时高、模拟成本高,也很难算准。

在量子力学建立之时,英国物理学家狄拉克就曾乐观地预言,寻求基本原理的任务已大体完成,但因为其数学问题太复杂,变量函数太多,当变量个数增加时,计算量呈指数级增加,故而用基本原理来解决实际问题会非常困难。

例如各类多体问题,药物和材料设计、蛋白质折叠、湍流、塑性力学和非牛顿流体力学等,即便用上超级计算机也非常难以精确求解。所以,很长一段时间,人们会认为科学里有些问题就是没法算的,因为维度真的会高到爆炸。

AI特别擅长解决高维的数学问题。就像鄂维南院士2022年5月在《再谈AI for Science》报告中提到的,解决高维的数学问题,恰恰是深度学习或者说AI擅长的,深度神经网络对高维函数提供了有效的逼近方法。因为当利用神经网络逼近函数时,模型需要的参数和维度无关。

举个简单的例子。AI擅长图像识别,图像识别就是一个高维的问题。比如一个分辨率为32×32的图像,它的维度就是32×32像素,每个像素有三种颜色,那就大概是一个32×32×3=3072的维度。与之形成对比的是,人类能解的经典方程式是波尔兹曼方程,它在形式上是一个维度为7的微分积分方程,其涉及到七个独立变量:三个空间坐标、三个速度坐标以及时间。

02 AI的突破性发展,驱动AI4S

为什么我们最近越来越感觉到AI4S的重要性?这主要得益于近几年AI的突破和溢出效应。

▎基础设施(infra)革命

作为AI基础设施的领导者,这些年英伟达GPU的迭代速度逐渐突破摩尔定律的限制,推动了计算的蓬勃发展。2024年6月,英伟达CEO黄仁勋在computex 大会上讲到,过去八年来,AI的运算速度增长了1000倍,能耗降至原来的1/350。AI的发展,极大地拓宽了科技创新的边界。

▎算法革命

  • 自监督学习:自监督学习标志着AI学习方式的一个重要进步。上一代的AI在进行许多学习任务时,是需要做数据标注的,但也正是受限于此,无法真正处理大数据,得到大模型。相比之下,自监督学习无需人类专家提供标签或答案,可以自主学习海量的未标注数据。通过利用数据自身的结构和属性,自监督学习可以提取数据特征,作为监督信号来训练模型。
  • Transformer:  Transformer是一种广泛应用于自然语言处理中的特征提取器,通过引入注意力机制,能够并行地处理序列数据。作为性能最佳的特征提取器,Transformer已经成为深度学习模型的首选架构。
  • 大模型/预训练:利用大量未标注数据进行预训练,然后根据不同的任务和场景,在有标注的数据上进行有监督的学习,根据特定任务和场景调整和优化。
  • 生成式AI:分析现有数据的分布,基于此生成多样性的设计,例如可以被用于生成小分子或者蛋白。
  • 几何深度学习:特别适用于处理带有几何形状的图(graph)或者流形(manifold),例如原子和分子。这类深度学习方法在特征提取过程中,能够保持对象的拓扑特征(即几何不变性),从而更好地捕捉数据的几何结构。
  • 强化学习:在奖励函数的驱动下,agent(智能体)通过与环境的交互来学习最优的行为策略,以实现奖励最大化。
  • 基于物理的AI:将物理模型作为先验知识,代入到AI算法中。这是一种深度融合物理模型与AI算法的方法。
  • 主动学习:主动学习是指对需要标记的数据进行优先排序,对于需要优先探索的点,会升高优先级的一种策略。这样可以确定哪些数据对训练监督模型会产生最大的影响。

综上,在当下这个时间点,AI4S能发展起来的重要前提是算法和算力都实现了巨大的突破。在此基础上,越来越多的科研人员开始将AI用于科研的各个环节。

03 AI怎样被嵌入科研全流程?

AI for Science:站在科研范式的转折点上

一般情况下,科研的全流程主要包括几步:首先,提出一个科学假设;接着,通过实验获取数据,对数据进行分析,看是否符合此前提出的假设。如不符,就修改科学假设,继续实验、分析、调整,直到完成对假设的验证。

AI for Science:站在科研范式的转折点上

这个过程中的每一步,AI都能发挥重要作用。AI已经被广泛用于学习实验数据中的表征、精修测量结果、生成科学假设、指导实验和利用agent(智能体)实现自动化、探索理论空间等。

AI4S可以解决不少领域的问题。它可以用于天气预报、电池设计、制药领域的高通量虚拟筛选等等,既可以解决极其宏观的问题,也可以解决非常微观的问题,例子见下图。

AI for Science:站在科研范式的转折点上

AI4S大概可以分为三种类型。

▎数据驱动为主 (AI+数据)

代表案例是DeepMind公司开发的蛋白质结构预测算法AlphaFold2。AlphaFold2完全是数据驱动的,没有用到任何物理模型,输入蛋白的序列(更准确的说是Multiple Sequence Alignment,简称MSA,多序列比对),就能得到蛋白的结构。

当今年诺贝尔物理奖颁给研究人工智能的科学家时,在峰瑞内部,我们开玩笑地猜,AlphaFold2会得诺贝尔化学奖。

为什么?一方面,因为结构决定功能,结构极其重要,而蛋白的结构预测是结构生物学、药物研发等领域的圣杯。

另一方面,因为这是第一次通过计算方法达到了实验的精度。此外,过去60年间,人类通过实验手段测得了20万个蛋白的结构,AlphaFold2在不到3年时间里就成功预测了数亿个蛋白质结构,这意味着实现了万倍以上的效率提升。

AI for Science:站在科研范式的转折点上

AlphaFold2之所以能够成功并准确预测,原因之一是引入了多序列比对(MSA)的数据。过去数十年间,随着生物技术的不断发展,人类已经积累了巨量的宏基因组数据。这使得我们可以对某个蛋白去做蛋白质序列的多序列比对,即分析和比较同一蛋白在不同物种(人、猪、鸡、鱼、真菌、细菌等)中序列的异同。也就是说,结构比序列更保守,序列的变化模式也提示了结构信息。

某种程度上可以说,AlphaFold2是一个完全基于数据的、以多序列比对为条件约束的蛋白结构生成模型。具体而言,用户只需输入蛋白质序列的数据,AlphaFold2就能通过其强大的算法和模型,计算出高度准确的三维结构,就如同借助了先进的统计机器来高效地完成蛋白质结构预测。

此前,大家经常有个疑问:AI驱动的各种模型到底能不能精准地解决问题。在我看来,AlphaFold2给了我们很大的信心,因为它就是一个用AI把蛋白质结构预测做得特别好的例子。

▎模型驱动为主 (AI+物理模型)

模型驱动为主的AI4S,是用AI来连接、处理各种尺度的物理模型或者基本原理。

这些物理模型和基本原理通过常规方法往往难以求解,或者说当前的数据量不足以来实现有效观测和计算的,例如薛定谔方程、波尔茲曼方程、密度泛函、分子动力学、量子力学等等。

AI for Science:站在科研范式的转折点上

我们在上面提到过,数据驱动的AlphaFold2能够成功的一个前提,是有相关的海量数据。然而在很多领域,一个典型的难题恰恰在于数据的匮乏。此时,AI4S的任务是,帮助求解物理模型,从而解决问题。

以深势科技的深度势能面计算来举例:

AI for Science:站在科研范式的转折点上

利用密度泛函或者量化计算来计算势能,是一个复杂度为O(N³)的问题,其计算量和复杂度随着粒子数量的增加迅速变得无法承受。深势科技利用AI对高维势能面进行高效采样,AI结合量化计算,把复杂度降到了O(N)。

具体而言,上图左下三个蓝色的球,代表势能面上的3个点,可以用物理基本原理的方法分别较为准确地算出势能面上3个点的能量,然后让神经网络去学习精准物理计算的结果,得到一个深度势能的神经网络。那么下一次如果还需要计算势能面上某个点的能量时,就无需再调用量化计算,AI已经可以自行完成计算并直接输出答案,实现量化计算的精度+经验力场的速度,既准又快。

▎模型和数据深度融合 (AI+物理模型+数据)

第三种类型是将观测、测量的数据和(物理+AI)模型深度融合,常被用于药物设计、天气预报、受控热核反应等领域。

以我们峰瑞投资的创新企业剂泰医药为例。

剂泰医药利用AI设计LNP(即脂质纳米颗粒)。LNP是一种具有均匀脂质核心的脂质囊泡,用于递送核酸药物,避免其在递送过程中的降解和提前释放。新冠的mRNA疫苗就是采用LNP递送的。

LNP将活性分子以适当的浓度,在适当的时间,递送到正确的位置。这是一个跨尺度的复杂过程。这个过程涉及多个不同的尺度范围:分子和纳米尺度、细胞尺度、器官尺度。

在分子和纳米尺度,要考虑阳离子脂质的成分,以及数以万计的分子如何组装成LNP颗粒;在细胞尺度,要考虑LNP如何进入细胞,以及在胞内是否会发生内涵体逃逸,避免药物发生降解而失效;在器官尺度,需要对LNP和血浆蛋白的相互作用进行模拟,预测血管外渗和器官靶向性质等。

在对这个过程进行研究和分析时,AI可以快速生成分子设计用的百万量级的脂质库;AI也可以预测递送效果,为实验设计提供指导;而物理模型可以提供微观层面的物理机制解释,例如,预测某种LNP能否发生内涵体逃逸;真实的实验数据成为模型最终的判据和迭代的根据,来不断完善和优化模型。AI+物理模型+数据共同推动LNP递送技术的发展。

AI for Science:站在科研范式的转折点上

04 AI4S在化学、生物、材料领域的具体应用

在数学和物理学领域,AI4S主要适用于解决基础问题;在化学、生物和材料领域,利用AI来发现新药、发明新材料、生成新分子,则有着强大的产业前景和商业潜力。

▎AI制药,已进入2.0阶段

AI制药是AI4S的重要应用领域与分支。它是指利用AI技术对药物研发、药物设计、药物筛选、临床试验和药物生产等各个环节进行创新和优化。我们认为,经过近十年的发展,AI制药已经迈进了2.0时代。

2016年起,“IT+BT(生物计算)”就是峰瑞资本的投资主题之一,我们也因此完整地参与了国内AI制药1.0时代的投资热潮与行业发展。

AI制药1.0时代和2.0时代有什么区别?

主要还是以算法的变革来划分。AI1.0是判别式AI,AI2.0则是生成式AI。对照到AI制药领域,我们可以不太严谨地划一条线,2022年以前成立的AI制药公司主要基于判别式AI,属于AI制药1.0时代的公司;2022年后成立的AI制药公司,则主要基于生成式AI,属于AI制药2.0时代的企业。

1.0时代的公司大多瞄准药物研发的临床前阶段,并集中在小分子药物发现领域。在生物医学领域,小分子通常指的是分子量小于500道尔顿的有机化合物,例如由苯环、羧基和乙酰基等部分组成的阿司匹林分子;而大分子通常指的是分子量超过1000道尔顿的生物分子,包括蛋白质、核酸、多糖等。

其实,用AI做小分子药物研发算是挑了一个极具挑战的题。在10的-10次方米的尺度下,要精准刻画小分子和蛋白的相互作用是非常困难的。既没有足够多高质量的数据,AI还属于初代的判别式AI,很多团队其实是用“物理+AI”的方法来弥补相对薄弱的技术底层。

不成熟的工具,加上最难的命题,确实是“Hard”模式。

从“Hard”模式起步,不止发生在AI制药领域。类似的,AI在医疗影像领域的应用一开始是奔着直接替代医生去的,初代自动驾驶目标也都定在L4级别(汽车能够实现完全自动驾驶)……但做着做着,经过非常多年的发展,期间也会经历泡沫破裂,在技术越来越成熟的同时,大家设定的目标反而会越来越收敛。

回到AI制药。1.0时代的公司的主流商业变现路径包括软件服务、CRO、药物管线开发。整个AI制药行业在2022年达到融资高峰后开始遇冷。不过,头部公司仍然活得不错。除了企业家精神与团队能力,这些头部公司还受益于上一轮资本周期中流动性相对充足,巨额的资金集中流向了它们,比如晶泰科技在IPO前累计融资额高达7.32亿美元,英矽智能融资额超过4亿美元。

如果资本退潮延续下去,80%的公司可能都会因融不到足够的资金而倒下。可就在大家觉得行业正在面临价值重估的时候,新的技术突破可能会再一次带领我们杀出了重围。

过去两年内,技术发展日新月异:

  • 先是2020年12月,AlphaFold2在CASP14(蛋白质结构预测关键评估)中表现出了足以媲美实验室水平的蛋白质结构预测能力;
  • 2022年11月,ChatGPT横空出世;
  • 2023 年7月,David Baker团队公布了RF diffusion,蛋白设计从物理计算转向AI,在成功率与设计效率上有了显著提升;
  • 2024年5月,AlphaFold3发布,不同于AlphaFold2只能预测蛋白质结构,AlphaFold 3能以前所未有的准确度预测包括蛋白、多肽、核酸等所有生命分子的结构和相互作用;
  • 2024年6月,可以实现新型蛋白质生成的ESM3发布,这是由初创公司 Evolutionary Scale开发的生命科学领域的大模型……

我们有一个有意思的观察,过去几年AI制药公司的PMF(product-market-fit)按照小分子-大分子-小分子的方向在发生变化,这也是一个螺旋式上升的过程。

1.0时代的公司很多是在研究小分子,而上述我们提到的这些技术进步主要发生在大分子。以人类能够利用AI预测单体蛋白结构和进行从头蛋白设计为标志,AlphaFold3的诞生,利用diffusion在全原子尺度去学习生物分子间的相互作用,特别是小分子和蛋白的结合,又让关注点重新回到小分子。

此外,技术的进展也从研究分子的结构,延展到研究生物分子之间是如何相互作用、组成分子机器,并产生功能。这也正是结构生物学关注的核心。

AI for Science:站在科研范式的转折点上

如今,AI制药企业可及中的工具显然比1.0时代要更多和更好了。做个粗略和激进的估计,1.0时代的底层技术可能也就相当于当下的1/5至1/10?且技术还在快速迭代中,这怎能让人不对未来十年充满期待?

据不完全统计,目前国内大概有一百来家AI制药企业,估计最后能够上市或者有机会走向市场的是极少数。其中,峰瑞早期参与投资的晶泰科技于2024年6月在港交所上市,是港股18C,也是AI制药第一股。晶泰科技还被纳入香港恒生指数成份股。

假若这批公司里最终能有5-10家企业成功上市,那么,按照当前技术发展日新月异的程度,未来十年应该会有更多诞生于AI2.0时代的AI制药公司能上市,或许会是一个三到五倍的数量。

这也是峰瑞一直在持续关注这个领域的原因。因为技术的大变化,往往会带来商业机会。我们看好AI制药1.0时代的公司把最新的模型用到其有积累、有优势的应用场景里,也看好乘着AI2.0浪潮而起的制药公司们依托更前沿的技术来做创新。

▎AI 在生物领域的应用机遇

整体而言,AI在Biotech中的应用,可以分为三个层次:

一是GPT驱动的自然语言处理的进步,直接应用于生物医疗知识的提取。我们有大量生物和药物研发相关的知识,BioGPT、BioLLM这类擅长理解生物学概念的大语言模型,可以非常有效地从科学数据和文献中提取出知识和关键点。比如我们可以让大语言模型阅读3000万篇文献的摘要,然后从中发现一些此前未被发现的知识连接。

二是聚焦于计算生物大分子本身,沿着DNA-RNA-Protein的路径,来预测和设计这些生物分子的序列-结构-功能。

三是生物分子相互作用的计算,包括蛋白和蛋白的相互作用,蛋白和小分子的相互作用,或者蛋白的折叠过程。这也正是AF3在解决的问题。

在明确了要解决的问题之后,再来看AI for bio的三个主要技术前沿——以David Baker为代表的蛋白设计RF diffusion、Deepmind的AlphaFold2与AlphaFold3、多模态生成大模型ESM3。整体而言,这三条技术路线都是从只能做结构预测,到最后能够设计生物分子。

AI for Science:站在科研范式的转折点上

接下来,我们来逐一解释。

  • 以美国生物化学家、2024年诺贝尔化学奖得主David Baker为代表:基于扩散模型的蛋白质设计工具RoseTTAFold Diffusion(下简称 RF diffusion)

简单来讲,RF diffusion是使用去噪扩散概率模型,通过逐步降噪的方式来设计蛋白质。

去噪扩散概率模型最初是用于音频或图片的生成。如下图,通过在猫的图像上不断添加高斯噪声,使得图像最终变成一个高斯分布的纯噪声。训练AI去预测降噪的结果,当AI学会了逐步降噪,你就可以输入一个纯噪音,利用逐步降噪,生成类似图像的数据分布。

AI for Science:站在科研范式的转折点上

有趣的是,去噪扩散概率模型是受非平衡热力学的启发。

举个例子,将一滴墨水滴入水中,墨水会在水中形成一个斑点,渐渐散开。想要直接模拟墨水刚滴到水里未扩散前的初始状态的概率密度分布,是十分困难的。但随着墨水逐渐在水中完全扩散开来,分布变得均匀,其概率密度分布是好算的。非平衡热力学的作用在于,它能将墨水扩散过程中每一步的概率分布都描述出来。

由于扩散过程的每一步都可逆,所以只要“步子”足够小,就可以从简单的分布倒着推断出最初复杂的分布。

去噪扩散概率模型非常适合蛋白设计。David Baker团队将原有的折叠算法RoseTTAFold,巧妙地用扩散模型的方式进行训练微调,通过蛋白数据库(PDB)中大量真实的蛋白质结构数据加以训练。最初,RFdiffusion会产生许多“噪声”,接着通过反向的渐进式“去噪”,可以生成多种类似于已有,实则全新的蛋白质。

这就是AI4S奇妙的地方:物理学中的热扩散原理启发了AI中的Diffusion model,然后这个算法又被用于做蛋白分子的设计。AI和科学互为上升的引擎。

AI for Science:站在科研范式的转折点上

蛋白设计的工作流程,包括主链设计-序列设计-计算筛选-实验验证等,每一步都有不同的计算工具。

David Baker组做出了一系列突破,除了上述的用RF diffusion进行主链设计外,还发明了利用MPNN进行序列设计的算法,利用AlphaFold2或者RoseTTAfold进行计算过滤后再来进行实验筛选。经过AlphaFold2筛选的设计,通过实验验证的概率大增,这极大地提高了蛋白设计的效率。

下图都是RF diffusion和RoseTTAFold设计出来的一些在癌症免疫和病毒等领域非常重要的靶点。如果不使用这样的工具,可能费很大功夫还无法找到这些能够执行特定任务的蛋白质,而这些蛋白质都是潜在的成药分子。

AI for Science:站在科研范式的转折点上

正是凭着RF diffusion和ProteinMPNN,David Baker在2023年启动了创业公司Xaira Therapeutics,还请来了有着“生物产业科技起点”之称的基因泰克公司的首席科学官、斯坦福大学前校长Marc Tessier-Lavigne担任CEO。Xaira在种子轮就拿到10亿美元的融资,也是整个生物技术领域有史以来最大的融资之一。

  • Deepmind的AlphaFold2与AlphaFold3:从只能计算蛋白,到可以预测所有生命分子的结构和相互作用,AlphaFold3很大程度上扩展了AlphaFold2的能力,向商业化应用迈出了一大步。

AI for Science:站在科研范式的转折点上

AlphaFold2的架构: MSA + Transformer

在大语言模型中,我们会用到RAG(检索增强生成)技术。它是一个为大模型提供外部知识源的概念,使大语言模型(LLM)能够生成准确且符合上下文的答案,同时能够减少模型幻觉。当我们向模型提出一个问题时,虽然检索的是这句话,但模型会从数据源中检索相关信息,得到一系列跟这句话相关的信息,然后把这些全部作为给大语言模型的提示,相当于给模型喂了更多的知识,帮助它更好地输出答案。

MSA(多序列比对)与RAG类似,模型会把同源蛋白的序列比对,作为模型的附加输入。

此外,Alphafold2还利用这一波AI里最大的创新,即transformer架构,实现了端到端的预测,并能更好地处理长序列中隐含的序列和结构的关联。

AlphaFold3: AlphaFold2 + diffusion

AlphaFold3在AlphaFold2的基础上,增加了Diffusion模块,取代AlphaFold2中的结构模块。

所以,我们可以说AlphaFold3就是一个以序列(MSA)为条件的结构生成模型,同时使用了Transformer、RAG和diffusion。

AI for Science:站在科研范式的转折点上

AlphaFold3的出现之所以让大家特别激动,是因为人们发现在预测蛋白-小分子复合物结构的性能上,可能比基于物理的分子对接的方法更准。

在AI制药1.0时代,大家通常认为AI是不靠谱的,用物理的方法更准确。即便到现在,找与某个靶点结合的小分子的主流的做法是分子对接。但AlphaFold3可能会改变这种状况。当你输入蛋白的序列和小分子的SMILES文件后,模型可以在几秒的时间里给出共折叠的结构。

也正因为如此,AlphaFold3表现出了非常强大的商业潜力。2024年初,Isomorphic Labs(Deepmind孵化的以制药为目标的新公司)宣布与礼来和诺华签署了两笔总价值近30亿美元的大额订单。

  • 多模态生成大模型:从只能做预测,到能做设计和生成。

第三个前沿是直接用多模态的生成大模型“暴力”地进行计算。代表是EvolutionaryScale公司推出的蛋白质语言模型ESM3。

ESM3能够灵活地选择在序列、结构、功能上做提示(prompt),从而实现蛋白分子的生成。ESM3的训练数据集非常庞大,包含超过27.8亿种天然蛋白质,并通过合成数据增强到31.5亿个序列,还包含2.36亿个结构(实验测定再加上AlphaFold2预测),以及5.39亿个带有功能注释的蛋白质,token总数达到7710亿。

开发团队在三个规模上训练了ESM3模型:分别为14亿、70亿和980亿参数。他们发现,随着模型参数规模的增大,模型的性能越好,证明了scaling law的有效性。

这也说明了数据化是至关重要的。其实AlphaFold能做成,一个前提是因为测序技术的进步,我们积累了巨量的测序数据来做多序列比对,补足了我们在结构信息上的不足。此外,AI输出的结果,也需要通过实验来验证。

综上,这三种技术路线每条都在快速迭代中,三者都是在互相竞争中互相启发,共同进步。RF diffusion是在AlphaFold2(Rosettafold)的基础上,用扩散训练的方式微调而来,AlphaFold3是在AlphaFold2的基础上,加入了diffusion的模块,减少了对MSA的依赖。最终,它们可能都会收敛到一条相似的路径,一个生物大模型。

峰瑞在生物医药+生成式AI领域也有投资布局。其中,衡昱生物就致力于利用生成式AI来设计RNA分子。2024年6月,衡昱生物公布了其开发的全球首个生成式AI设计mRNA药物的技术平台GEMORNA。相关文章在Science审稿中。衡昱生物也是国内首个在Nature正刊上发表mRNA文章的公司。

▎AI在材料领域的应用

材料是物理世界的基础。每次大的科技革命,都离不开材料的革新。过去,重要的材料包括铁、铜、水泥、和钢;现在的支柱材料则包括硅、C-H、N等元素组成的各种半导体和高分子材料,以及生物分子。未来,纳米、生物基高分子、量子材料也有机会成为重要的材料。

新材料的发现和模拟,离不开AI。以GNoME为例。

2023年底,谷歌DeepMind的AI工具GNoME结合图神经网络和主动学习,成功预测了220万种晶体结构。其中38万个稳定的晶体结构有望成为实验合成的候选材料,为超导体、超级计算机供电等一系列未来技术的革新和发展助力。

和生物分子由序列表征不同,材料或晶体适合用图来表征。GNoME采用了一种先进的图神经网络(GNN)模型。在对材料进行了有效的表征后,利用DFT+主动学习的方式来进行筛选。与此同时,使用密度泛函理论(DFT)来量化计算晶体的能量,在这个过程中,AI可以帮忙简化计算,最终显著提高发现速度和效率。

得益于GNoME的强大能力,人类已知稳定材料的数量增长了近10倍,达到42.1万种。

AI for Science:站在科研范式的转折点上

DeepMind还称,GNoME已发现了528 种有应用前景的锂离子导体,其中一些可能有助于提高电动车电池的效率。

从新能源汽车电池到太阳能电池,再到计算机芯片等众多领域,新材料的发现将极大地加速技术层面的突破。

新材料自主发现合成系统(无人实验室)是材料领域当前发展的重要方向。无人实验室致力于达到科学工作流程自动化的效果。它将机器人技术与从头计算的数据库、机器学习驱动的数据解读、从文本挖掘的文献数据中学习得到的合成启发式方法,以及主动学习相结合,以优化粉末形态新型无机材料的合成。

比如美国劳伦斯伯克利国家实验室与谷歌DeepMind团队合作开发自主实验室系统A-Lab,由人工智能指导机器人制造新材料,在17天里连续开展355次实验,合成了58个目标化合物中的41个,成功率达到71%,远高于人工实验的成功率。

▎AI在化学领域的应用

代表案例是ChemCrow。

此前我们提到过大语言模型本身缺乏外部知识来源,所以RAG(检索增强生成)技术能发挥价值,当我们向模型提出一个问题时,虽然检索的是这句话,但模型会从数据源检索相关信息,得到一堆跟这句话相关的话,然后把这些话全部作为给大语言模型的提示,相当于给模型喂了更多的知识,帮助它更好地输出。

基于类似的逻辑,来自洛桑联邦理工学院(EPFL)和美国罗切斯特大学的研究团队开发了一款能够完成有机合成、药物发现和材料设计等多种化学任务的语言模型代理ChemCrow。

ChemCrow在大型语言模型GPT4的基础上,集成了13种专家设计的工具,有的是做合成的,有的是做规划的,有的是做测量的……。从结果看,GPT4+专家工具的组合拳,不仅增强了大语言模型在化学方面的表现,还可以自主执行化学合成任务,极大加快了化学和材料科学领域的研究进展。该团队也获得了Google前CEO Eric Schmidt的资助。

我们可以看到,AI正如火如荼地运用于生物、材料、化学等诸多领域,但总体来看,AI在生物领域的应用步伐是遥遥领先的——已经有第一代商业公司完成了上市,后起之秀也在前赴后继。