Scientific discovery in the age of artificial intelligence翻译

发布时间 2023-08-09 14:59:39作者: silly丶

本文全部由ChatGpt翻译,仅供参考

Scientific discovery in the age of artificial intelligence

人工智能(AI)正日益融入科学发现中,以增强和加速研究,帮助科学家生成假设、设计实验、收集和解释大规模数据集,并获得可能仅依靠传统科学方法难以实现的洞见。在这里,我们将审视过去十年中的突破,其中包括自监督学习,使模型能够在大量未标记的数据上进行训练,以及几何深度学习,利用对科学数据结构的知识来提高模型的准确性和效率。生成式AI方法可以通过分析多样的数据模态(包括图像和序列)来创建设计,如小分子药物和蛋白质。我们讨论了这些方法如何在整个科学过程中帮助科学家,以及尽管取得这些进展,仍然存在的核心问题。无论是AI工具的开发者还是用户,都需要更好地了解何时需要改进这些方法,而糟糕的数据质量和管理问题仍然是挑战。这些问题跨越科学领域,并需要开发基础算法方法,可以为科学理解做出贡献或自主获取它,使其成为AI创新的关键领域。

科学洞见和理论的形成基础是通过数据的收集、转化和理解方式来奠定的。2010年代初深度学习的兴起显著扩展了这些科学发现过程的范围和抱负1。人工智能(AI)在各个科学领域的应用越来越广泛,用于整合海量数据集、精化测量、引导实验、探索与数据相容的理论空间,并提供与科学工作流集成的可行和可靠模型,以实现自主发现。

数据收集和分析对于科学理解和发现是基础,也是科学的两个核心目标之一2,而从物理仪器如显微镜到研究技术如自助重采样等定量方法和新兴技术长期以来一直被用于实现这些目标3。20世纪50年代数字化的引入为计算机在科学研究中的广泛应用铺平了道路。自2010年代以来,数据科学的兴起使得AI能够通过从大型数据集中识别科学上相关的模式来提供有价值的指导。

尽管科学研究的各个阶段的科学实践和程序有所不同,但AI算法的发展跨越了传统上孤立的学科领域(图1)。这种算法可以增强科学研究的设计和执行。它们正在成为研究人员的不可或缺的工具,通过优化参数和函数4,自动化数据收集、可视化和处理的过程5,探索候选假设的广阔空间以形成理论6,并生成假设并估计其不确定性以提出相关实验建议7。

image-20230808173515662

图1 | 人工智能时代的科学。科学发现是一个多层面的过程,涉及多个相互关联的阶段,包括假设形成、实验设计、数据收集和分析。人工智能正准备通过在该过程的每个阶段增强和加速研究来重塑科学发现。这里展示的原则和示例研究突显了对提升科学理解和发现的贡献。

自2010年代初以来,AI方法的能力大大增强,这要归功于大量数据集的可用性,受益于快速且大规模的并行计算和存储硬件(图形处理单元和超级计算机),并结合了新的算法。后者包括深度表示学习(见方框1),特别是能够识别基本且紧凑特征的多层神经网络,可以同时解决科学问题中涉及的许多任务。其中,几何深度学习(见方框1)已被证明在整合科学知识方面很有帮助,它以紧凑的数学陈述形式呈现了物理关系、先验分布、约束以及其他复杂的描述,比如分子中原子的几何结构。自监督学习(见方框1)使得神经网络可以在标记或未标记的数据上进行训练,并将学习到的表示迁移到不同领域,只需要少量标记的示例,例如通过预训练大型基础模型8并适应它们来解决不同领域的多样任务。此外,生成模型(见方框1)可以估计复杂系统的潜在数据分布,并支持新的设计。与AI的其他用途不同,强化学习方法(见方框1)通过探索许多可能的情景并根据信息增益等指标为不同的行动分配奖励,找到了环境的最佳策略。

在以人工智能驱动的科学发现中,科学知识可以通过适当的归纳偏见(见方框1)被纳入到AI模型中,这些偏见是代表结构、对称性、约束和先前知识的假设,以紧凑的数学陈述形式表达。然而,应用这些法则可能会导致对人类来说过于复杂的方程,即使使用传统的数值方法也难以解决9。一种新兴的方法是将科学知识纳入到AI模型中,包括基本方程的信息,例如物理定律或蛋白质折叠中的分子结构和结合原理。这种归纳偏见可以通过减少所需的训练样本数量来提高AI模型的性能,以达到相同水平的准确性10,并将分析扩展到一个未被探索的广阔科学假设空间11。

与在其他领域利用人工智能相比,将AI用于科学创新和发现面临着独特的挑战。其中最大的挑战之一是科学问题中假设空间的广阔性,使得系统性的探索变得不可行。例如,在生物化学领域,估计存在大约10^60种可用于探索的药物样分子12。AI系统有潜力通过加速过程并提供与实验接近的预测结果来彻底改变科学工作流程。然而,获得可靠的用于AI模型的注释数据集存在挑战,可能需要耗时且资源密集的实验和模拟13。尽管存在这些挑战,AI系统可以实现高效、智能和高度自治的实验设计和数据收集,其中AI系统可以在人类监督下运行,评估、评价和处理结果。这些能力促进了人工智能代理的发展,这些代理可以在动态环境中持续交互,例如可以实时决策以导航平流层气球14。AI系统可以在一般情况下解释科学数据集,并从科学文献中提取关系和知识。最近的研究发现表明,无监督的语言AI模型可以捕捉复杂的科学概念15,如周期表,并预测功能材料的应用,甚至在它们被发现数年之前,这表明未来发现的潜在知识可能嵌入在过去的出版物中。

最近的进展,包括成功解开了持续50年的蛋白质折叠问题10以及利用人工智能驱动的模拟技术对含有数百万粒子的分子系统进行模拟16,展示了人工智能在解决具有挑战性的科学问题方面的潜力。然而,这一令人瞩目的发现前景伴随着新兴领域“科学中的人工智能”(AI4Science)所面临的显著挑战。就像任何新技术一样,AI4Science的成功取决于我们将其整合到常规实践中的能力,以及我们对其潜力和限制的理解。在科学发现中广泛采用人工智能的障碍包括与发现过程的每个阶段有关的内部和外部因素,以及对方法、理论、软件和硬件的效用以及潜在误用的担忧。我们探讨了AI4Science的发展,并解决了其中涉及科学方法、传统怀疑论和实施挑战等关键问题。

AI-aided data collection and curation for scientific research

实验平台收集的数据集规模和复杂性不断增加,这导致科学研究越来越依赖实时处理和高性能计算,以有选择地存储和分析以高速率生成的数据17。

Data selection

典型的粒子碰撞实验每秒会产生超过100TB的数据18。这些科学实验正在推动现有的数据传输和存储技术的极限。在这些物理实验中,超过99.99%的原始仪器数据代表了必须实时检测并丢弃的背景事件,以管理数据速率18。为了识别未来科学研究中的稀有事件,深度学习方法18用算法替代了预先编程的硬件事件触发器,这些算法搜索离群信号以检测在压缩过程中可能被忽略的未预料到的或稀有的现象。可以使用深度自编码器19(见方框1)来生成模型化背景过程。自编码器20会为之前未见过的信号(稀有事件),即背景分布之外的信号,返回较高的损失值(异常分数)。与监督异常检测不同,无监督异常检测不需要注释,并且已被广泛应用于物理学21,22、神经科学23、地球科学24、海洋学25和天文学26。

Data annotation

训练监督模型需要带有注释标签的数据集,这些标签提供监督信息,以引导模型训练并从输入中估计目标变量的函数或条件分布。伪标注27和标签传播28是对繁琐的数据标注的诱人替代方案,允许仅基于少量准确标注的数据对大规模未标记的数据集进行自动标注。在生物学中,对新特性分子分配功能和结构标签的技术对于后续监督模型的训练至关重要,因为实验生成标签的难度较大。例如,尽管下一代测序技术大量使用,但仅有不到1%的序列蛋白质被注释为生物功能。另一种数据标注的策略是利用在手动标记数据上训练的代理模型来为未标记的样本标注,并使用这些预测的伪标签来监督下游预测模型。与此相反,标签传播通过基于特征嵌入构建的相似性图来将标签扩散到未标记的样本13,30(见方框1)。除了自动标注,主动学习31-33(见方框1)可以识别出最具信息量的数据点供人类标注,或是最具信息量的实验供执行。这种方法可以让模型在较少的专家标签的情况下进行训练。数据标注的另一种策略是制定利用领域知识的标注规则34,35。

Data generation

随着训练数据集的质量、多样性和规模的增加36,37,38,深度学习性能会得到改进。创造更好模型的一个有成效的方法是通过自动数据增强和深度生成模型来生成额外的合成数据点,从而扩充训练数据集。除了手动设计这种数据增强(见方框1),强化学习方法39可以发现一种自动数据增强的策略40,41,这种策略既灵活又不受下游模型的影响。包括变分自编码器、生成对抗网络、归一化流和扩散模型在内的深度生成模型可以学习底层数据分布,并可以从优化后的分布中采样训练点。生成对抗网络(见方框1)已被证明对科学图像有益,因为它们在许多领域中合成逼真的图像,包括粒子碰撞事件42、病理切片43、胸部X射线44、磁共振对比45、三维材料微结构46、蛋白质功能47,48以及遗传序列49。生成建模中的一种新兴技术是概率编程50,其中数据生成模型以计算机程序的形式表达。

Data refinements

精密仪器如超高分辨率激光器和非侵入式显微镜系统可以直接测量物理量,或通过计算真实世界物体来间接测量,从而产生高度准确的结果。AI技术显著提高了测量分辨率,减少了噪声,消除了测量圆度的误差,从而在不同地点实现了高精度的一致性。科学实验中AI应用的例子包括可视化时空中的区域,如黑洞5,捕捉物理粒子碰撞51,提高活细胞图像的分辨率52,以及在生物背景中更好地检测细胞类型53。深度卷积方法利用了算法的进步,如光谱解卷积54,55、灵活的稀疏性52和生成能力56,可以将低空间和时间分辨率的测量转化为高质量、超分辨率和结构化的图像。各种科学领域中的一个重要的AI任务是降噪,这涉及从噪声中区分出相关信号,并学会去除噪声。降噪自编码器57可以将高维输入数据投影到更紧凑的基本特征表示中。这些自编码器最小化了未受损的输入数据点与从其噪声受损版本的压缩表示重建之间的差异。其他形式的分布学习自编码器,如变分自编码器(VAEs; 见方框1)58,也经常被使用。VAEs通过潜在自编码学习随机表示,保留基本数据特征,同时忽略非基本变化源,可能代表随机噪声。例如,在单细胞基因组学中,优化基于基因激活的计数向量59的自编码器被常常用来改进蛋白质-RNA表达分析。

Learning meaningful representations of scientific data

深度学习可以在不同抽象层次上提取科学数据的有意义表示,并通过端到端学习来优化这些表示(见方框1)。高质量的表示应尽可能保留关于数据的信息,同时保持简单易懂60。在科学上有意义的表示是紧凑的21,具有区分性61,解开变化的基本因素62,并且编码了横跨许多任务的潜在机制63,64。在这里,我们介绍了三种满足这些要求的新兴策略:几何先验、自监督学习和语言建模。

Geometric priors

将几何先验(geometric priors)集成到学习表示中已被证明在科学领域中非常有效,因为几何和结构在科学领域中起着核心作用66-68。对称性是几何学中广泛研究的概念69。可以通过不变性和等变性(见方框1)来描述对称性,以表示数学函数(如神经特征编码器)在一组变换下的行为,例如在刚体动力学中的SE(3)群。重要的结构特性,如分子系统的二级结构内容、溶剂可及性、残基紧密度和氢键模式,对于空间方向是不变的。在科学图像分析中,对象在图像中平移时不会改变,这意味着图像分割掩码在输入像素平移时是等变的,因为它们在输入像素平移时会相应地改变。将对称性纳入模型中可以通过扩充训练样本,有益于在有限标记数据集上使用人工智能,如3D RNA和蛋白质结构70,71,并可以改进对输入的外推预测,使其明显不同于模型训练过程中遇到的输入。

Geometric deep learning

图神经网络已经成为处理具有底层几何和关系结构的数据集的深度学习的主要方法72–76(图2a)。更广义地说,几何深度学习涉及发现关系模式65,并通过神经消息传递算法80–84,将神经网络模型配备有显式利用以图形和变换群形式编码的局部信息的归纳偏见77–79。根据科学问题的不同,开发了各种图表示来捕捉复杂系统85–87。方向边可以促进玻璃系统的物理建模88,连接多个节点的超图用于染色质结构的理解89,基于多模态图的模型用于基因组学中的预测模型创建90,稀疏、不规则和高度关联的图已应用于大型强子对撞机物理任务中,包括从探测器读数中重建粒子以及鉴别物理信号与背景过程91。

Self-supervised learning

当模型训练仅有少量标记样本可用,或者为特定任务标注数据代价昂贵时,监督学习可能是不足够的。在这种情况下,充分利用带标签和未标记数据可以提高模型性能和学习能力。自监督学习是一种技术,使模型能够在不依赖于明确标签的情况下学习数据集的一般特征。有效的自监督策略包括预测图像中被遮挡的区域,在视频中预测过去或未来的帧,并使用对比学习来教导模型区分相似和不相似的数据点92(图2b)。自监督学习可以是在小标记数据集上微调模型以执行下游任务之前,在大规模未标记数据集92-95中学习可传递特征的关键预处理步骤。这样的预训练模型96–98 对科学领域有广泛的理解,是通用的预测器,可以适应各种任务,从而提高标签效率并超越纯监督方法8。

image-20230808174212274

图2 | 学习科学数据的有意义表示。
a.几何深度学习通过利用图形和使用神经消息传递策略,集成有关科学数据的几何、结构和对称性的信息,如分子和材料。该方法通过在图中沿边交换神经消息并考虑其他几何先验,如不变性和等变性约束,生成潜在表示(嵌入),从而将复杂的结构信息纳入深度学习模型中,实现对底层几何数据集的更好理解和操纵。
b. 为了有效地表示多样化的样本,如卫星图像,捕捉它们的相似性和差异性至关重要。自监督学习策略,如对比学习,通过生成增强的对应样本,并对正样本进行对齐,同时分离负样本。这个迭代过程增强了嵌入,导致信息丰富的潜在表示,并在下游预测任务中表现更好。
c.掩码语言建模有效地捕捉了序列数据(如自然语言和生物序列)的语义。该方法涉及将输入的掩码元素馈送到一个包括预处理步骤(如位置编码)的Transformer块中。灰色线代表自注意机制,颜色强度反映注意权重的大小,将非掩码输入的表示组合起来,准确地预测掩码输入。通过在输入的许多元素上重复此自动完成过程,该方法产生了序列的高质量表示。

Language modelling

掩码语言建模是自监督学习自然语言和生物序列的常用方法(图2c)。原子或氨基酸(标记)的排列成结构,以产生分子和生物功能,类似于字母组成单词和句子来定义文档的含义。随着自然语言和生物序列处理的不断发展,它们相互促进彼此的发展。在训练过程中,目标是预测序列中的下一个标记,而在基于掩码的训练中99,自监督任务是使用双向序列上下文恢复序列中的掩码标记。蛋白质语言模型可以编码氨基酸序列以捕捉结构和功能特性100,101,并评估病毒变异体的进化适应性102。这种表示方法在各种任务中是可传递的,从序列设计103-105到结构预测10,106。在处理生化序列107-109时,化学语言模型有助于高效探索广阔的化学空间110,111。它们已被用于预测性质112,规划多步合成113,114,以及探索化学反应的空间115-117。

Transformer architectures

Transformer(Box 1)是一种神经架构模型,可以通过灵活地建模任意标记对之间的交互来处理标记序列,超越了以往使用循环神经网络进行序列建模的努力。

Transformers主导着自然语言处理37,99,并已成功应用于各种问题,包括地震信号检测119、DNA和蛋白质序列建模10,120、对生物功能的序列变异效应建模100,121,以及符号回归122。虽然transformers统一了图神经网络和语言模型123–125,但transformers的运行时间和内存占用随序列长度呈二次比例增长,导致了长距离建模120和线性化注意机制126等效率挑战。因此,通常会使用无监督或自监督生成的预训练transformers,随后进行参数高效的微调。

Neural operators

标准神经网络模型可能不适用于科学应用,因为它们假设数据离散化是固定的。这种方法对许多以不同分辨率和网格收集的科学数据集不适用。此外,数据通常是从连续域中的基础物理现象中采样得到的,例如地震活动或流体流动。神经算子通过学习在函数空间之间的映射来学习不变于离散化的表示,从而保证了神经算子对离散化的不变性。这意味着它们可以在任何输入的离散化上工作,并在网格细化时收敛到极限。一旦神经算子训练完毕,它们可以在任何分辨率下进行评估,无需重新训练。相比之下,标准神经网络在部署过程中数据分辨率与模型训练时不同时,性能可能会下降。

AI-based generation of scientific hypotheses

可测试的假设对于科学发现至关重要。它们可以采用多种形式,从数学中的符号表达式到化学中的分子,再到生物学中的基因变体。制定有意义的假设可能是一个费时的过程,例如约翰内斯·开普勒花费了四年时间分析恒星和行星数据,然后提出了一个假设,从而发现了行星运动的法则129。AI方法可以在这个过程的多个阶段中发挥作用。它们可以通过识别嘈杂观测数据中的候选符号表达式来生成假设。它们可以帮助设计物体,例如与治疗目标结合的分子130,或与数学猜想相矛盾的反例9,从而建议在实验室中进行实验评估。此外,AI系统可以学习假设的贝叶斯后验分布(Box 1)并使用它生成与科学数据和知识相符的假设131。

Black-box predictors of scientific hypotheses

识别有前途的科学假设需要高效地检查许多候选项,并选择那些可以最大程度地提高下游模拟和实验的产出的候选项。在药物发现领域,高通量筛选可以评估成千上万的分子,算法可以优先考虑哪些分子需要进行实验研究132。模型可以被训练来预测实验的效用,例如相关的分子性质133,134或与观察值相符的符号公式122。然而,这些预测器的实验基准数据可能对许多分子不可用。因此,可以使用弱监督学习方法(Box 1)来训练这些模型,其中嘈杂的、有限的或不精确的监督被用作训练信号。这些作为一种经济实惠的替代,用于代替人类专家的注释、昂贵的体外计算或更高保真度的实验(图3a)。

在高保真度模拟上训练的AI方法已经被用于高效筛选大量的分子库,如160万有机发光二极管材料候选者133和110亿的基于合成的配体候选者134。在基因组学领域,从DNA序列中预测基因表达值的变压器体系结构可以帮助优先考虑遗传变异120。在粒子物理学中,识别质子中固有的魅夸克涉及对所有可能的结构进行筛选,并对每个候选结构的实验数据进行拟合135。为了进一步提高这些过程的效率,AI选择的候选者可以送入中等或低通量实验,以持续改进候选者,使用实验反馈。结果可以通过主动学习136和贝叶斯优化137(Box 1)反馈回AI模型,使算法可以改进其预测,并集中关注最有前途的候选者。

当假设涉及分子等复杂对象时,AI方法变得非常重要。例如,在蛋白质折叠领域,AlphaFold210可以从氨基酸序列中预测蛋白质的3D原子坐标,即使对于其结构与训练数据集中的任何蛋白质都不同的蛋白质。这一突破导致了各种基于AI的蛋白质折叠方法的发展,如RoseTTAFold106。除了正向问题外,AI方法越来越多地用于逆向问题,旨在理解导致一组观察结果的因果因素。逆向问题,例如逆向折叠或固定骨架设计,可以使用在数百万个蛋白质结构上训练的黑盒预测器来预测蛋白质的背骨3D原子坐标从氨基酸序列。然而,这种黑盒AI预测器需要大量的训练数据集,并且尽管减少了对先前科学知识的依赖性,但提供的可解释性有限。

image-20230809094207627

图3 | 由AI引导的科学假设生成
a,高通量筛选涉及使用在实验生成的数据集上训练的AI预测器来选择一小部分具有理想特性的筛选对象,从而将总候选池的规模减少数个数量级。这种方法可以利用自监督学习来在大量未筛选的对象上预先训练预测器,然后在带有标记读出的筛选对象数据集上对预测器进行微调。实验室评估和不确定性量化可以改进这种方法,以简化筛选过程,使其更具成本效益和时间效率,最终加速候选化合物、材料和生物分子的识别。
b,AI导航器采用由强化学习代理和设计准则(如奥卡姆剃刀原理)预测的奖励,以便在符号回归期间专注于候选假设的最有希望的元素。示例显示了推断出代表牛顿万有引力定律的数学表达式。在符号表达式树中,低分数的搜索路径显示为灰色分支。在由与最高预测奖励相关的动作引导下,这个迭代过程朝着与数据一致并满足其他设计准则的数学表达式收敛。
c,AI区分器是自动编码器模型,将离散对象(如化合物)映射到可微分的连续潜在空间中的点。这个空间允许对对象进行优化,例如从庞大的化学库中选择化合物,以最大化特定的生化终点。理想化的景观图显示了学习到的潜在空间,深色表示富含具有较高预测得分的对象的区域。通过利用这个潜在空间,AI区分器可以高效地识别出最大化由红色星星表示的期望属性的对象。

尽管采样与数据兼容的所有假设是一个令人望而生畏的任务,但一个可以管理的目标是寻找一个好的假设,这可以被形式化为一个优化问题。与依赖手工设计的传统方法不同,这里可以使用AI策略来估计每次搜索的奖励并优先考虑具有更高价值的搜索方向。通常使用经过强化学习算法训练的代理来学习这个策略。代理通过学习在搜索空间中采取行动以最大化奖励信号,这个信号可以定义为反映所生成假设质量或其他相关标准的质量。

为了解决优化问题,可以使用进化算法来解决符号回归任务。进化算法生成随机的符号定律作为初始解集。在每一代中,对候选解施加轻微的变化。算法检查是否有任何修改产生的符号定律比先前的解更好地适应观测数据,将最佳解保留给下一代。然而,强化学习方法越来越多地取代了这种标准策略。强化学习使用神经网络按顺序生成数学表达式,通过从预定义的词汇表中添加数学符号,并使用学习的策略决定下一个要添加的符号(图 3b)。数学公式表示为解析树。学习的策略以解析树作为输入,确定要扩展的叶节点以及要添加的符号(来自词汇表)。另一种使用神经网络来解决数学问题的方法是将数学公式转换为符号的二进制序列。然后,神经网络策略可以以概率和顺序逐个字符地扩展序列。通过设计一个衡量推翻假设能力的奖励,这种方法可以在没有关于数学问题的先前知识的情况下找到对数学猜想的反驳。

组合优化也适用于诸如发现具有理想药理特性的分子等任务,其中分子设计中的每个步骤都是一个离散的决策过程。在这个过程中,部分生成的分子图被输入到学习的策略中,在分子中的选定位置上做出离散的选择,决定在哪里添加一个新的原子以及在选定的位置添加哪个原子。通过迭代执行这个过程,策略可以生成一系列可能的分子结构,并根据它们对目标性质的适应性进行评估。搜索空间过于庞大,无法探索所有可能的组合,但强化学习可以通过优先考虑值得调查的最有希望的分支来有效地指导搜索。强化学习方法可以通过训练目标来鼓励生成的策略从所有合理的解决方案中进行采样(具有高奖励),而不是专注于单个好的解决方案,这与强化学习中的标准奖励最大化相反。这些强化学习方法已成功应用于各种优化问题,包括最大化蛋白质表达、规划水电以减少亚马逊流域的不利影响以及探索粒子加速器的参数空间。

由AI代理学习的策略具有前瞻性的行动,这些行动起初可能看似不寻常,但后来证明是有效的。例如,在数学领域,监督模型可以识别数学对象之间的模式和关系,并帮助引导直觉和提出猜想。这些分析已经指出了以前未知的模式,甚至是世界上的新模型。然而,强化学习方法在模型训练期间可能不会很好地推广到看不见的数据,因为代理可能会在找到一系列良好的行动序列后陷入局部最优解。为了提高泛化能力,需要一些探索策略来收集更广泛的搜索轨迹,这可以帮助代理在新的和修改后的环境中表现更好。

Optimizing differentiable hypothesis spaces

科学假设通常采用离散对象的形式,例如物理中的符号公式或制药和材料科学中的化合物。尽管组合优化技术在某些问题上取得了成功,但可微空间也可以用于优化,因为它适用于基于梯度的方法,可以高效地找到局部最优解。为了实现基于梯度的优化,通常使用两种方法。第一种方法是使用诸如VAE(变分自动编码器)之类的模型,将离散候选假设映射到可微分的潜在空间中的点。第二种方法是将离散假设放松为可在可微分空间中优化的可微分对象。这种放松可以采取不同的形式,例如用连续变量替换离散变量,或者使用原始约束的软版本。

在物理学中,符号回归的应用使用了语法VAE(变分自动编码器)[150]。这些模型将离散的符号表达式表示为上下文无关文法的解析树,并将这些解析树映射到可微分的潜在空间。然后使用贝叶斯优化来优化潜在空间中的符号规律,同时确保表达式在语法上是有效的。在相关研究中,Brunton等人[151]引入了一种通过为预定义的基函数分配可训练权重来区分符号规则的方法。稀疏回归被用来选择基函数的线性组合,以精确地表示动态系统并保持紧凑性。与具有预定义归纳偏见以强制对称性的等变神经网络不同,对称性可以作为域的特征行为来发现。例如,Liu和Tegmark[152]将不对称性描述为一个平滑的损失函数,并通过最小化损失函数来提取以前未知的对称性。这种方法被应用于揭示黑洞波形数据集中的隐藏对称性,揭示了历史上难以发现的意想不到的时空结构。

在天体物理学中,VAE已被用于基于预训练的黑洞波形模型估计引力波探测器参数。这种方法比传统方法快了多达六个数量级,使得捕捉瞬态引力波事件成为可能[153]。在材料科学领域,热力学规则与自编码器相结合,设计了一个可解释的潜在空间,用于识别晶体结构的相图[154]。在化学领域,诸如SMILES-VAE(化学分子简化输入行)[155]等模型可以将SMILES字符串转化为可微分的潜在空间,然后可以使用贝叶斯优化技术进行优化(如图3c所示)。通过将分子结构表示为潜在空间中的点,我们可以设计可微分的目标,并使用自监督学习来基于分子的潜在表示预测分子性质。这意味着我们可以通过将AI预测器的梯度反向传播到分子输入的连续值表示来优化离散的分子结构。解码器可以将这些分子表示转换为近似相应的离散输入。这种方法在蛋白质和小分子的设计中得到了应用[156][157][158]。

在潜在空间中进行优化可以更灵活地对原始假设空间中的底层数据分布建模,而不同于原始假设空间中的机械性方法。然而,在假设空间中稀疏探索的区域进行外推预测可能会效果不佳。在许多科学领域中,假设空间可能比通过实验检查的要大得多。例如,据估计大约有1060个分子,而即使是最大的化学数据库也包含不到1010个分子[12][159]。因此,迫切需要一种能够在这些大部分未探索区域中高效搜索和识别高质量候选解的方法。

AI-driven experimentation and simulation

通过实验评估科学假设对于科学发现至关重要。然而,实验室实验可能成本高昂且不切实际。计算机模拟已经成为一种有前景的替代方法,提供了更高效和灵活的实验可能性。虽然模拟依赖于手工制定的参数和启发式方法来模拟真实世界的情境,但与物理实验相比,它们需要在准确性和速度之间进行权衡,需要理解底层机制。然而,随着深度学习的出现,这些挑战正在通过识别和优化假设以进行高效测试,并使计算机模拟能够将观察结果与假设联系起来而得到解决。

Efficient evaluation of scientific hypotheses

AI系统提供了实验设计和优化工具,可以增强传统的科学方法,减少所需实验的数量并节省资源。具体而言,AI系统可以在实验测试的两个关键步骤中提供帮助:计划和引导。在传统方法中,这些步骤通常需要反复试验,这可能效率低下,成本高昂,甚至有时可能危及生命。AI计划提供了一种系统性的方法来设计实验,优化其效率并探索未知领域。与此同时,AI引导将实验过程引导到高产出的假设上,使系统能够从先前的观察中学习并调整实验的方向。这些AI方法可以基于模型,使用模拟和先前的知识,也可以是基于机器学习算法的无模型方法。

AI系统可以通过优化资源的使用和减少不必要的调查来辅助实验计划。与假设搜索不同,实验计划涉及科学实验设计中涉及的程序和步骤。一个例子是化学中的合成规划。合成规划涉及找到一系列步骤,通过这些步骤可以从可用的化学物质中合成出目标化合物。AI系统可以设计出到达所需化合物的合成路线,减少了人工干预的需求。主动学习也在材料发现和合成中得到了应用。主动学习涉及与实验反馈的互动,并从中学习以改进假设。材料合成是一个复杂且资源密集的过程,需要对高维参数空间进行有效的探索。主动学习使用不确定性估计来探索参数空间,并在尽可能少的步骤中减少不确定性。

在进行中的实验中,决策往往需要根据实时情况进行调整。然而,如果仅依靠人类的经验和直觉,这个过程可能会变得困难且容易出错。强化学习提供了一种替代方法,可以持续地对不断演变的环境做出反应,并最大程度地提高实验的安全性和成功率。例如,强化学习方法已被证明在托卡马克等离子体的磁控制中非常有效,其中算法与托卡马克模拟器进行交互,优化用于控制过程的策略(图4a)。在另一项研究中,强化学习代理使用风速和太阳高度等实时反馈来控制平流层气球,并找到有利的风流来进行导航。在量子物理学中,实验设计需要根据复杂实验的最佳实现方式进行动态调整,因为对未来实验的最佳选择可能是违反直觉的。强化学习方法可以通过迭代地设计实验并从中获得反馈来解决这个问题。例如,强化学习算法已被用于优化量子系统的测量和控制,从而提高实验效率和准确性。

image-20230809094955988

图4 |人工智能与科学实验和仿真的结合。
a,利用人工智能进行复杂和动态系统的核聚变控制:Degrave等人166通过磁场对托卡马克反应堆中的核聚变进行调节,开发了一个人工智能控制器。人工智能代理接收实时的电压水平和等离子体配置测量,并采取行动以控制磁场,以达到实验目标,例如维持功能性电力供应。该控制器使用奖励函数在模拟中进行训练,以更新模型参数。
b,在复杂系统的计算模拟中,人工智能系统可以加速检测罕见事件,例如蛋白质不同构象结构之间的转变。Wang等人169使用基于神经网络的不确定性估计器,指导添加补偿原始势能的势能,使系统能够逃离局部最小值(灰色部分)并更快地探索构型空间。这种方法如图所示,可以增强模拟的效率和准确性,从而更深入地理解复杂的生物现象。
c,神经框架用于解决偏微分方程,其中AI求解器是一个受物理启发的神经网络,经过训练可以估计目标函数f。变量x的导数通过自动微分神经网络的输出来计算。当未知微分方程的表达式(由η参数化)时,可以通过求解多目标损失来估计,该损失既优化方程的函数形式,又使其适应观测值y。来源:a中的核聚变图标,iStockphoto/VectorMine。

Deducing observables from hypotheses using simulations

计算机模拟是一种强大的工具,可以从假设中推导出可观察的结果,从而评估那些不能直接进行测试的假设。然而,现有的模拟技术严重依赖于人们对所研究系统的基本机制的理解和知识,这可能是次优和低效的。AI系统可以通过更准确和高效地学习来增强计算机模拟,它能够更好地拟合复杂系统的关键参数,解决控制复杂系统的微分方程,并对复杂系统中的状态进行建模。

科学家们经常通过创建涉及参数化形式的模型来研究复杂系统,这需要领域知识来识别参数的初始符号表达式。一个例子是分子力场,它们是可解释的,但在表示广泛的功能方面能力有限,并且需要强烈的归纳偏见或科学知识来生成。为了提高分子模拟的准确性,已经开发了基于AI的神经势能,它适应了昂贵但准确的量子力学数据,以取代传统的力场16,168。此外,不确定性量化已被用于定位高维自由能面中的能垒,从而提高分子动力学的效率169(图4b)。对于粗粒化分子动力学,AI模型已被用于通过确定系统需要从学习到的隐藏复杂结构中粗粒化的程度,从而减少大系统的计算成本170。在量子物理中,神经网络已经取代了手动估计的符号形式,用于参数化波函数或密度泛函,因为它们的灵活性和准确拟合数据的能力171,172。

微分方程对于模拟复杂系统在时空中的动态非常重要。与数值代数求解器相比,基于AI的神经求解器更无缝地将数据与物理集成在一起173,174。这些神经求解器通过将神经网络与领域知识相结合,将物理与深度学习的灵活性结合起来(图4c)。AI方法已经应用于解决各种领域的微分方程,包括计算流体动力学175、预测玻璃体系的结构88、解决严格的化学动力学问题176以及解决Eikonal方程以表征地震波的传播时间177,178。在动态建模中,可以通过神经常微分方程来建模连续时间179。神经网络可以通过使用物理信息损失在时空域内参数化Navier-Stokes方程的解180。然而,标准的卷积神经网络在模拟解的精细结构特征方面能力有限。这个问题可以通过学习操作符来解决,这些操作符使用神经网络来模拟函数之间的映射关系127,181。此外,求解器必须能够适应不同的领域和边界条件。这可以通过将神经微分方程与图神经网络相结合,通过图分割来离散化任意领域的方法来实现182。

统计建模是一种强大的工具,通过对系统状态的分布进行建模,为复杂系统提供完整的定量描述。由于其能够捕捉高度复杂的分布,深度生成建模最近在复杂系统模拟中崭露头角。一个众所周知的例子是基于归一化流的玻尔兹曼生成器183,184,185(附录1)。归一化流可以使用一系列可逆神经网络将任何复杂分布映射到一个先验分布(例如,简单的高斯分布),并反映射回来。尽管计算成本较高(通常需要数百或数千个神经层),归一化流提供了一个精确的密度函数,可以进行采样和训练。与传统的模拟不同,归一化流可以通过直接从先验分布中进行采样并应用神经网络来生成平衡态,这具有固定的计算成本。这增强了在格点场186和规范理论187中的采样,改善了马尔科夫链蒙特卡洛方法188,否则可能由于模式混合而无法收敛189-191。

Grand challenges

为了利用科学数据,必须建立模型并结合模拟和人类专业知识进行应用。这种整合为科学发现带来了机会。然而,为了进一步增强人工智能在各个科学领域的影响,需要在理论、方法、软件和硬件基础设施方面取得显著的进展。跨学科合作对于实现通过人工智能推动科学的全面和实际方法至关重要。

Practical considerations

由于测量技术的限制,科学数据集通常不适合进行直接的人工智能分析,这会导致数据不完整、偏倚或冲突的读数,以及由于隐私和安全问题而受限的可访问性。需要标准化和透明的格式来减轻数据处理的工作负担。模型卡片和数据表是记录科学数据集和模型运行特性的努力的示例。此外,联邦学习和加密算法可以用于防止将具有高商业价值的敏感数据发布到公共领域。利用开放的科学文献、自然语言处理和知识图谱技术可以促进文献挖掘,以支持材料发现、化学合成和治疗科学等领域。

深度学习的使用为人类在环AI驱动的设计、发现和评估中带来了复杂的挑战。为了自动化科学工作流程、优化大规模模拟代码和操作仪器,自主机器人控制可以利用预测结果,在高通量合成和测试线上进行实验,创建自动实验室。在材料探索方面,生成模型的早期应用表明,可以识别出具有所需性质和功能的数百万种可能的材料,并对其合成性进行评估。例如,King等人将逻辑AI和机器人技术结合起来,自主地生成有关酵母的功能基因组学假设,并使用实验室自动化设备对这些假设进行实验验证。在化学合成方面,人工智能优化候选的合成路线,随后机器人在预测的合成路线上引导化学反应。

实现AI系统涉及复杂的软件和硬件工程,需要一系列相互依赖的步骤,从数据的整理和处理,到算法的实现和用户界面的设计。实现的微小变化可能会导致性能的显著变化,影响将AI模型融入科学实践的成功。因此,需要考虑数据和模型的标准化。由于模型训练的随机性质、不同的模型参数和不断变化的训练数据集,AI方法可能受到可重复性的影响,这两者都与数据和任务相关。标准化的基准测试和实验设计可以缓解这些问题。提高可重复性的另一个方向是通过发布开源模型、数据集和教育计划等开放倡议来实现。

Algorithmic innovations

为了对科学理解做出贡献或实现自主获取,需要进行算法创新,以建立一个基础生态系统,其中包含在整个科学过程中最适用的算法。

超出分布的泛化问题是人工智能研究的前沿。在特定领域的数据上训练的神经网络可能会发现在不同领域的分布发生变化的情况下无法推广的规律(见框1)。尽管许多科学定律并不是普适的,但它们的适用性通常是广泛的。与最先进的人工智能相比,人类大脑可以更好地、更快地推广到修改后的环境中。一个有吸引力的假设是,这是因为人类不仅建立了他们观察到的事物的统计模型,还建立了一个因果模型,即一个由所有可能的干预(例如不同的初始状态、代理的行动或不同的情况)索引的统计模型族。将因果性纳入人工智能仍然是一个年轻的领域,在这个领域中还有很多工作要做。自监督学习等技术在科学问题上具有巨大的潜力,因为它们可以利用大量的无标签数据,并将它们的知识转移到低数据领域。然而,当前的迁移学习方案可能是临时性的,缺乏理论指导,并且容易受到基础分布变化的影响。尽管已经对这个挑战进行了初步尝试,但仍需要更多的探索,以系统地衡量跨领域的可迁移性并防止负面迁移。此外,为了解决科学家关心的困难,AI方法的开发和评估必须在现实世界的场景中进行,例如在药物设计中合理实现的合成路径,并在将模型转移到实际实施之前包含良好校准的不确定性估计器,以评估模型的可靠性。

科学数据是多模态的,包括图像(如宇宙学中的黑洞图像)、自然语言(如科学文献)、时间序列(如材料的热黄变)、序列(如生物序列)、图形(如复杂系统)和结构(如三维蛋白质-配体构象)。例如,在高能物理学中,喷注是高能量下由夸克和胶子产生的粒子喷射。从辐射模式中识别其亚结构可以帮助寻找新物理现象。喷注亚结构可以用图像、序列、二叉树、通用图形和张量集合来描述。虽然使用神经网络处理图像已经得到了广泛研究,但仅处理粒子图像是不够的。同样,单独使用喷注亚结构的其他表示形式也不能提供复杂系统的整体和综合系统视图。虽然整合多模态观察仍然是一个挑战,但神经网络的模块化性质意味着不同的神经模块可以将多样的数据模态转化为通用的向量表示。

科学知识,如分子中的旋转等变性77、数学中的等式约束182、生物学中的疾病机制222以及复杂系统中的多尺度结构223,224,都可以被纳入到AI模型中。然而,哪些原则和知识最有帮助和实际可行的实施,仍然不清楚。由于AI模型需要大量的数据来拟合,将科学知识纳入模型中可以在数据集较小或注释稀疏的情况下帮助学习。因此,研究必须建立起将知识整合到AI模型中的原则性方法,并理解领域知识与从测量数据中学习之间的权衡。

AI方法通常作为黑盒子运作,意味着用户无法完全解释输出是如何生成的,以及哪些输入对产生输出至关重要。黑盒子模型可能会降低用户对预测的信任,并在必须在实际实施之前理解模型输出的领域中应用受限,比如人类太空探索228,以及在预测影响政策的领域,比如气候科学229。尽管存在众多解释性技术231–233,但透明的深度学习模型仍然难以实现230。然而,人类大脑能够合成高级解释,即使不完美,也能够说服其他人类。这为未来的AI模型提供了希望,即通过以类似的高抽象层次建模现象,这些模型将至少提供与人类大脑提供的解释一样有价值的可解释性解释。这也表明,研究更高层次的认知可能会激发未来的深度学习模型,将当前的深度学习能力与操纵可言表的抽象、推理因果关系以及泛化到分布之外的能力结合起来。

Conduct of science and scientific enterprise

展望未来,对AI专业知识的需求将受到两种力量的影响。首先,存在一些问题,这些问题在应用AI方面可能会受益,比如自动化实验室。其次,智能工具提升了技术水平并创造了新的机会,比如研究在实验中难以获得的长度和时间尺度下发生的生物、化学或物理过程。基于这两种力量,我们预计研究团队的组成将发生变化,包括AI专家、软件和硬件工程师,以及涉及各级政府、教育机构和公司的新型合作形式。近期的最新深度学习模型不断增大10,234。这些模型包含数百万甚至数十亿的参数,每年的大小增加了十倍。训练这些模型涉及将数据通过复杂的参数化数学运算传输,参数被更新以将模型输出引向所需的值。然而,计算和数据要求计算这些更新是巨大的,导致能源占用大和高昂的计算成本。因此,大型科技公司已经在计算基础设施和云服务上投入了大量资金,推动了规模和效率的极限。尽管盈利和非学术组织拥有广阔的计算基础设施,但高等教育机构可以更好地跨学科整合。此外,学术机构往往拥有独特的历史数据库和测量技术,这些在其他地方可能不存在,但对于AI4Science是必要的。这些互补的资产促进了新的产学合作模式,这可能会影响所选择的研究问题。

随着AI系统的性能逐渐接近甚至超越人类,将其用作常规实验室工作的替代方案正在变得可行。这种方法使研究人员能够迭代地从实验数据中开发预测模型,并选择实验来改进这些模型,而无需手动执行繁琐和重复的任务217,235。为了支持这种范式转变,出现了一些教育计划,培训科学家设计、实施和应用实验室自动化和AI在科学研究中的方法。这些计划帮助科学家了解何时适合使用AI,并防止因AI分析而产生错误的结论。

错误应用AI工具和对其结果的错误解读可能会产生重大的负面影响236。广泛的应用范围使这些风险变得更加复杂237。然而,对AI的误用不仅仅是一个技术问题,它还取决于领导AI创新和投资AI实施的人的激励。建立伦理审查流程和负责任的实施策略是必要的,包括全面审查AI的范围和适用性238。此外,必须考虑与AI相关的安全风险,因为现在更容易将算法实现重新用于双重用途237。由于算法适用于广泛的应用领域,它们可能是为一个目的而开发,但却被用于另一个目的,从而造成威胁和操纵的漏洞。

Conclusion

AI系统可以促进科学理解,使我们能够研究无法通过其他方式进行可视化或探测的过程和对象,并通过从数据中构建模型并与模拟和可扩展计算相结合的方法系统地激发创意。为了实现这一潜力,必须通过负责任和深思熟虑的技术部署来解决使用AI所带来的安全和安全问题。为了在科学研究中负责任地使用AI,我们需要衡量AI系统的不确定性、误差和效用水平。这种理解对于准确解释AI的输出并确保我们不过度依赖潜在有缺陷的结果至关重要。随着AI系统的不断发展,优先考虑可靠的实施并采取适当的保障措施是减少风险和最大化效益的关键。AI有潜力揭示以前难以达到的科学发现。