Large Language Models Meet Virtual Cell: A Survey


TL;DR

本文全面综述了大型语言模型(LLM)在构建“虚拟细胞”(virtual cell)——一个能够表示、预测和推理细胞状态与行为的计算系统——中的应用,并提出了一个将现有方法分为“作为预言机的LLM”(LLMs as Oracles)和“作为智能体的LLM”(LLMs as Agents)两大范式的统一分类体系。

引言

细胞是生命的基本单位,理解其复杂的分子程序是生物学的核心目标。然而,细胞系统的高维性和复杂性使这一任务极具挑战性。人工智能(AI),特别是大型语言模型(LLM)的进步,为构建“虚拟细胞”提供了前所未有的机遇。虚拟细胞是一种在硅基(in silico)中模拟细胞结构、功能和动态的计算系统,它有望加速药物发现和实现个性化医疗。

细胞的多尺度组织说明

虚拟细胞的概念并非全新,早期的系统生物学尝试通过机理或统计模型重构细胞行为,但受限于不完整的知识和稀疏的数据。随着组学(omics)数据和LLMs的爆发式增长,研究者可以直接在海量生物语料库上训练基础模型,使虚拟细胞演变为一个数据驱动、生成式和具备推理能力的框架。

JUMP-Cell Painting和Chan Zuckerberg Initiative (CZI)等大型研究项目提供了丰富的标准化数据集,如CELLxGENE和Tabula Sapiens,极大地推动了这一领域的发展。这些进展共同为精确模拟细胞系统奠定了基础。其中,三大核心任务构成了AI驱动的虚拟细胞的操作支柱:

  1. 细胞表示(Cellular Representation):准确进行细胞注释、分类和状态预测。
  2. 扰动预测(Perturbation Prediction):模拟基因或药物干预的效果,支持因果推断和疗法发现。
  3. 基因调控推断(Gene Regulation Inference):破译基因作用,重建调控网络,揭示细胞过程的内在机制逻辑。

AI驱动的虚拟细胞建模主要任务概览

本文的主要贡献如下:

作为预言机的LLM方法

在此范式中,LLM被视为虚拟细胞的计算“预言机”(Oracle),直接对细胞系统的内部状态和动态进行建模。它们处理DNA、RNA或单细胞转录组等生物序列,模型本身作为预测引擎,从原始数据中学习细胞组分和相互作用的表示,而不依赖外部工具。

核苷酸序列

DNA:作为细胞的蓝图,其长程依赖关系(如增强子在100kb外调控基因)是建模的关键挑战。早期模型如DeepSEA使用卷积网络(CNN),而后续模型如Enformer结合了CNN和Transformer,将输入序列扩展到200kb。最近,纯Transformer编码器模型(如DNABERT系列和Nucleotide Transformer, NT)通过掩码语言建模(Masked Language Modeling, MLM)进行预训练,其中NT模型参数量达到25亿。HyenaDNA则采用新的Hyena算子和自回归的下一Token预测(next-token prediction, NTP),能够处理长达100万个Token的序列。

RNA:RNA在细胞中功能多样。基于Transformer编码器的RNABERT模型在2370万个非编码RNA序列上训练。Riboformer则扩展至6.5亿参数。U-RNA通过在预训练中加入基序感知的MLM来增强对功能性RNA元件的敏感性。

蛋白质-蛋白质相互作用(PPI)

蛋白质-蛋白质相互作用(Protein-protein interactions, PPIs)是细胞信号传导和代谢途径的基础。

多领域分子

整合DNA、RNA和蛋白质的联合表示是捕获细胞复杂动态的关键。GENA-LM及其后续版本Evo通过NTP方法在万亿级核苷酸序列上训练,学习跨生命领域分子的联合表示。同时,AlphaFold 3、RoseTTAFold All-Atom等模型已能预测所有类型生物分子及其相互作用的结构。

单组学

组学数据,尤其是单细胞RNA测序(scRNA-seq),是细胞建模基础LLM的主要数据源。单细胞组学数据通常表示为一个细胞-基因表达矩阵 $\mathbf{X}\in\mathbb{R}^{N\times G}$,其中 $N$ 是细胞数,$G$ 是基因数。

面对组学数据的噪声和批次效应等挑战,scBERT和scGPT采用了类似掩码自编码器(Masked Autoencoder, MAE)的架构。Geneformer则将训练规模扩展至3000万个细胞,而scGPT-650M进一步扩展至5000万细胞和6.5亿参数。在架构创新方面,scETM采用了改进的ERetNet骨干。

此外,将生物先验知识融入模型也证明了其有效性。例如,scELMo和scBERT-Protein通过整合蛋白质语言模型(PLM)的嵌入来增强跨物种泛化能力。pert-GPT则专为扰动响应预测而设计。在表观基因组学领域,EpiGeNet集成序列、染色质和基因组信息,实现了对跨细胞类型表观基因组状态的上下文感知预测。

多组学

单一组学无法完全捕获细胞状态,因此多组学整合至关重要。

多模态

将科学文本作为一种额外模态,可以增强模型的泛化能力和生物学基础。

作为智能体的LLM方法

在此范式中,LLM作为虚拟细胞的智能“智能体”(Agent),通过协调外部工具、数据库和模拟环境来完成超越传统建模和预测的复杂科研任务。与被动生成输出的基础模型不同,LLM智能体在一个自适应、目标驱动的框架内主动规划、推理和行动。

LLM作为虚拟细胞的分类体系

架构

文献与知识

为确保生物学有效性,LLM智能体与科学文献和结构化数据库接口。检索增强生成(Retrieval-Augmented Generation, RAG)是常用策略,它通过在推理时检索相关信息来提高回答的事实准确性。例如,BioChat索引了超过2200万篇科学文章,而PubMed-GPT则提供对PubMed等知识库的交互式访问。scHarvester智能体则能自主收集和处理scRNA-seq数据,构建一个持续扩展的数据库。

实验设计

LLM智能体可将高层次的生物学问题转化为可操作的实验计划。

计算工作流自动化

LLM智能体可以自动化复杂的计算工作流。例如,scChat能够通过自然语言交互,对单细胞和空间转录组学数据进行端到端解释。CellAgent则能自主构建自适应的多组学分析流程。Cell-Designer甚至能根据高层次任务描述,直接从原始组学数据构建细胞行为的预测模型。

全栈研究

全栈研究智能体旨在自动化从问题提出到科学发现的整个科研流程。BioSmart能在通用计算生物学环境中自主分析多样的组学数据,产生新见解。CellOracle则通过迭代提出基因扰动、模拟结果、评估并修正假设的闭环,专注于功能基因组学和疾病机制发现。

优化

为了提升LLM智能体的可靠性和准确性,引入了多种优化策略。

结论与未来工作

本文全面综述了LLM在虚拟细胞研究中的应用,并提出了一个分为“预言机”和“智能体”两大范式的方法分类体系。尽管取得了显著进展,但未来仍面临重要的挑战和机遇:

局限性

本综述主要关注LLMs与虚拟细胞研究的交叉领域。细胞成像研究本身是一个广阔而丰富的领域,但鉴于其范围巨大,本文并未广泛覆盖。未来的工作可能会扩大范围,以提供对这些领域更全面的审视。