编辑推荐:
多年来,数学模型已被成功用于解释生物、化学或物理关系。人工智能(Artificial Intelligence, AI)在理解上下文特定内容方面的巨大进步可以支持研究人员生成建模的交互假设,从而能够更快速地生成和修改模型。研究人员的流水线DataXflowGe
多年来,数学模型已被成功用于解释生物、化学或物理关系。人工智能(Artificial Intelligence, AI)在理解上下文特定内容方面的巨大进步可以支持研究人员生成建模的交互假设,从而能够更快速地生成和修改模型。研究人员的流水线DataXflowGen利用生成式人工智能(Generative AI, GenAI)基于互联网上的研究出版物等信息创建模型。这种方法减少了对专业知识的需求,因为GenAI能在线识别相关研究论文并提取相关信息。GenAI可以构建适合数据的模型以检验其假设。因此,研究人员只需对那些与数据不一致的模型组件进行深入分析,从而在基于现有知识构建合适的调控网络时节省时间。总之,GenAI被用于生成一个人类可解释的模型作为假设,从而允许理解治疗建议并基于通过特定数据验证的模型解释行动,避免黑箱人工智能(AI)决策。这构成了一种可解释人工智能(explainable AI, XAI)的方法,支持研究人员分析复杂关系。
论文解读文章
**研究背景与问题**
近年来,人工智能(AI)的迅猛发展深刻影响了自然科学,尤其在系统生物学中,数学模型被广泛用于描述基因调控、信号转导等复杂生物过程。然而,传统数学建模高度依赖领域专业知识,且现有的基因调控网络(Gene Regulatory Network, GRN)构建方法(如GRNIX、BIND等)能够识别基因间连接,却未能区分激活或抑制的调控方向。此外,以大型语言模型(Large Language Model, LLM)为基础的GenAI(如ChatGPT、PerplexityAI)虽能快速生成假设,但其输出存在幻觉、缺乏数据验证等问题,且难以直接用于可解释的生物学建模。因此,研究人员开发了DataXflowGen——一个结合GenAI知识提取与基于常微分方程(Ordinary Differential Equation, ODE)模型验证的流水线,旨在自动化生成带符号的基因调控网络(signed Gene Regulatory Network, sgGRN),并通过迭代反馈循环确保模型与实验数据一致,从而加速模型开发、提升可解释性。
**研究内容与结论**
研究人员将DataXflowGen应用于衰老研究,利用Wechter et al.提供的经过环氧乙烷(Ethylene Oxide, ETO)处理的成纤维细胞单细胞RNA测序(scRNA-seq)数据(7个时间点),以衰老标志物CDKN1A为起点,通过迭代建模和一次性建模两种策略生成sgGRN。实验表明,迭代建模最终获得一个包含12个基因节点的sgGRN,总卡方值(Chi
2)为33.51,p=0.257,拟合良好;一次性建模生成包含相同基因集的网络,经L1正则化后卡方值为29.16,p=0.968。与10个随机模型比较,GenAI生成的模型具有更低的卡方值(18.765)和更优的AIC、BIC指标,且GenAI在重复查询中表现出较高的一致性。该研究证实,DataXflowGen能高效生成数据一致的sgGRN,并结合数据驱动验证与AI假设,为后续治疗干预预测提供可解释的模型基础。论文发表在《Scientific Reports》。
**关键技术方法**
研究主要采用以下关键方法:
1. **GenAI驱动的基因与交互发现**:通过API调用PerplexityAI(Sonar模型),设置温度=0、top_p=0以获得确定性输出,基于提示词(prompt)识别候选基因及基因对间的直接/间接调控关系(激活或抑制)。
2. **网络构建与简化**:将GenAI输出编码为加权邻接矩阵,并通过广度优先搜索(BFS)移除冗余间接边,保留最小有效调控结构。
3. **ODE建模与参数拟合**:将邻接矩阵转换为Data2Dynamics(D2D)框架下的微分方程模型,使用lsqnonlin进行参数估计,并对交互参数施加L1正则化以识别关键调控边。
4. **迭代反馈循环**:基于卡方值评估各基因拟合优度,针对拟合最差的基因(最大卡方值),通过GenAI查询其上游调控因子,整合后重新拟合,直至模型稳定。
样本队列来源:Wechter et al.的衰老研究数据(GSM7068361–GSM7068366, GSM7068354),来自经ETO处理的成纤维细胞,单细胞RNA测序数据。
**研究结果**
*迭代建模 via GenAI*
以CDKN1A为初始节点,GenAI识别出5个相互作用基因(CDK2、CDK4、RB1、TP53、PCNA),构建初始6节点网络,总卡方值60.77(42数据点,28自由参数)。根据卡方值优先(TP33最大,Chi
2=33.87),通过反馈循环逐次添加ATM、ZFP36L1、SPI1、NR1H4、MTOR、MAPK14六个新节点。最终12节点模型总卡方值33.51(84数据点,55自由参数),p=0.257,L1正则化后固定27个低敏感参数,重新拟合后卡方值33.28,所有交互边保留(4/4),表明结构稳健。
*一次性建模*
直接指定12个兴趣基因(来自迭代建模结果),GenAI构建网络时排除了NR1H4(因无法确定其调控方向),并强制设零两条直接交互。模型总卡方值29.19(77数据点,60自由参数),p=0.0328;经L1正则化后固定28个参数,重新拟合后卡方值29.16(自由度45,p=0.968),保留7/8的交互边,显示模型在简化后仍与数据一致。
*对GenAI的评估*
与10个随机模型(保持相同节点数、边数、无输入节点数)比较,GenAI模型最终卡方值最低(18.765),AIC、AICc、BIC及p值均更优。确定性测试中,要求GenAI为现有模型添加三个新基因,三次查询均一致输出CCND1、E2F1、CDKN2A(温度=0,top_p=0),表明在设定条件下输出足够稳定。
*方法概览对比*
DataXflowGen与现有GRN构建方法(如GRNPT、LLM4GRN、DigNet、InfoSEM等)对比显示,其独特之处在于:利用LLM进行节点与边的动态扩展(基于网络搜索文献),同时使用ODE系统对假设进行定量验证,将定性知识与数据驱动验证分离,从而保持模型的可解释性与可干预性。
**讨论与结论**
讨论部分指出,DataXflowGen将LLM-based GenAI与数据驱动建模结合,显著加速了sgGRN的生成,并保持生物合理性。迭代生成的衰老模型中的基因(如CDK2、RB1、TP53、ATM等)均与衰老通路(p53–p21–RB轴)密切相关,但在细胞类型特异性等方面存在局限,且未进行外部数据集或实验验证,这是当前工作的重要局限性。GenAI生成的sgGRN通过ODE拟合可有效缓解幻觉问题,但GenAI输出的非确定性(即使温度为0)仍需通过系统的反馈循环来识别并修正。未来工作方向包括:进一步自动化拟合反馈、整合多实验条件、扩展为智能体工作流等。
**研究结论翻译:**
DataXflowGen代表了在自动化快速开发符号基因调控网络(sgGRN)方面的一项重要进展,它利用基于大型语言模型(LLM)的生成式人工智能(GenAI)技术。在保持与先前版本相同易用性的同时,DataXflowGen在模型生成方面提供了显著提升的自动化和灵活性。该流水线通过公共Git仓库提供,并配有透明、可复现的脚本以及全面的基于LLM的GenAI建模文档。未来的工作将集中在系统性地评估DataXflowGen在多样化数据集上的表现,并将其整合到更广泛的系统生物学和智能体工作流中。