《BIOKDD 2024精选论文特刊》的客座社论

《IEEE Transactions on Computational Biology and Bioinformatics》：Guest Editorial for Selected Papers From BIOKDD 2024

【字体：大中小】 时间：2026年06月08日 来源：IEEE Transactions on Computational Biology and Bioinformatics

编辑推荐：

　　作为与ACM SIGKDD知识发现与数据挖掘（KDD）会议同期举办的最悠久的工作坊，国际生物信息学数据挖掘

作为与ACM SIGKDD知识发现与数据挖掘（KDD）会议同期举办的最悠久的工作坊，国际生物信息学数据挖掘工作坊（BIOKDD）二十多年来一直是数据挖掘、机器学习和计算生物学交叉领域研究的顶级平台。自2010年起，BIOKDD开始在《IEEE/ACM计算生物学与生物信息学交易》（TCBB）期刊上发表特刊，重点介绍人工智能驱动的生物发现进展。

第23届国际生物信息学数据挖掘工作坊（BIOKDD 2024）于2024年8月26日在西班牙巴塞罗那举行。BIOKDD 2024共举办了16场口头报告，并邀请了Zapata AI的首席执行官Christopher Savoie进行主题演讲，题为“量子增强生成式AI在生物制剂设计与优化中的应用优势”。

本期TCBB特刊收录了来自BIOKDD 2024的8篇扩展论文。这些受邀论文经过了严格的同行评审流程，每篇论文都经过了多位评审员的评估和大幅修改。入选的论文涵盖了当代生物信息学的多个研究方向，包括药物发现、微生物群落分析、单细胞数据分析、基因组空间重建以及人工智能驱动的知识提取。这些研究共同展示了现代数据挖掘和人工智能技术如何通过整合、分析和解释日益复杂的生物医学数据来推动生物发现。

第一篇论文《基于上下文的层次融合算法用于药物关系学习》（“Context-Aware Hierarchical Fusion for Drug Relational Learning”）由Lu Yijingxiu、Piao Yinhua、Lee Sangseon和Kim Sun共同撰写，旨在解决在多种生理、药理学和基因组背景下预测药物组合效应的挑战。药物关系学习（DRL）对于提高治疗效果和安全性至关重要，但现有方法往往具有任务特异性，很少考虑环境因素对药物相互作用的影响。作者提出了一种基于上下文的层次融合架构，将DRL定义为药物-药物-上下文三元组的标签预测。该框架通过层次嵌入融合捕捉了药物之间的原子级相互作用，并整合了上下文信息。在协同作用预测、多药副作用检测和药物-药物相互作用预测等任务中的实验表明，该算法在复杂情境下表现稳健。

第二篇论文《gFlora：一种基于拓扑结构的土壤微生物群落功能共响应组发现方法》（“gFlora: A Topology-Aware Method to Discover Functional Co-Response Groups in Soil Microbial Communities”）由Chen Nan、Schram Merlijn和Bucur Doina共同研究，探讨了将微生物分类单元与土壤生态系统功能关联的问题。在大型复杂土壤群落中建立分类单元与功能之间的关联仍然具有挑战性。作者识别出功能共响应组——即其集体行为与特定土壤功能具有统计关联的微生物分类单元集合。他们将微生物群落建模为一个加权共现网络，并引入了基于图卷积的gFlora框架，将网络拓扑结构纳入群组发现过程。在多个土壤微生物组数据集上的实验表明，该方法性能提升，并揭示了生物学意义上的关联。

第三篇论文《scGHSOM：一种用于单细胞数据聚类和可视化的层次框架》（“scGHSOM: A Hierarchical Framework for Single-Cell Data Clustering and Visualization”）由Wen Shang-Jung、Chang Jia-Ming、Chen David Jing-Wei和Yu Fang共同撰写，针对具有异质细胞状态的高维单细胞数据集进行了聚类和解释。作者开发了scGHSOM，这是一种基于生长层次自组织映射（Growing Hierarchical Self-Organizing Map）的增强框架，用于CyTOF和单细胞RNA测序数据的层次聚类。该框架通过使用簇内和簇间变异阈值自适应扩展聚类，并结合了显著属性识别算法来突出关键特征。在多个真实世界数据集上的实验表明，该方法具有出色的聚类性能，可视化工具则有助于揭示层次结构和特征分布。

第四篇论文《用于增强黑色素瘤检测的混合深度学习框架》（“Hybrid Deep Learning Framework for Enhanced Melanoma Detection”）由Zhang Peng和Chaudhary Divya提出，提出了一种用于从皮肤图像中检测黑色素瘤的混合深度学习框架。准确早期检测黑色素瘤在医学成像中是一项重要但具有挑战性的任务。作者结合了U-Net进行病变分割和EfficientNet进行二分类的SegFusion方法。在经过训练的黑色素瘤数据集上，该混合框架的检测性能优于SkinViT和其他近期混合模型。

第五篇论文《利用生成式大型语言模型从西班牙文献中提取遗传实体》（“Exploration of Genetic Entity Extraction from Spanish Literature Using Generative LLMs”）由Kodikara Milindi和Verspoor Karin研究，探讨了使用生成式大型语言模型（LLMs）从西班牙生物医学摘要中提取遗传和疾病相关实体的方法。作者使用GenoVarDis数据集评估了LLMs在命名实体识别方面的性能，探讨了跨语言提示、少样本策略以及不同的输出格式和指令设计。结果表明，少样本提示效果最佳，而跨语言提示也是可行的。研究还指出了指令不遵循和生成虚假实体等局限性，并表明结构化输出和基于示例的提示可以减少错误结果。

第六篇论文《用于基因组空间重建的距离保持表示方法》（“Distance-Preserving Representations for Genomic Spatial Reconstruction”）由Zhou Wenbin和Du Jin-Hong研究，在缺乏推理时空间注释的基因表达数据集中进行空间重建。作者提出了dpVAE，这是一种结合了距离保持正则化的变分自编码器表示和迁移学习框架。在空间参考数据集上的训练过程中，该正则化机制鼓励嵌入保持空间距离关系。在推理时，学习到的表示可以通过受限优化为没有空间标签的数据集重建或推断出空间坐标。实验表明，该方法在多个公共数据集上具有鲁棒性和可迁移性。

第七篇论文《EnsDTI：结合专家混合模型和置信度评估的药物-靶标相互作用预测》（“EnsDTI: Predicting Drug-Target Interaction with Mixture-of-Experts and Confidence Assessment”）由Lu Yijingxiu、Kang Soosung、Kim Sun和Lee Sangseon提出，提出了一种结合专家混合模型和置信度评估的药物-靶标相互作用（DTI）预测框架。基于结构的方法具有较高的对接准确性，但计算成本较高；而基于配体的方法虽然扩展性更好，但在未见数据上的鲁棒性可能不足。所提出的EnsDTI通过专家混合模型整合了多个深度学习模型，并使用归纳性共形预测器来估计预测可靠性。实验表明，该方法具有强大的预测性能和可靠的置信度评估，预测排名与对接亲和力相关。

第八篇论文《利用基因调控网络进行乳腺癌转移的知识与预测建模》（“An Integrated Approach to Knowledge and Prediction Modeling of Breast Cancer Metastasis Using Gene Regulatory Networks”）由Najnin Tanzira、Hossain Saimon Sakhawat、Zand Maryam、Adnan Nahim、Liu Zhijie、Huang Tim Hui-Ming和Ruan Jianhua提出，该框架同时解决了乳腺癌转移的生物知识发现和预测建模问题。作者构建了基因调控网络（GRN）模型来表征转移性和非转移性患者的细胞状态，并推导出可解释的转移预测的失调评分。该框架识别了与转移相关的网络变化和关键生物过程之间的失调共调节。实验表明，所提出的基于知识的分类器在保持可解释性的同时具有竞争力的预测性能。