化学研究的数字化程度如何?来自NFDI4Chem第二次社区关于研究数据与FAIR工作流的调查启示

《Digital Discovery》:How digital is chemical research? insights from the second NFDI4Chem community survey on research data and FAIR workflows

【字体: 时间:2026年05月22日 来源:Digital Discovery 5.6

编辑推荐:

  持续深化的数字化正在重塑所有科学学科,但在化学领域带来的挑战尤为突出。研究数据产生于物质合成、光谱采集或理论方法应用等过程,需经过妥善记录、归档并实现复用。传统模式下,这类工作依赖纸质实验记录本完成。要实现向数字化学时代的平稳过渡,化学界亟需一场文化变革。当前

  
持续深化的数字化正在重塑所有科学学科,但在化学领域带来的挑战尤为突出。研究数据产生于物质合成、光谱采集或理论方法应用等过程,需经过妥善记录、归档并实现复用。传统模式下,这类工作依赖纸质实验记录本完成。要实现向数字化学时代的平稳过渡,化学界亟需一场文化变革。当前化学家实际如何处理研究数据?NFDI4Chem最新调查揭示了数字化进展,同时展示了该联盟如何将社区需求融入第二阶段资助规划。这为数字基础设施设计提供了一种反馈驱动模式,可为其他学科及国家级科研计划提供参考。 化学领域的数字化比以文本或数值为基础的其他学科更为复杂,其核心难点在于分子拓扑结构的信息表达——即便经过三十年化学信息学发展,无机化学等领域的此类信息仍难以被完整表征。FAIR(可发现、可访问、可互操作、可复用)原则已被资助机构、基础设施与出版界广泛采纳,但化学数据集的长期可及性与互操作性在不同子学科和组织间仍存在显著差异。现有研究表明,有机化学期刊的数据共享实践大多未达FAIR标准,多数作者仅提交极少量非机器可读数据,极少将原始数据存入开放仓储库。阻碍因素可分为技术障碍(本体、元数据工具、仓储库)与社会心理障碍(激励机制、不确定性、合规成本与监管责任归属)。物理科学数据基础设施(PSDI)等项目正尝试通过数据格式转换、富集元数据社区数据集、数据共享指南等方式破解这些难题。在此背景下,NFDI4Chem于2023年开展第二次社区调查,覆盖数据全生命周期实践,旨在为基础设施优化提供实证依据。

论文解读:《Digital Discovery》发表NFDI4Chem第二次社区调查:化学研究数字化与FAIR实施现状全景解析

研究背景与意义

化学研究的数字化转型高度依赖研究数据的系统化管理、可及性与复用性。实验、计算与光谱数据集支撑着科学发现、建模与可重复性验证,但其长期保存与跨平台互操作仍面临严峻挑战。FAIR(Findable, Accessible, Interoperable, and Reusable,可发现、可访问、可互操作、可复用)原则自提出以来已被全球资助机构、出版平台与基础设施广泛采纳,但化学领域的特殊性使其数字化进程滞后于材料科学、物理学等学科。分子结构的拓扑信息难以通过现有化学信息学工具完整编码,加之传统纸质实验记录本的长期使用惯性,导致化学数据全生命周期存在大量“模拟缺口”。德国国家研究数据基础设施(National Research Data Infrastructure, NFDI)框架下成立的NFDI4Chem联盟,旨在通过构建无缝数字工作流弥合这些缺口,而定期社区调查是其优化服务供给的核心依据。此前2019年的首次调查已揭示化学家普遍缺乏易集成的工作流工具,本次2023年调查则进一步追踪数字化进展,并为第二阶段资助规划提供实证支撑。

关键技术方法

研究人员于2023年1月至4月开展横断面问卷调查,共回收有效问卷813份,其中84%受访者来自德国,覆盖大学(75%)、非大学研究机构(11%)与工业界(6%),职称分布以博士(33%)、博士后(24%)与教授(22%)为主,学科涵盖有机(34%)、无机(27%)、物理(21%)化学及其他细分领域。调查设计延续2019年问卷框架,覆盖数据收集、存储、元数据、电子实验记录本(Electronic Laboratory Notebooks, ELNs)、共享复用与出版等全周期环节,支持多选回答,原始数据集已在LUIS平台公开(DOI: 10.25835/a8ih6h17)。通过与2019年623份德国受访者数据的纵向对比,结合英国物理科学数据基础设施(Physical Sciences Data Infrastructure, PSDI)同期调查结果,开展跨域趋势分析。

研究结果

数据收集、处理与存储

65%研究者收集实验合成数据,75%收集光谱数据,38%收集晶体学数据。45%受访者仍以非电子格式(如纸质实验记录本手写笔记、打印光谱图)收集数据,24%存在“数字数据模拟化处理后再数字化”的低效工作流。现代仪器虽均输出电子数据,但下游处理环节的数字断层依然显著。

长期数据存储与归档

57%研究者存储原始数据,52%存储处理后数据,55%存储分析后数据,49%存储全量数据。存储介质呈现从本地硬件向在线服务迁移的趋势:工作组服务器使用率达64%,大学服务器39%,云系统与仓储库各占20%;相比2019年,云系统使用率提升3个百分点,仓储库提升7个百分点,硬盘与移动存储介质合计下降10个百分点。62%工作组已建立存储规范,但仍有20%研究者不知晓相关要求。

元数据实践

56%受访者会为数据添加元数据,45%认为元数据有助于组内协作,32%认为可支持跨组复用。元数据类型以实验日期(41%)、样品描述(39%)、研究人员姓名(36%)、实验编号(30%)、采集方法(30%)为主。元数据生成方式已从2019年以手动为主(占比未明确)转变为2023年46%采用“手动+设备软件自动生成”混合模式,但仅25%工作组制定了元数据标准,11%建立了数据结构协议。

电子实验记录本(ELNs)应用

ELN使用率从2019年的18%升至2023年的30%,其中有机化学(34%)与材料科学(33%)使用率最高。Chemotion ELN以26%的使用率居首,尤其在有机化学(54%)与无机化学(28%)中占主导。ELN使用者比非使用者更倾向添加元数据(67% vs 51%)并通过仓储库共享数据(26% vs 16%)。86%受访者呼吁将数据管理纳入学生正式课程。

数据共享与复用

组内数据共享主要依赖工作组服务器(76%)与电子邮件(52%),硬件介质使用率从2019年的40%降至25%。组外共享则以电子邮件(62%)与云服务(40%)为主,仓储库使用率达19%。数据复用主要来源于同组同事(50%)与出版物补充信息(45%),仅18%通过仓储库获取数据。未复用数据的原因包括无可用数据(8%)、描述不足(6%)、对他人数据不信任(3%)与无复用需求(25%)。

数据出版模式

59%研究者仍将数据附于期刊文章正文或补充信息发布,仅22%会将部分数据存入仓储库(2019年为16%),完全独立的数据出版物占比仅为8%。32%研究者从未发布过任何研究数据,与年轻研究者参与比例较高直接相关。

NFDI4Chem与PSDI调查对比

两项调查均显示FAIR意识显著提升,但实践能力滞后,不确定性与制度支持缺失是共同障碍。ELN普及率相近,但仪器与仓储库的集成瓶颈突出。元数据碎片化、自动化程度低、缺乏统一词汇表是共性痛点。存储模式均呈现从本地向机构服务迁移的趋势,但对仓储库适用性、长期保存保障与许可条款的认知仍不足。双方均强调仅靠基础设施无法实现FAIR转型,必须配套政策激励、技能培训与文化变革。

结论与展望

调查证实化学数字化处于“渐进但未完成”阶段,NFDI4Chem第二阶段将以此为依据,聚焦三大方向:一是推动开源ELN普及,开发设备集成框架与云部署方案,打通“实验记录-仓储库发布”无缝工作流;二是构建标准化FAIR元数据体系,推广化学研究最小信息集(Minimum Information about Chemical Investigations, MIChI),开发元数据就绪度评估工具;三是强化仓储库生态,扩展Chemotion与RADAR4Chem功能,试点本地存储与中央仓储库接口,消除重复提交负担。同时通过模块化培训课程、数据管理员认证、跨学科元数据协同与国际伙伴对接,破解文化与教育障碍。该研究通过反馈驱动的基础设施优化模式,为化学乃至更广的物理科学领域实现FAIR转型提供了可复制的实践范本。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号