《Astronomy and Computing》:Scalable and interoperable data management in the spoke 3 big data infrastructure
编辑推荐:
本研究设计并验证了一个整合型基础设施,用于管理天文学中的异构数据集,结合关系数据库与文件归档系统,遵循FAIR原则和开放科学方法,支持Gaia和Fermi任务的高效数据存取与处理。
G. Coran | M. Costantini | S. Gelsumini | E. Licata | D. Busonero | C. Knapic | A. Adelfio | D. Ciangottini | H. Heinl | M. Molinaro
INAF OATs, Via Tiepolo, 11, Trieste, 34131, 意大利
摘要
本文介绍了为摄取、管理和访问异构天体物理数据集而开发的集成基础设施的设计、实现和验证过程。该项目是在意大利国家高性能计算、大数据和量子计算中心(ICSC)的第三工作包(Spoke 3)中进行的。该基础设施旨在提供创新的数据管理解决方案,结合了关系数据库和基于文件的档案系统,并遵循FAIR原则和开放科学方法论。
该基础设施提供了一个可扩展且符合标准的框架,以应对天体物理学领域的大数据挑战,支持来自Gaia和Fermi任务等不同数据集的摄取和访问。对于Gaia数据,采用了HDF5格式以提高访问效率,并允许在任务特定流程之外进行复杂的层次化数据组织。Fermi的事件检测和航天器姿态详细数据产品通过统一的数据模型进行整合,支持通过标准化数据库逻辑进行长期查询和检索。除了观测数据集外,该基础设施还包括根据IVOA SimDM和资源元数据标准发布数值模拟的支持,确保符合FAIR原则并在虚拟天文台框架内实现互操作性。
最终形成的档案按照IVOA模型进行结构化,并通过符合TAP标准的接口进行访问,实现了高效的数据和元数据插入与提取,摄取时间根据文件复杂性和对象数量从几秒到几分钟不等。一个专用的Web门户提供了用户友好的档案访问方式,并实现了包括安全认证和全面日志管理在内的一系列定制服务。
这个集成生态系统展示了与虚拟天文台标准的互操作性以及适合数据密集型研究的可扩展性。性能测试主要集中在摄取吞吐量和数据库端检索效率上,而访问层服务则在架构和功能层面进行了验证。
引言
意大利国家高性能计算、大数据和量子计算中心(ICSC)的第三工作包(Spoke 3)旨在利用高性能计算(HPC)和大数据分析领域的尖端技术,解决天体物理学和宇宙学研究中的挑战。该工作包分为多个子任务(Work Packages,简称WP),每个子任务专注于特定领域:
- WP1 – HPC代码的重新设计和优化,专注于计算密集型代码的重新实现和优化
- WP2 – 朝向百亿亿次计算(Exascale)的创新算法和方法论,致力于算法开发和代码可扩展性
- WP3 – 大数据分析、机器学习和可视化
- WP4 – 大数据管理、存储和归档
- WP5 – HPC服务和访问
ICSC本身是根据意大利国家恢复与韧性计划(PNRR)建立的,其更广泛的目标是加强国家计算和数据基础设施,以支持多学科科学创新。
在天体物理学领域,观测仪器和数值模拟的快速发展导致了数据量和复杂性的空前增加。管理这些信息不仅需要可扩展的技术解决方案,还需要一个能够长期保存数据科学价值的稳健概念框架。在这种情况下,FAIR原则(可发现性、可访问性、互操作性和可重用性)(Wilkinson等人,2016年)和开放科学范式(OSF,0000年)发挥着重要作用。这些框架促进了透明度、可访问性和协作,确保科学数据的可用性、可验证性和可重复性。在本研究中,我们专注于开发一个用于天体物理数据管理的集成基础设施,旨在体现这些原则,并促进科学信息的互操作性和可持续性。所采用的方法论使数据管理实践与现代科学的更广泛目标保持一致:扩展集体知识、促进协作,并通过结果的再利用和可重复性实现累积进步。
开发这一基础设施的背后理念是提供一种标准化方法,以便于最终用户轻松访问来自不同来源的任何类型的数据。处理天体物理数据的异构性面临诸多挑战,包括理论和建模问题、可扩展性、数据互操作性、可访问性以及保持高数据质量以确保可重复性和可重用性。数据管理还涉及伦理和法律方面,如数据隐私和合规性。这些挑战可以通过仔细构建数据模型来解决,数据模型描述了元数据结构、关系和访问限制,以及针对私有数据的认证和授权基础设施。在天体物理学领域,数据复杂、数量庞大且政策严格,这一点尤为重要。观测数据遵循IVOA ObsCoreDM(Louys等人,2017年)定义的方向和命名法进行建模,该标准定义了一个元数据框架,以实现天文数据集的发现和访问;而对于模拟数据,则尝试遵循SimDM标准(Lemson等人,2012年),该标准提供了一个结构化的元数据框架,以描述数值实验并增强其在虚拟天文台生态系统中的互操作性和可发现性。关于模拟数据模型的详细信息以及出版物支持的开发内容分别在第3.2节和第3.3节中讨论。
使用案例
在本背景下,“使用案例”指的是用于验证基础设施组件及其交互作用的代表性数据集和工作流程。
数据模型和数据库实现
为了创建一个有效且功能齐全的混合天体物理数据档案,需要适当准备能够描述各种文件元数据及其之间关系的数据模型。为此,我们参考了国际组织(如IVOA)的建议,以确保信息的互操作性和完整性。在缺乏这些建议或其实现未经测试的情况下,我们自行进行了相应的设计。
摄取
摄取过程是应用数据模型所代表理论概念的基础部分。对于旨在存储和管理大量数据的档案基础设施而言,拥有快速高效的档案摄取系统不仅是必要的,也是其与地面或轨道观测站及模拟运行等典型数据提供者兼容性的决定性因素。
检索
附加服务
为了进一步扩展Spoke 3档案基础设施的功能和灵活性,在核心数据摄取和检索系统之上开发了一组附加服务。这些组件旨在解决需要高级数据处理的特定科学工作流程,而不仅仅是简单的查询和下载操作。特别是,它们使用户能够在档案内部直接执行定制的数据提取、过滤和转换任务。
结论
所开发的基础设施成功实现了一个统一的、符合标准的档案系统,能够处理来自多个任务和来源的异构天体物理数据。通过采用IVOA ObsCore数据模型和TAP协议,该系统确保了与社区标准的完全互操作性,而底层的摄取和元数据管理流程保证了大规模数据的高效可靠处理。
性能分析确认了系统的稳定性。
G. Coran: 写作 – 审稿与编辑、撰写初稿、验证、软件开发、方法论研究、数据分析、数据整理。
M. Costantini: 写作 – 审稿与编辑、撰写初稿、可视化开发、软件开发、资源管理、方法论研究、概念化设计。
S. Gelsumini: 写作 – 审稿与编辑、撰写初稿、软件开发、资源管理、方法论研究、数据整理、概念化设计。
E. Licata: 写作 – 审稿与编辑、撰写初稿。
利益冲突声明
作者声明没有已知的财务利益冲突或个人关系可能影响本文所述的工作。
致谢
本工作得到了Fondazione ICSC、Spoke 3天体物理学和宇宙观测项目以及国家恢复与韧性计划(PNRR)的支持。该项目由MUR Missione 4 Componente 2 Investimento 1.4资助:“加强研究基础设施和创建国家研发典范(M4C2-19)”——下一代欧盟(NGEU)计划。