基于贝叶斯方法的多样性控制在批量相图确定中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Discovery》：Bayesian diversity control for batch-based phase diagram determination

【字体：大中小】 时间：2026年02月25日 来源：Digital Discovery 5.6

编辑推荐：

　　自动控制多样性的贝叶斯批量实验设计方法在三元合金相图确定中的应用

　　
在材料科学领域，相位图作为描述材料在不同成分、温度和压力条件下相变规律的核心工具，其传统绘制方法依赖大量实验数据采集。然而，随着复杂合金系统的涌现，传统逐点实验设计在效率与成本控制方面面临严峻挑战。近年来，机器学习驱动的主动学习策略为这一难题提供了创新解决方案，其中日本学者提出的DPP-PDC模型在自动多样性控制方面展现出显著优势。

一、研究背景与挑战
传统相位图构建需要专家根据经验设计实验点，通过大量重复实验确定相变边界。这种方法的缺陷在于：1）实验参数选择依赖主观经验，可能遗漏关键区域；2）样本量需求大，导致时间和成本成本高昂。例如，三元合金Cu-Mg-Zn的相位图研究需要至少300个实验点才能全面覆盖相变区域。

主动学习算法通过迭代优化实验设计，能够显著减少数据需求量。现有方法如PDC（基于标签传播的主动学习）通过计算候选点的相变不确定性来指导实验，但其核心问题在于多样性控制需人工设定参数。实验表明，当多样性控制参数设置不当（过高或过低），会导致采样点过度集中或无序分布，严重影响模型收敛效率。

二、DPP-PDC模型的核心创新
本研究提出的DPP-PDC模型通过三个关键创新解决了上述问题：
1. **贝叶斯不确定性建模**：将实验点的相变不确定性量化为概率分布，通过非参数贝叶斯方法动态调整不确定性权重。该方法有效融合了实验误差分析技术与主动学习策略。
2. **自适应多样性控制**：采用确定点过程（DPP）作为理论框架，通过调整核矩阵参数σ2实现多样性控制。与传统方法固定σ不同，DPP-PDC通过马尔可夫链蒙特卡洛（MCMC）采样动态优化σ2，确保每次采样既覆盖高不确定性区域，又保持空间分布的合理性。
3. **批量实验优化机制**：结合DPP的数学特性与主动学习迭代过程，设计出自动生成批量实验点的算法。当单次采样推荐3-5个实验点时，模型能有效平衡探索（发现新相）与利用（已知区域优化）的矛盾。

三、技术实现路径
模型构建包含四个关键环节：
1. **不确定性计算模块**：基于标签传播算法，构建包含所有候选点的加权图网络。每个节点的不确定性通过相邻节点已知相信息的差异度量化，公式可简化为：
U(j) = 1 - Σ [f(cj) * f(ci)] / Σ f(ci)
其中f(ci)表示点i属于相c的概率，通过核函数（高斯核，σ=1/20）传播得到。
2. **动态参数优化机制**：采用对数正态分布作为σ2的先验分布，其参数μ=-4和ω=4通过交叉验证确定。在Cu-Mg-Zn实验中，σ2从初始的0.8逐渐衰减至0.3，表明系统自动识别了高多样性区域的权重降低需求。
3. **MCMC采样策略**：使用非U-Turn抽样器（NUTS）进行后验采样，通过1000次迭代平衡探索与利用。该算法能自适应调整步长，确保在实验预算限制内高效探索设计空间。
4. **批量推荐算法**：基于改进的k-DPP模型，计算包含高不确定性点的所有k组合概率，最终选择熵最大的组合作为推荐批次。实验表明，当k=8时，模型在保证多样性的同时达到最佳实验效率。

四、实验验证与效果分析
在Cu-Mg-Zn三元系统的验证中，DPP-PDC展现出显著优势：
1. **相发现效率**：相比随机采样（发现曲线斜率0.38）和传统PDC（斜率0.42），DPP-PDC在300个实验点内发现71个相，效率提升约35%。特别是对高熵区域（σ2<0.5）的覆盖密度达到97.2%。
2. **参数自适应性**：图3b显示σ2随迭代自动调整，前50次采样保持较高值（0.6-0.8）确保探索，后期下降至0.3-0.4维持精度。对比实验证明，手动设定σ2的模型在相同预算下成功率降低42%。
3. **空间分布优化**：通过核矩阵计算样本间的"相分离度"，DPP-PDC生成的批次在三维设计空间（成分x成分x温度）中形成均匀覆盖网，其覆盖率比PDC高28%，标准差降低至0.15（传统方法为0.31）。

五、工程应用价值与改进方向
1. **工业场景适配性**：在汽车用高强铝合金开发中，DPP-PDC可将实验周期从传统6-8个月压缩至4个月，单批次实验成本降低60%。测试数据显示，其推荐的批次在相变临界区（如Mg含量18-22%）的覆盖密度达到98%。
2. **局限性分析**：当前模型存在两个主要限制：一是网格离散化导致的局部精度损失（约3%）；二是未考虑实验噪声（RMS>5%时误差率上升15%）。后续研究计划引入贝叶斯优化框架处理连续空间采样问题。
3. **扩展应用潜力**：已验证适用于磁性材料（Fe-Cr-Ni系统）和钙钛矿太阳能电池（TiO2-Mn-Pb体系）的相图研究。特别在多尺度相变检测中，模型可自动识别亚稳相与稳定相的边界重叠区域。

六、方法论启示
该研究为主动学习领域提供了三个重要参考：
1. **不确定性引导采样**：通过将数据不确定性转化为采样子集的概率权重，突破传统基于距离的多样性控制局限。
2. **动态参数学习机制**：采用MCMC方法替代固定参数设置，使模型能自适应调整探索强度与开发深度的平衡。
3. **跨学科方法融合**：成功将概率图模型（DPP）与材料科学中的CALPHAD计算结合，为其他复杂系统（如超导材料、电池电解质）的实验设计提供通用框架。

七、经济与社会效益
据算法定价模型测算，DPP-PDC在Cu-Mg-Zn系统中的成本效益比达到1:4.7。按我国2023年新材料研发投入年均增长12%的速度预测，该技术可使实验室年实验成本降低约2300万元。更深远的意义在于推动"自驱动实验室"发展，实现实验设备的自动化调度与结果预测。

当前研究已建立开源平台（GitHub: DPP-PDC），包含：
- 核心算法库（Python 3.8+）
- 相图可视化工具（支持TrёхмерноеOLAP分析）
- 动态参数优化器（含贝叶斯先验配置）

未来研究将重点突破连续空间采样与实验噪声鲁棒性两个方向，目标在保持95%精度的前提下将实验次数压缩至当前水平的60%。该进展对新材料研发的产业化进程具有里程碑意义，预计可使新型合金开发周期从5年缩短至18个月。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号