基于大语言模型的“FAIR+环境”框架评估与提升美国PFAS污染数据的完整性与可用性

【字体：大中小】 时间：2026年03月01日 来源：Journal of Hazardous Materials Advances 7.7

编辑推荐：

　　本研究提出创新的“FAIR+环境”评估框架，针对PFAS（全氟及多氟烷基化合物）环境监测数据碎片化、质量不均的难题，利用Few-shot CoT大语言模型（LLM）半自动化评估了全美四大环境介质（地下水、地表水、饮用水、土壤）超过100个数据集的FAIR（可发现、可获取、可互操作、可重用）原则遵循度。研究发现，地表水数据FAIR评分最高（53.6%），地下水最低（45.2%）；跨州数据集的“可互操作”与“可重用”性显著优于单一州数据集。约34%饮用水样本PFOA浓度超过4 ng/L标准限值，凸显了污染风险与改善数据管理的紧迫性。

“永远的化学品”——全氟及多氟烷基物质，因其在灭火泡沫、纺织品、食品包装等产品中的广泛应用，已经悄然渗透到我们的水、土壤乃至血液中。这类物质的稳定性和持久性带来了巨大的环境健康风险，然而，关于它们究竟污染了哪些地方、污染程度如何，现有的监测数据却像一堆散落在各处的拼图碎片。美国各地机构和实验室各自为政，数据格式五花八门，报告标准参差不齐，使得科学家和政策制定者难以拼出一幅完整的全国污染图景，也阻碍了有效的风险评估和治理行动。为了打破这一僵局，来自加州大学欧文分校的研究团队在《Journal of Hazardous Materials Advances》上发表了一项开创性研究，他们提出了一个名为“FAIR+环境”的全新评估框架，并巧妙地利用大语言模型这把智能钥匙，系统评估了全美一百多个PFAS污染数据库的“健康状况”，揭示了数据共享的短板与污染热点，为未来数据整合与精准治理指明了方向。

研究者们采用了几个关键技术方法来开展这项系统性工作。首先，他们通过网络爬虫和手动收集，全面获取了美国范围内关于地下水、地表水、饮用水和土壤中PFAS的公开监测数据集，共计超过100个，涵盖从国家项目到州级项目的多层次数据源。其次，他们创新性地开发了“FAIR+环境”评估框架，在经典的FAIR（可发现、可获取、可互操作、可重用）数据管理原则基础上，增加了针对环境污染物数据的“数据可整合性”和“数据质量”两个维度。核心方法在于构建了一个半自动化的大语言模型评估管道，利用基于Azure OpenAI的模型，通过Few-shot（少样本）和Chain-of-Thought（思维链）提示工程策略，对数据集网站的元数据进行自动提取、解读，并依据设定的评分细则（如是否包含持久标识符、许可证信息、标准访问协议等）进行FAIR原则的自动化评分，显著减少了传统专家手动评估的工作量。最后，他们对整理后的PFAS浓度数据（特别是PFOA）进行了详细的统计分析和时空趋势分析，以评估污染现状与变化。

3.1. 美国PFAS数据集数量

研究发现，不同环境介质中公开可用的PFAS监测数据量存在显著差异。地下水数据覆盖最广，所有50个州都有报告，这主要得益于全国性项目和大量的州级数据源。饮用水数据也较为广泛，但在美国中部和西部仍存在区域空白。相比之下，地表水数据更为有限，仅有31个州有数据，且地理覆盖不均。土壤则是数据最匮乏的介质，只有14个州报告了PFAS数据，其时间和分析物范围通常也很有限。

3.2. FAIR评估模型的性能

3.2.1. 模型性能比较

在测试的多种评估方法中，集成少样本和思维链推理的大语言模型表现最佳，其预测的总FAIR分数与人工基准（ARDC工具）的误差最小，是模拟专家进行FAIR评估的最合适模型。该模型在处理不完整或模糊的元数据时，展现出更强的灵活性和鲁棒性。

3.2.2. 基于LLM的FAIR评估的可重复性

使用同一提示词对不同Azure OpenAI模型变体进行测试的结果表明，尽管模型架构和优化策略不同，但它们在FAIR评分上表现出高度一致的趋势，皮尔逊相关系数超过0.80，证实了基于大语言模型的FAIR评估具有较高的可重复性和可靠性。

3.3. 使用基于LLM的模型评估PFAS数据库的FAIR性

3.3.1. 最佳模型（Few-shot CoT LLM gpt-4o）在美国PFAS数据库上的表现

应用最佳模型对PFAS数据库进行评估后发现，在不同环境介质中，地表水数据集的平均FAIR分数最高，为53.6%，这主要得益于其在“可获取性”和“可互操作性”方面的强势表现。饮用水数据集紧随其后。而地下水数据集的FAIR分数最低，仅为45.2%。研究还发现，覆盖多个州的数据集在FAIR性上全面优于单一州数据集，尤其是在“可互操作性”和“可重用性”方面优势明显。与地球科学领域的非PFAS数据库（FAIR遵循度可达88%-91%）相比，PFAS环境数据集的FAIR遵循度显著偏低，凸显了该领域在数据管理标准化方面的巨大差距。

3.3.2. 数据可整合性与数据质量评估

评估显示，标准FAIR原则的得分与环境数据集的实际“可整合性”和“数据质量”之间关联微弱。例如，饮用水数据集虽然容易整合，但往往缺乏方法透明度；而地表水和土壤数据集可能包含更丰富的细节，但整合起来又很困难。这证实了在评估环境污染物数据时，必须在FAIR原则之外补充针对数据整合与分析质量的特定标准，这正是“FAIR+环境”框架的价值所在。

3.4. 美国PFAS浓度分析

3.4.1. 地下水中的PFAS浓度

PFOA和PFOS是地下水中最常被报告的PFAS物质。分析显示，来自已知PFAS污染源的地下水数据，其中位浓度和浓度范围远高于非污染源数据。例如，密歇根州的数据中位浓度高达83.5 ng/L。在无已知污染源的数据中，没有哪个州的PFOA浓度中位数超过4 ng/L的限值，但仍有22%的样本超标。时空趋势分析表明，大多数州的地下水PFOA浓度没有显著的单调变化趋势。

3.4.2. 地表水中的PFAS浓度

在地表水中，PFOA、PFOS、PFHxS和PFBS是最常被检出的物质。尽管各州报告中位浓度普遍较低，但仍有32%的样本PFOA浓度超过4 ng/L。已知污染点的浓度中位数和分布范围明显更高。与地下水类似，大多数州的地表水PFOA浓度未呈现显著的随时间上升或下降趋势。

3.4.3. 饮用水中的PFAS浓度

饮用水分析揭示了一个关键公共卫生发现：尽管所有16个数据源的PFOA浓度中位数都低于4 ng/L，但高达33.8%（约24，166个）的个体样本超过了这一最大污染物水平。在已知污染源的数据中，浓度和变异性更高。趋势分析显示，威斯康星州的浓度呈现上升趋势，而马萨诸塞州、密歇根州和堪萨斯州等在已知污染源地区显示出下降趋势，这可能与监管或修复行动有关。

3.4.4. 土壤中的PFAS浓度

土壤中PFOA的检出频率最高，浓度范围从未检出到超过10，000 ng/kg。缅因州和加利福尼亚州等地的数据显示出较高的中位浓度和极宽的范围，表明存在严重的局部污染热点。然而，由于数据的时间覆盖范围和空间分布极为有限，目前难以确定全国性的土壤PFAS浓度时间变化趋势。

该研究得出结论，当前美国的PFAS环境监测数据在遵循FAIR数据管理原则方面表现不佳，尤其是在“可重用性”上存在明显短板，这制约了数据的整合利用与二次研究价值。为此提出的“FAIR+环境”框架及其配套的大语言模型半自动评估管道，不仅能有效诊断数据现状，更可作为未来数据采集、验证、标准化和发布的实用指南。在污染现状方面，研究以高频检出的PFOA作为指示物，揭示了其在美国环境介质中的复杂分布：地下水与土壤是污染最严重的“储存库”，而尽管地表水和饮用水的中位浓度较低，却因与人类接触密切而成为关键暴露途径，其中约34%的饮用水样本超标，构成了不容忽视的公共健康风险。一个值得关注的发现是，自相关自愿减排计划实施以来，大多数地区的PFOA浓度并未显示出显著的下降趋势，这表明历史污染的持久性以及持续采取修复措施的必要性。这项研究的深远意义在于，它首次将前沿的人工智能技术系统应用于大规模环境数据质量评估，不仅为PFAS这一紧迫环境健康问题的数据治理提供了量化工具和清晰路径，其“FAIR+环境”框架与智能评估范式，也可推广至其他新兴污染物的数据管理，从而助力于更高效、更科学的环境决策与公共健康保护。

热点排行