编辑推荐:
针对传统室内空气质量(IAQ)研究多关注单一污染物、难以捕获复杂共暴露模式的问题,研究人员开展了一项主题为“揭示脆弱家庭室内暴露模式”的研究。他们整合了高分辨率传感器数据与人口学、行为学元数据,应用混合数据因子分析(FAMD)、统一流形逼近与投影(UMAP)降维及Torque聚类算法,从103名韩国脆弱人群参与者中识别出六个稳定且不同的室内暴露模式。研究证实了无监督聚类可系统地将异质性室内暴露分层为稳健、可解释的暴露谱,为精准环境健康策略提供了基于数据驱动的风险分层框架,能支持针对特定亚群的靶向干预。
我们每天平均有90%的时间在室内度过,这使得室内空气质量(Indoor Air Quality, IAQ)成为影响健康的关键因素。然而,传统的室内空气质量研究常常“只见树木,不见森林”,它们大多聚焦于单一污染物(如PM2.5、甲醛)的平均水平评估。但现实中的室内暴露是一个复杂的“混合交响曲”,多种有害物质(化学污染物、物理因素如温湿度、噪音等)相互交织,并与居住者的年龄、行为、住房特征等因素动态互动。这种复杂性意味着,仅凭单一污染物的平均浓度,难以全面捕捉不同人群,尤其是儿童、老人、慢性病患者等脆弱人群所面临的多重、复合暴露风险。传统的多元统计方法在处理这类高维度、异质性的数据时也常常力不从心。为了更真实地描绘出不同脆弱家庭面临的“室内环境画像”,来自韩国全北国立大学(Jeonbuk National University)的Hye-Shin Kim、Seohyun Yoo、Joonseo Hyeon和Jaehyuk Cho等研究人员开展了一项开创性研究。他们整合了高精度的室内环境传感器监测数据和详尽的人口学、行为学问卷调查数据,运用前沿的人工智能(AI)和机器学习方法,旨在系统性地解析室内暴露的异质性模式。这项研究近期发表在环境健康领域的顶级期刊《Environment International》上,为迈向“精准环境健康”提供了强有力的数据驱动新范式。
为了回答上述问题,研究者们采用了多项关键技术。首先,他们利用自主研发的、经过验证的IAQ监测设备,在韩国全国范围内103个符合脆弱人群定义的家庭中进行了为期约两周的连续监测,收集了温度、相对湿度、总挥发性有机物(TVOCs)、PM2.5、PM10、甲醛(CH2O)、二氧化碳(CO2)和噪音等关键指标的高分辨率时间序列数据。同时,通过结构化问卷收集了四大类共27个变量的人口学、健康、行为和住房信息。在数据处理与分析阶段,研究团队构建了一个创新的分析流程:对传感器数据进行特征工程,生成不同时间段(如日间、夜间、工作日、周末)的统计特征;对所有非数值型调查变量进行编码。随后,应用混合数据因子分析(Factor Analysis of Mixed Data, FAMD)对整合后的异构数据集进行降维,以平衡环境变量和调查变量的影响。接着,利用统一流形逼近与投影(Uniform Manifold Approximation and Projection, UMAP)对降维后的特征空间进行可视化处理。最关键的一步是,研究者采用了名为“Torque clustering”的、无需预设参数的无监督聚类算法,在降维后的数据空间中自动识别出稳定的暴露模式。最后,通过热图、基于Z分数的雷达图对聚类结果进行可视化表征,并利用优势比(Odds Ratio, OR)分析进行统计验证。
研究结果:
3.1. 研究设计
研究最终纳入了来自韩国七个行政区的103个有效家庭数据集进行分析。
3.2. 参与者特征与基线室内环境
参与者平均年龄29.6岁,主要为儿童(42.7%)和老年人(29.1%)。大多数居住在首都市圈,住在公寓楼中。基线监测数据显示,TVOCs的平均暴露水平被归类为“非常差”,热不适指数(Discomfort Index, DI)为“差”,而其他污染物大多处于“良好”水平。
3.3. 无监督聚类识别出六种不同的暴露模式
通过FAMD降维(保留7个主成分)并结合Torque聚类算法,研究从数据中自动识别出六个稳定且分离良好的集群(C0至C5),平均轮廓系数为0.554。
3.4. 聚类间人口学与住房特征的差异
六个聚类在人口学和住房特征上存在显著差异。例如,C2主要由老年人构成(中位年龄67岁),C0以婴儿为主,C5以儿童为主。在住房方面,C5中有更高比例的参与者居住在工业区或高交通流量区域附近,并且近一半在一年内购买过新家具。
3.5. 聚类间的环境暴露特征
对不同聚类的环境指标进行分析发现:C0的特征是极高的噪音水平;C1和C2均为高温高湿的物理环境主导型,但C2的热不适程度最高;C3是所有污染物和物理指标暴露水平最低的“低暴露”参考组;C4和C5则呈现出以化学污染物(特别是TVOCs和甲醛)为主导的暴露模式。
3.6. 环境暴露的特征图谱
雷达图直观展示了每个聚类独特的环境“指纹”。C0在噪音上突出;C1和C2在温湿度上形成高峰;C3的图谱面积最小,各项指标接近总体均值;C4和C5则在TVOCs和甲醛上显示出较高的Z分数和较大的变异性。
3.7. 聚类特异性暴露风险的定量比较
以低暴露组C3为参考,优势比分析量化了各聚类的高暴露风险。C0成员处于“差”或“非常差”噪音水平的几率是C3的901倍。C1和C2处于不良热不适水平的几率分别是C3的129倍和145倍。在化学暴露方面,C2(老年人为主)表现出最高的TVOCs不良水平风险(OR ≈ 50),是一个“多重危害”群体。此外,使用燃气灶、年龄、身高、居住在交通繁忙区、疾病未接受治疗等因素也与特定聚类成员身份显著相关。
研究结论与讨论:
这项研究成功地超越了单一污染物的评估框架,通过整合高分辨率环境数据与丰富的元数据,并应用FAMD-UMAP-Torque聚类这一先进的分析流程,首次在真实世界的住宅环境中系统识别出六种稳健、可解释的室内暴露模式。这些模式在时间和空间上表现出稳定性,并且与特定的人口学和行为因素(如年龄、住房类型、燃气灶使用)显著关联。
研究发现,脆弱人群内部的暴露异质性巨大。既有像C3这样的“低暴露绿洲”,也有像C0这样的“噪音热点”、C1/C2这样的“湿热温室”,以及像C2和C4/C5这样的“化学污染核心区”。其中,以老年人为主的C2集群尤其值得关注,他们同时承受着最高的热不适和极高的TVOCs暴露风险,构成了一个典型的“多重危害”群体,其TVOCs不良水平的相对风险约为低暴露组的50倍。这提示针对老年人的干预措施需要综合考虑热环境和化学污染的双重压力。
在方法论上,本研究首次将Torque聚类算法应用于真实环境数据,并开创性地将FAMD与UMAP结合用于室内空气质量谱分析,为处理环境健康领域的复杂混合数据提供了新工具。该无监督、数据驱动的方法能够避免研究者先入为主的偏见,自动发现数据中隐藏的亚群结构。
这项研究的核心意义在于推动了“精准环境健康”范式的发展。通过将异质性的暴露人群分层为具有共同特征的模式,该框架使得针对特定集群的风险评估和靶向干预成为可能。例如,公共卫生政策可以针对“高噪音-婴儿”集群(C0)制定降噪指南,针对“高温高湿-老年人”集群(C1/C2)推广降温除湿和健康监护,针对“高化学污染”集群(C4/C5)则重点优化通风和减少污染源。这为实现从“一刀切”到“量体裁衣”式的环境健康保护策略转变奠定了坚实的科学基础。