利用傅里叶变换红外光谱和机器学习技术检测乳腺癌血浆中较低的HER2表达水平
《Photodiagnosis and Photodynamic Therapy》:Fourier Transform Infrared spectra and Machine learning to detect low HER2 expression in breast cancer plasma
【字体:
大
中
小
】
时间:2026年05月07日
来源:Photodiagnosis and Photodynamic Therapy 2.6
编辑推荐:
坎贾娜·克隆克莱奥|帕图通·查查瓦尔|帕查拉蓬·蒂帕亚瓦特|安查莉·特卡森|莫林·旺瓦塔纳库尔
泰国孔敬大学研究生院生物医学科学项目,孔敬40002
**摘要**
**背景**:在乳腺癌患者中,HER2(人类表皮生长因子受体2)表达水平低的肿瘤可能无法从化疗中获益。
坎贾娜·克隆克莱奥|帕图通·查查瓦尔|帕查拉蓬·蒂帕亚瓦特|安查莉·特卡森|莫林·旺瓦塔纳库尔
泰国孔敬大学研究生院生物医学科学项目,孔敬40002
**摘要**
**背景**:在乳腺癌患者中,HER2(人类表皮生长因子受体2)表达水平低的肿瘤可能无法从化疗中获益。由于传统的HER2检测方法需要侵入性组织活检,我们提出了一种侵入性较小的方法,结合衰减全反射傅里叶变换红外(ATR-FTIR)光谱技术与机器学习来检测血浆HER2表达水平低的乳腺癌。
**方法**:使用ATR-FTIR光谱仪分析了55名乳腺癌患者和32名健康对照组中剩余的肝素化血浆样本(这些样本的HER2表达水平较低)。对预处理后的数据应用了偏最小二乘判别分析(PLS-DA)和神经网络等机器学习模型。评估了这些模型的准确性、灵敏度和特异性。
**结果**:获得了55个乳腺癌样本和32个对照样本的HER2低表达水平的红外光谱,并在1400–1000 cm?1范围内进行了分析,该范围与HER2的细胞外结构相关。神经网络模型在区分度、灵敏度和特异性方面表现最佳(分别为78%),而PLS-DA模型的准确率为65%,灵敏度为71%,特异性为56%。
**结论**:这种方法具有在侵入性较小的样本中检测HER2低表达水平的潜力。然而,为了提高效率,需要通过更大规模的临床试验进行验证。
**1. 引言**
乳腺癌是全球最常见的癌症类型。2020年,约有230万名女性被诊断出患有乳腺癌。乳腺癌也是女性癌症相关死亡的主要原因。世界卫生组织估计,到2040年,乳腺癌的发病率将上升到400万例[1]。因此,早期检测对于治疗计划和降低死亡率至关重要。
HER2(人类表皮生长因子受体2)是一种原癌基因,可诱导细胞增殖。大约20%的乳腺癌患者表现出HER2过表达[2]。HER2阳性的乳腺癌与肿瘤生长迅速、转移潜能增加以及对某些疗法的抵抗性有关,HER2阳性患者可以通过靶向疗法进行治疗。传统上,HER2评估依赖于侵入性组织活检,这在复发或转移病例中并不总是可行的。另一方面,HER2表达水平低通常被认为是一种具有不同特征和临床意义的分子亚型。最近的研究发现,45-60%的HER2阴性乳腺癌实际上是HER2低表达乳腺癌[3]。HER2表达水平低的患者可能无法从针对HER2阳性乳腺癌设计的靶向疗法中受益。HER2表达水平通常通过免疫组化(IHC)染色、荧光原位杂交(FISH)或酶联免疫吸附测定(ELISA)等特定标准来定义[4]。由于HER2的细胞外结构可以释放到血液循环中[5,6],使用ELISA检测血液样本中的HER2水平是一种更为可行且侵入性较小的方法。然而,ELISA的灵敏度不足[4,7],并且需要特异性抗体。
傅里叶变换红外(FTIR)光谱技术用于检测共价键的分子振动。衰减全反射(ATR)-FTIR光谱技术利用衰减波现象高灵敏度地测量样品。这是一种简单、无标记、高通量且非破坏性的技术,只需要少量样本。先前的研究表明,该技术可以利用组织样本和体液区分许多疾病(包括癌症)[8, [9], [10], [11]]。2015年,Zelig等人使用红外光谱分析了干式乙二胺四乙酸(EDTA)血浆中的乳腺癌样本,结果发现某些光谱带可以区分乳腺癌患者和健康个体[12]。2023年,de Souza等人报道使用干式血浆样本的ATR-FTIR光谱技术可以区分不同的乳腺癌分子亚型[13]。然而,此前没有研究利用ATR-FTIR光谱技术来检测血浆中的HER2低表达水平。因此,本研究旨在使用ATR-FTIR光谱技术和机器学习来区分乳腺癌患者和健康对照组的肝素化血浆中的HER2低表达水平。
**2. 材料与方法**
2.1 **样本**
来自泰国乌通他尼癌症医院的101份肝素化血浆样本,包括60份乳腺癌患者样本和41份健康对照组样本。本研究获得了孔敬大学人类研究伦理委员会的批准(批准编号:HE642177),所有操作均遵循《赫尔辛基宣言》。所有血浆样本均分装并储存在-20°C直至进一步分析。
2.2 **HER2表达水平的测量**
使用商用ELISA试剂盒(My Biosource,美国加州)评估肝素化血浆样本中的HER2表达水平。通过系列稀释制备标准曲线(浓度分别为0、2、4、8、16和32 ng/mL)。每个浓度重复测量两次。每组乳腺癌和对照组各取5个样本进行合并处理后再进行HER2检测。具体步骤为:向样品孔中加入40 μL合并样本、10 μL抗HER2抗体和50 μL链霉亲和素-过氧化物酶,然后在37°C下孵育60分钟。洗涤后加入50 μL溶液A和50 μL溶液B,继续在37°C下避光孵育10分钟,最后加入50 μL终止液,在450 nm处测量吸光度。根据美国食品药品监督管理局的标准,HER2的临界值为15 ng/mL[14]。HER2表达水平超过临界值的样本组被单独分析以确定确切的HER2水平。样本特征见表1。
**表1. 样本特征**
| 特征 | 乳腺癌 | 对照组 |
|-----------------|------------|-------------|
| 样本数量 | 60 (59.4%) | 41 (40.6%) |
| 年龄(岁) | 37–73 | 32–68 |
| HER2水平(ng/mL) | ≥15 | <15 |
| 分期 | I | II | III |
| HER2(n) | 5 (8.3%) | 9 (22%) | 55 (91.7%) |
| | | |
2.3 **ATR-FTIR光谱采集**
使用便携式ATR-FTIR光谱仪(Agilent 4500a;Agilent Technologies,美国加州)采集光谱。使用前将血浆样本在室温下解冻。分析时,将每个血浆样本的10 μL液滴在铝箔上形成干燥的血清膜,然后转移到ATR晶体上进行光谱采集。每个样本重复测量五次以减少变异并确保可重复性。光谱采集参数如下:32次扫描,环境条件作为背景,4000–650 cm?1范围内的光谱分辨率为4 cm?1。纳入低HER2表达水平的样本进行后续分析。光谱预处理和分析采用多种数据处理协议,包括:
1) 带有19个平滑点的主光谱
2) 带有19个平滑点的主光谱+基线校正
3) 带有19个平滑点的主光谱+基线校正+整个光谱范围的单位向量标准化
4) 带有19个平滑点的主光谱+基线校正+1400–1000 cm?1范围内的单位向量标准化
5) 带有19个平滑点的主光谱+整个光谱范围的单位向量标准化
6) 带有19个平滑点的主光谱+1400–1000 cm?1范围内的单位向量标准化
7) 使用Savitzky-Golay方法进行一次导数处理的主光谱
8) 使用Savitzky-Golay方法进行一次导数处理的主光谱,同时在1400–1000 cm?1范围内进行扩展乘法信号校正(EMSC)
9) 使用Savitzky-Golay方法进行二次导数处理的主光谱
使用Unscrambler? X软件版本10.5(CAMO,马萨诸塞州)进行偏最小二乘判别分析(PLS-DA)。为了实现二分类,将Y变量分别赋值为1和-1(代表乳腺癌组和对照组)。每个样本组的四分之一被分配到测试集,其余四分之三分配到校准集。对每个数据分割进行交叉验证以最小化过拟合并确保可靠的预测性能。模型构建时最多设置7个成分,软件根据交叉验证的均方根误差(RMSECV)标准自动确定最佳成分数量。评估模型性能时,计算了统计指标的平均值,包括均方根误差(RMSE)、决定系数(R2)、准确率(%)、灵敏度(%)和特异性(%)。
**3. 结果**
3.1 **乳腺癌组和对照组的光谱特征**
图1显示了经平滑处理和二次导数处理后的对照组和三个分期乳腺癌样本的平均红外光谱。结果显示,在3000–2800 cm?1范围内,乳腺癌各分期的吸收强度存在差异,这与脂质的C-H对称和不对称伸缩有关;在1400–1000 cm?1范围内,反映了DNA和RNA的变化。与对照组相比,每个乳腺癌分期都观察到C-H伸缩在约2958 cm?1、2925 cm?1、2870 cm?1和2851 cm?1处的波数变化[15]。乳腺癌血浆样本中C-H带的强度增加表明脂质合成增强和/或癌细胞中脂质降解减少[15]。第I期乳腺癌样本的A2958/A2853比值低于非癌患者的样本,这可能反映了DNA甲基化程度降低和恶性细胞含量增加[16]。此外,在约1394 cm?1和1313 cm?1处观察到蛋白质变形[17,18];约1166 cm?1处的峰值来自C-O伸缩(碳水化合物)[20]。约1233 cm?1处的增强与核酸中的磷脂不对称伸缩相关[17],第I期样本中还观察到PO2?在约1076 cm?1和1121 cm?1处的对称伸缩[17]。另一方面,Lazaro-Pacheco等人报告称,乳腺癌样本中约1236 cm?1处的峰值反映了细胞密度和细胞成分[16]。这一发现表明癌细胞可以释放出如外泌体和囊泡等亚细胞颗粒进入血液循环;此外,通过凋亡或坏死,循环系统中也可能存在游离核酸(包括游离DNA和游离RNA)[21]。由于乳腺癌样本数量较少,约1394、1313、1233和1076 cm?1处的波数主要存在于对照组样本中。
**下载:**
- 下载高分辨率图像(696KB)
- 下载全尺寸图像
**图1.** 对照组(绿色)和三个不同分期乳腺癌患者(蓝色、黑色和红色)的肝素化血浆样本的平均光谱(线形)和整体光谱(阴影)。
(A) 4000–650 cm?1范围内的光谱;(B) 3000–2800 cm?1范围内的二次导数光谱;(C) 1400–1000 cm?1范围内的二次导数光谱。
3.2 **HER2低表达水平的红外光谱**
针对HER2低表达水平,对55个乳腺癌样本和32个对照组的红外光谱进行了平滑处理和平均处理(图2A)。对照组HER2低表达水平的红外光谱强度略高于乳腺癌患者。为了提高光谱分辨率,使用了二次导数光谱(图2B)。在1394 cm?1、1313 cm?1、1233 cm?1和1076 cm?1处观察到的峰值表明乳腺癌患者的HER2表达较低。因此,进行了化学计量分析以改进乳腺癌组和对照组中HER2低表达水平的分类。归一化光谱的谱型与非归一化光谱的谱型一致,归一化处理显著降低了样本间强度的变异性(图S1和S2)。下载:下载高分辨率图像(646KB)下载:下载全尺寸图像
图2. 控制组(绿色)和低HER2表达的乳腺癌患者(粉色)的平均光谱(线条)和整体光谱(阴影),分别对应(A)4000 – 650 cm^-1 和(B)1400 – 1000 cm^-1 的二阶导数光谱。
3.3. 机器学习分析
为了区分低HER2表达的乳腺癌患者和对照组参与者,对FTIR光谱进行了预处理和PLS-DA分析。数据处理方案的PLS-DA结果显示RMSE较低、R2值较高且准确度较高,被认为是良好的模型。表2显示了用于区分乳腺癌患者和对照组中低HER2表达的PLS-DA结果。带有19个平滑点的二阶导数光谱的PLS-DA模型显示出最低的RMSE和最高的R2值(分别为0.671和0.475)。然而,带有19个平滑点和1400–1000 cm^-1处EMSC的二阶导数光谱的PLS-DA模型在预测乳腺癌和对照组样本中的低HER2表达方面具有最高的准确度(65.18%)。此外,该模型的RMSE和R2值分别为0.725和0.442,是可接受的。因此,该模型更适合区分乳腺癌和对照组样本。然而,如图3所示,低HER2表达的对照组样本并未与HER2水平更低的乳腺癌样本清晰分离。这种重叠可能是由于健康个体的血液循环中HER2的脱落导致的[6]。Di Gioia等人报告称,健康男性的血清HER2胞外域水平高于女性[22]。此外,样本的红外波数主要与N-H、C-O以及对应HER2胞外域结构的氨基酸有关[6,23]。
表2. 数据处理后的HER2低表达PLS-DA结果。
数据处理方案
RMSE Accuracy (%)
Sensitivity (%)
Specificity (%)
19平滑 0.83 0.24 36 2.35
80 0.29 31.25
19平滑 + 基线校正 0.79 0.32 36 0.12 67.19 46.88
19平滑 + 基线校正 + 单位向量归一化(4000 – 650 cm^-1)0.79 0.32 0.54 32.60 2.43 7.75
19平滑 + 基线校正 + 单位向量归一化(1400 – 1000 cm^-1)0.83 0.24 95 8.63 77.5 28.13
19平滑 + 单位向量归一化(4000 – 650 cm^-1)0.78 0.33 0.83 58.9 65.9 46.88
19平滑 + 单位向量归一化(1400 – 1000 cm^-1)0.78 0.78 0.33 26 1.16 75.9 37.50
一阶导数 19平滑 0.71 0.42 45 8.63 70.31 37.50
一阶导数 19平滑 + EMSC(1400 – 1000 cm^-1)0.73 0.42 66 3.39 81.0 13.48
二阶导数 19平滑 0.67 0.47 55 95 64.18 40.63
二阶导数 19平滑 + EMSC(1400 – 1000 cm^-1)0.72 0.44 65 18 71.27 56.25
EMSC:扩展乘法信号校正;PLS-DA:偏最小二乘判别分析;RMSE:均方根误差。
下载:下载高分辨率图像(635KB)下载:下载全尺寸图像
图3. 在获得带有19个平滑点和EMSC的二阶导数光谱后,进行的部分最小二乘判别分析结果。(A)乳腺癌和对照组样本的散点图。(B)1400 – 1000 cm^-1处的因子1和因子2载荷图。
基于仅显示65%准确度的PLS-DA模型,执行了神经网络(NN)以提供更高准确度的模型来区分低HER2表达的样本。预处理后,四个NN模型的准确度最高,为78.16%。带有19个平滑点的预处理获得了80.00%的高灵敏度。另一方面,包括19个平滑点、基线校正和4000 – 650 cm^-1处单位向量归一化的两种数据处理方案以及19个平滑点和4000 – 650 cm^-1处单位向量归一化的方案获得了81.25%的特异性。然而,带有19个平滑点和1400 – 1000 cm^-1处EMSC的二阶导数光谱模型在乳腺癌和对照组样本中分类低HER2表达方面表现最佳,准确度为78.16%,灵敏度为78.18%,特异性为78.13%,如表3所示。
表3. 数据处理后的HER2低表达NN模型。
预处理方法
Accuracy (%)
Sensitivity (%)
Specificity (%)
19平滑 78.16 80.00 75.00
19平滑 + 基线校正 66.67 72.73 56.25
19平滑 + 基线校正 + 单位向量归一化(4000 – 650 cm^-1)78.16 76.36 81.25
19平滑 + 基线校正 + 单位向量归一化(1400 – 1000 cm^-1)67.82 70.91 62.50
19平滑 + 单位向量归一化(4000 – 650 cm^-1)78.16 76.36 81.25
19平滑 + 单位向量归一化(1400 – 1000 cm^-1)73.56 74.55 71.88
一阶导数 19平滑 77.01 78.18 75.00
一阶导数 19平滑 + EMSC(1400 – 1000 cm^-1)77.01 76.36 78.13
二阶导数 19平滑 74.71 72.73 78.13
二阶导数 19平滑 + EMSC(1400 – 1000 cm^-1)78.16 78.18 78.13
4. 讨论
先前的研究报告称HER2-0和低HER2表达的3年无病生存率相似[24]。因此,确定HER2水平对乳腺癌患者的预后和治疗非常重要。HER2胞外域的不同临界水平可以定义血清或血浆中不同的HER2表达组。Streckfus等人发现94%的乳腺癌血清样本的HER2胞外域水平≥2000 U/mL,但这种方法的选择性和特异性仅为60%,表明有异常高比例的健康个体的HER2水平异常[25]。本研究遵循了食品药品监督管理局推荐的临界水平(15 ng/mL)来定义HER2的过表达和下调。
多项研究表明,结合化学计量学或机器学习的FTIR光谱可以用于区分乳腺癌的不同分子亚型。Ko?odziej等人研究了健康个体的三阴性乳腺癌组织,并发现每组中蛋白质、多糖和核酸区域的不同谱型,得出主成分分析(PCA)能够清晰地分类化疗前后健康个体的三阴性乳腺癌组织[26]。此外,De Souza等人使用干燥的EDTA血浆样本通过ATR-FTIR光谱对Luminal A、Luminal B、三阴性和HER2阳性肿瘤进行了分类。他们报告称,正交PLS-DA模型的准确度达到100%,交叉验证的均方根误差<0.005,适用于所有分子亚型和对照组[13]。然而,之前的研究尚未提出区分乳腺癌患者和健康参与者的低HER2表达的判别方法。有趣的是,我们的研究首次初步报告了使用带有19个平滑点和1400 – 1000 cm^-1处EMSC的二阶导数光谱的神经网络,在预测和分类乳腺癌和健康个体的低HER2表达方面获得了78%的准确度。另一方面,使用不同预处理方案的PLS-DA的准确度为54 – 65%。这些结果表明,分析性能的差异是由于光谱预处理和学习算法的差异所致。
在HER-2检测方法中,组织活检的IHC和FISH是金标准技术。作为较少侵入性的技术,近年来血清HER2水平的测量引起了临床医生的兴趣。然而,通过化学发光免疫测定和ELISA测量的血清HER2敏感性和特异性分别报告了21 – 90%和56 – 97%的值[4]。我们在这项关于低HER2表达样本的研究中报告的灵敏度和特异性为78%。这一发现表明,结合神经网络的ATR-FTIR技术展示了可接受的分析性能,并可作为筛查工具。
然而,这项研究存在局限性。首先,两组的样本量较小。其次,HER2表达水平是通过ELISA在混合样本集中测量的。进一步研究中,应在单个样本中定义HER2表达水平。应在机器学习中包括HER2阳性、HER2阴性和低HER2表达的样本。
5. 结论
本研究表明,使用血浆样本和ATR-FTIR光谱结合机器学习有望区分低HER2表达的乳腺癌患者和健康个体。在数据预处理后应用了PLS-DA和神经网络。带有19个平滑点和1400 – 1000 cm^-1处EMSC的二阶导数光谱(与切割的HER2胞外域相关)适用于PLS-DA和神经网络模型。最终,神经网络展示了最高的准确度、灵敏度和特异性,分别为78%。然而,需要大规模的临床研究来验证更高的效果。
伦理批准和参与同意
本研究得到了孔敬大学人类研究伦理委员会的批准(批准编号:HE642177)。本研究中的所有样本都是剩余样本,无法定义个体临床数据。
发表同意
不适用
数据和材料的可用性
本研究生成或分析的所有数据均包含在已发表的文章中。当前研究中使用的数据可向相应作者请求获得。
资金支持
本研究得到了孔敬大学基本基金的支持。孔敬大学关于使用FTIR光谱和机器学习检测乳腺癌血浆中低HER2表达的研究还得到了国家科学、研究和创新基金(NSRF)的资助。
CRediT作者贡献声明
KK、PC、PT、AT和MW构思并计划了这项研究。KK进行了实验。KK和PC分析了数据。PC、PT、AT和MW监督并讨论了实验。MW负责项目管理和资金获取。所有作者阅读并批准了最终稿件。
CRediT作者贡献声明
Kanjana Klongkleaw:写作 – 原始草稿,可视化,方法论,数据管理,概念化。
Patutong Chatchawal:写作 – 审稿与编辑,可视化,监督,调查,概念化。
Patcharaporn Tippayawat:写作 – 审稿与编辑,监督,概念化。
Anchalee Techasen:写作 – 审稿与编辑,监督,概念化。
Molin Wongwattanakul:写作 – 审稿与编辑,监督,资源管理,项目管理,资金获取,概念化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号