从医疗在线论坛帖子中提取乳腺癌患者的生活质量信息：数据可行性研究

《JMIR Cancer》：Extracting Quality of Life Information of Patients Diagnosed With Breast Cancer From Health Care Online Forum Posts: Data Feasibility Study

【字体：大中小】 时间：2026年05月04日 来源：JMIR Cancer 2.7

编辑推荐：

　　大卫·玛丽亚·施密特 | 劳尔·舒伯特 | 布莱恩·波汉·陈 | 黛博拉·库克 | 瓦尔米克·库德西亚 | 安德烈亚斯·欣茨 | 菲利普·奇米亚诺
比勒费尔德大学技术学院认知交互技术中心

**背景**
生活质量（QoL）问卷被广泛应用于许多疾病领域，用于衡量疾病对患者造成的负担，这有助于了解疾病的影响、识别未满足的医疗需求，并为以患者为中心的药物开发和治疗价值评估提供依据。数据收集不仅给患者带来了巨大的负担，也给医疗人员带来了工作压力，从而导致医疗系统成本增加。鉴于患者在社交媒体和患者论坛上分享了关于他们病情和治疗经历的详细信息，一个重要的研究问题是：从患者的在线论坛帖子中可以获得多少关于生活质量的信息，从而可能补充问卷中获得的信息。

**目的**
本研究旨在评估通过分析患者在线医疗社区中的帖子可以获取多少生活质量信息，以及这些信息是否足够丰富，可以基于患者的帖子来估计他们的生活质量。我们在乳腺癌这一女性中最常见的癌症类型背景下进行了这项可行性研究。

**方法**
我们在Inspire患者在线论坛上招募了134名被诊断为乳腺癌的女性患者，她们自愿参与了我们的可行性研究。她们填写了EORTC（欧洲癌症研究与治疗组织）QLQ-C30和QLQ-BR23问卷，这些问卷包含30个一般性问题和23个针对乳腺癌的特定问题，并同意我们分析她们在论坛上的帖子和评论（共756篇帖子和19,478条评论）。我们对帖子进行了手动编码，以识别出回答上述53个问题中任何一个问题的文本部分。

**结果**
数据标注显示出较高的一致性（Fleiss κ均值0.5，标准差0.28）。总体而言，我们在编码数据中找到了53个EORTC QLQ-C30和QLQ-BR23问题中的50个问题的答案。帖子中编码的信息能够可靠地预测问卷中的答案（F1分数=0.7），当将类似问题分组时，结果更好（细粒度分组的F1分数=0.8，粗粒度分组的F1分数=0.9）。根据编码的帖子最常被回答的5个问题是：“你是否感到不适？”（2683篇帖子和评论中的304条）、“你是否感到担忧？”（105篇帖子和评论）、“你是否感到疼痛？”（104篇帖子和评论）、“你是否感到紧张？”（85篇帖子和评论）以及“你的工作或其他日常活动是否受到限制？”（77篇帖子和评论）。

**结论**
我们的可行性研究表明，在线患者社区的帖子中包含有价值的生活质量相关信息，这可能成为一种创新的、负担较低的生活质量监测方法。未来的研究应考虑如何利用这些见解来补充现有的生活质量评估工具，以及是否可以自动化提取与生活质量相关的信息。

**引言**
根据世界卫生组织的定义，生活质量（QoL）涵盖了身体、心理和社会福祉，而不仅仅是疾病的缺席[1]。评估生活质量对于医疗保健至关重要，它有助于了解疾病的影响、识别未满足的医疗需求，并为以患者为中心的药物开发和治疗价值评估提供依据。传统上，生活质量是通过患者报告的结果问卷来测量的，例如广泛使用的EORTC（欧洲癌症研究与治疗组织）QLQ-C30问卷[2]。这些标准化工具便于在不同患者群体之间以及与普通人群之间进行比较。然而，生活质量评估通常既耗时又对患者和医疗提供者来说行政负担较大[3-7]。为了简化数据收集，人们探索了数字和计算机支持的方法[6-8]。鉴于社交媒体和在线患者社区在分享健康经验方面的使用日益增加，一个关键问题是：患者生成的在线内容能否作为生活质量数据收集的替代或补充来源？虽然不能替代结构化调查，但社交媒体数据可能提供实时、成本效益高的患者福祉、偏好和治疗经历的见解。

**先前研究**
先前的研究利用社交媒体来评估帕金森病[9,10]、干燥综合征[11]、慢性阻塞性肺病[12]和精神障碍[13,14]等疾病的负担和治疗体验。一些相关研究还将患者帖子与特定的生活质量基准进行了比较，但仅是在聚合层面上进行的。例如，Zivanovic等人[15]将Twitter数据与布里斯托尔市的官方生活质量数据进行了比较。同样，Cotté等人[16]也研究了癌症相关论坛和生活质量数据，但重点关注的是免疫检查点抑制剂，而不是对个别用户的生活质量影响。因此，目前尚未有系统性地评估是否可以从在线患者讨论中可靠地提取个别患者的生活质量数据。

为了探索这一点，我们对Inspire患者在线论坛上被诊断为乳腺癌的患者进行了研究，评估在线论坛帖子是否包含相关的生活质量信息。乳腺癌仍然是女性中最常见的癌症类型，2020年新增病例超过230万例[17]。对于被诊断为乳腺癌的患者及其幸存者来说，生活质量是一个关键问题，他们经常经历显著的障碍[18-21]。在我们的研究中，被诊断为乳腺癌的患者完成了标准的生活质量问卷（EORTC QLQ-C30和QLQ-BR23），同时我们手动编码了他们的在线帖子和评论，以确定其中是否存在与生活质量相关的内容。然后我们评估了生活质量讨论的普遍性及其与问卷回答的相关性。我们的研究重点关注以下问题：
RQ1：患者在线论坛帖子是否包含与生活质量相关的信息？
RQ2：EORTC QLQ-C30和QLQ-BR23中的哪些生活质量问题在在线帖子中被最频繁地提及？
RQ3：这些在线讨论与个别患者的生活质量问卷回答的一致性如何？

**方法概述**
这项可行性研究旨在评估被诊断为乳腺癌的患者在在线讨论中是否存在生活质量信息。选择乳腺癌是因为其高发病率，数据来自Inspire患者在线论坛上的患者生成内容。该论坛上的患者社区按疾病类型组织，包括“乳腺癌”和“晚期乳腺癌”，每个自然的点对点对话线程由初始帖子和随后的评论组成。本研究的工作流程概述见图1。

**图1. 从计划调查到数据分析的研究工作流程概览**
使用EORTC QLQ-C30和QLQ-BR23问卷的在线调查于2024年5月至6月期间进行，对象是在Inspire患者在线论坛上发帖的乳腺癌患者。

为了将在线帖子中的患者报告的生活质量与结构化评估进行比较，我们（本研究的作者）使用了EORTC[2]提供的QLQ-C30问卷及其针对乳腺癌的特定模块QLQ-BR23。这些经过验证的工具提供了参考（基准），可以用来分析在线讨论的内容。

**参与者招募**
参与者来自Inspire上的“乳腺癌”和“晚期乳腺癌”社区。入选标准包括被诊断为乳腺癌的女性患者，年龄18岁或以上，居住在美国，并且在相应的Inspire社区中至少发布过1篇帖子或评论。选择居住在美国是因为Inspire位于美国。

**问卷内容**
EORTC QLQ-C30问卷用于评估癌症患者的一般生活质量。它包含30个项目，分为5个功能量表：整体健康状况/生活质量量表、3个症状量表和6个单项测量。得分范围从0到100，分数越高表示生活质量越好。该工具的规范值已预先确定[22,23]。QLQ-BR23模块包含23个项目，分为8个量表：系统治疗副作用、脱发、手臂症状、乳房症状、身体形象、未来展望和性功能。回答选项与EORTC QLQ-C30的选项一致。

**伦理考虑**
我们的研究已获得比勒费尔德大学伦理委员会的批准，申请编号为2023-216-W1。完整的CHERRIES（互联网电子调查结果报告清单）[24]清单见附件1。所有参与者都获得了知情同意，允许我们分析他们的帖子和评论。收集的数据，特别是调查回答，不会公开共享，仅可供研究作者使用。此外，数据以加密形式存储。所有符合条件的社区成员都被邀请参与（即方便抽样），前100名受访者获得了20美元的礼品卡作为补偿。

**标注和编码过程**
编码过程的目的是识别收集到的帖子和评论中的文本片段，这些片段可能与EORTC生活质量问卷中的回答相对应。为此，我们实现了一个类似于命名实体识别的标注框架，其中53个生活质量问题中的每一个都作为标签。与传统的命名实体识别（识别人或组织等实体[25,26]不同，我们的方法使用与生活质量相关的标签来标记相关文本片段。除了为每个生活质量问题分配标签外，我们还引入了补充标签来捕捉症状的存在与否：“阳性”或“阴性”。编码者还使用问题特定的标签来指示回答反映了积极或消极的生活质量体验。此外，“完全匹配”标签用于表示提供精确或高度相关答案的文本片段，而标准标签则用于表示部分或模糊的回答。

**注释和编码指南的开发**
注释和编码指南分为两个阶段。在第一阶段，3名注释者使用初步框架对30篇帖子进行了标注。完成这一试点阶段后，结果进行了审查，并进行了 minor 修改。例如，“你是否感到不适？”这个标签被用于那些不符合其他更具体类别的一般生活质量描述。注释者被明确培训只在找不到更合适的标签时使用备用标签，这也被添加到了注释指南中（多媒体附件1）。在完整数据的注释过程开始时，通过仔细检查备用标签来确保遵守这些规则。这些试点注释随后被从最终数据集中排除。在第二阶段，开始了完整的注释过程，不再需要进一步修改。此外，还标记了过去6个月（相对于每个用户的参与日期）的帖子和评论，以指示它们是否涉及过去的事件。这种区分对于评估论坛数据与调查回答之间的相关性至关重要，因为较旧的事件描述可能无法准确反映患者当前的生活质量。通过过滤掉这些帖子，可以更精确地对齐论坛得出的见解和基于调查的质量评估结果。

**测量在线帖子与调查回答之间信息的一致性**
为了评估在线帖子中分享的信息与结构化问卷回答之间的一致性，我们应用了机器学习中常用的分类指标。编码方案和问卷回答被简化为二进制格式，将帖子和调查答案中的每条信息映射为“阳性”或“阴性”回答。“阳性”在这里表示对应的问题被回答为“是”，表明存在症状或其他问题；类似地，“阴性”表示问题被回答为“否”，表明没有症状或其他问题。具体来说，答案类别“有点”、“相当多”和“非常多”被归类为“积极”，而“完全没有”被归类为“消极”。这使得可以计算以下关键分类指标：

- 真阳性（TP）：在线帖子和相应的问卷回答都表示“积极”答案的情况（例如，用户表示“我上周非常痛苦！”并在调查问题“您有疼痛吗？”中选择“是”）。
- 假阳性（FP）：在线帖子被标记为“积极”，但相应的问卷回答是“消极”的情况（例如，用户表示“我很担心！”，但在问题“您担心了吗？”中回答“否”）。
- 真阴性（TN）：在线帖子和问卷回答都表示“消极”答案的情况（例如，用户表示“我没有疼痛！”并在调查问题“您有疼痛吗？”中选择“否”）。
- 假阴性（FN）：在线帖子被标记为“消极”，但相应的问卷回答是“积极”的情况（例如，用户表示“我上周一点也不担心！”，但在调查问题“您担心了吗？”中选择了“是”）。

如果某个特定用户和健康相关问题没有标记数据，那么该用户就不会对该问题的TP、FP、TN或FN计算产生贡献。这种方法使我们能够评估现有数据预测问卷回答的能力。

利用TP、FP、TN和FN的值，我们计算了标准的机器学习分类指标，包括精确度（TP/[TP + FP]）、召回率（TP/[TP + FN]）以及F1分数（精确度和召回率的调和平均值，即2×精确度×召回率/(精确度 + 召回率) [27]。鉴于在分析所有53个调查问题的个体用户水平的结果时数据稀疏性会增加，我们根据EORTC评分手册探索了将相似的调查问题进行分组。这导致了两个级别的分类：（1）细粒度分组：基于详细的质量相关问题群组（表1）；（2）粗粒度分组：功能方面（问题1-7、20-27、39-46）、症状（问题8-19、28、31-38、47-53）和整体健康（问题29和30）。

表1. 基于EORTC QLQ-C30和QLQ-BR23评分手册的细粒度分组

| 组别 | 问题ID |
|------------|---------------|
| 全体健康 | 29, 30 |
| 身体功能 | 1, 2, 3, 4, 5 |
| 角色功能 | 6, 7 |
| 情绪功能 | 21, 22, 23, 24 |
| 认知功能 | 20, 25 |
| 社交功能 | 26, 27 |
| 疲劳 | 10, 12, 18 |
| 恶心和呕吐 | 14, 15 |
| 疼痛 | 9, 19 |
| 呼吸困难 | 8 |
| 失眠 | 11 |
| 食欲减退 | 13 |
| 便秘 | 16 |
| 腹泻 | 17 |
| 财务困难 | 28 |
| 全身治疗副作用 | 31, 32, 33, 34, 36, 37, 38 |
| 因脱发而困扰 | 35 |
| 手臂症状 | 47, 48, 49 |
| 乳房症状 | 50, 51, 52, 53 |
| 身体形象 | 39, 40, 41, 42 |
| 未来展望 | 43 |
| 性功能 | 44, 45 |
| 性享受 | 46 |

a. EORTC：欧洲癌症研究与治疗组织。

b. 问题ID指的是相应的EORTC问卷问题编号。使用EORTC QLQ-C30和QLQ-BR23问卷的在线调查于2024年5月至6月进行，参与调查的是在Inspire患者在线论坛中发帖的乳腺癌患者。

这些分组通过减少数据稀疏性和提高在线论坛讨论与结构化调查回答之间对应关系的可解释性，使得分析更加稳健。

**总体统计**

收集的数据集包含20,204篇帖子和评论，时间跨度从2006年到2024年，其中580篇帖子和评论来自研究结束前的6个月。如图2所示，用户的帖子分布呈长尾模式，具体数值见表2。如图2所示，大多数贡献是评论而不是原创帖子。表3显示，我们的数据涵盖了广泛的乳腺癌患者群体，无论是在年龄上还是在调查诊断之间的时间间隔上。

**图2. 每用户的帖子数量**，x轴表示123名用户，y轴表示（对数刻度的）帖子数量，浅蓝色表示结合了帖子和评论的帖子，深蓝色表示仅评论的帖子。没有帖子或评论的用户被忽略。使用EORTC QLQ-C30和QLQ-BR23问卷的在线调查于2024年5月至6月进行，参与调查的是在Inspire患者在线论坛中发帖的乳腺癌患者。

**表2. 每用户的帖子数量概览**

| 帖子数量 | 用户数量 |
|------------|-------------|
| 1-10 | 28 |
| 11-100 | 63 |
| 101-1000 | 22 |
| >1000 | 4 |

使用EORTC QLQ-C30和QLQ-BR23问卷的在线调查于2024年5月至6月进行，参与调查的是在Inspire患者在线论坛中发帖的乳腺癌患者。

**表3. 调查参与者的自我报告人口统计数据**

| 数据类别 | 平均值（标准差） | 最小值 | 最大值 |
|------------|--------------|-----------|----------|
| 年龄 | 68.2 (11.5) | 27 | 116 |
| 诊断时年龄 | 55.7 (12.6) | 26 | 103 |
| 诊断后年限 | 13.1 (9.4) | 0 | 45 |
| 帖子平均长度 | 408.4 (366.8) | | |

平均帖子长度为408.4个字符。共有134名参与者参与了研究，其中11名参与者至少没有发表过1篇帖子或评论，因此有123名参与者符合纳入标准。

在注释过程中，最后6个月的数据（580篇帖子和评论）由3名注释者进行了标注，平均每个注释者花费了15.9小时（标准差10.3小时）。最后24个月的数据（额外的2103篇帖子和评论）由2名注释者进行了标注，平均每个注释者花费了76.5小时（标准差12.7小时）。总共标注了2683篇帖子。其中有14篇帖子包含与生活质量（QoL）相关的信息，但这些信息涉及的是帖子作者以外的人。这些帖子被标注但未纳入统计评估。

在最终数据集中包含的2669篇标注帖子和评论中，有613篇（23%）至少包含一个与QoL问题相关的标签。如果仅考虑最后6个月的数据，这一比例更高，为37.4%（580篇帖子中的217篇），表明大约三分之一到四分之一的帖子包含与QoL相关的内容。

在53个QoL问题中，有50个问题至少被标注过一次，出现频率最高的问题总结在表4中。最常被分配的标签是“您感到不适或生病了吗？”，有301次标注，占所有帖子的11%（n=301）和在研究期间积极发帖的用户中的57.3%（n=47）。需要注意的是，这个标签是作为备用标签使用的，用于那些帖子或评论包含明显与QoL相关的内容，但找不到更合适的标签的情况。例如，当患者描述一些非常具体或非常模糊的症状，这些症状与任何其他问题都不太对应时。接下来最常见的标注问题是“您担心了吗？”（105次标注）和“您有疼痛吗？”（102次标注），这两个问题都涵盖了患者不适的广泛类别。整体标签分布在多媒体附录2中进行了可视化。

**表4. 根据最近24个月标注次数排列的前10个最常见标签**

| 问题 | 标注次数 | 占帖子比例% | 占用户比例% |
|-------------|--------------|-----------|-----------|
| 您感到不适或生病了吗？ | 301 | 114 | 75.7 |
| 您担心了吗？ | 105 | 33.9 | 26.3 |
| 您有疼痛吗？ | 102 | 32.3 | 39 |
| 您感到紧张吗？ | 84 | 31.2 | 25.6 |
| 您在工作或其他日常活动中受到限制吗？ | 77 | 28.2 | 18.2 |
| 您感到疲倦吗？ | 55 | 21.8 | 18.2 |
| 您感到恶心吗？ | 51 | 11.9 | 18.2 |
| 您担心自己的健康状况吗？ | 41 | 11.5 | 19.5 |
| 您缺乏食欲吗？ | 32 | 12.5 | 6.1 |
| 您感到抑郁吗？ | 32 | 12.1 | 17.1 |

“帖子比例”指的是 ??时间段内带有相应标签的帖子占所有帖子的百分比。“用户比例”指的是带有该标签的帖子的用户数量占该时间段内所有用户的百分比。使用欧洲癌症研究与治疗组织（EORTC）生活质量问卷（QLQ-C30和QLQ-BR23）的在线调查于2024年5月至6月进行，参与调查的是在Inspire患者在线论坛中发帖的乳腺癌患者。

**注释者一致性**

由于最近两年内的每篇帖子和评论都由2到3名注释者进行了标注，因此可以通过Fleiss κ值[28]来计算注释者之间的一致性。这一指标有助于确定注释者在多大程度上对回答该问题的文本片段或帖子有至少部分共识。我们仅考虑与问题相关的基本标签来计算注释者一致性，忽略了“消极”和“完全匹配”这两个额外标签，并分别处理每个问题，因为这最符合Fleiss κ指标假设的设置。

我们计算了两种不同注释粒度的Fleiss κ值，即单词级别和帖子或评论级别。单词级别反映了实际的注释内容，即注释过程中创建的文本片段；而帖子级别则是对所有注释的简化汇总，只需注释者就整个文本是否回答了特定问题达成一致，而不需要具体说明在哪里回答。

表5提供了最近6个月数据中前10个Fleiss κ值最高和最低的问题的情况，以及相应问题被回答的帖子数量。

**表5. 最近6个月数据中一致性最高和最低的10个问题的注释者一致性（Fleiss κ，使用单词单位和帖子单位）**

| 问题 | Fleiss κ（单词单位） | Fleiss κ（帖子单位） |
|-------------|--------------|-------------|
| 您有头痛吗？ | 1.0 | 1.0 |
| 您有记忆困难吗？ | 0.9 | 1.0 |
| 您缺乏食欲吗？ | 0.9 | 0.9 |
| 您有潮热吗？ | 0.8 | 0.8 |
| 您掉头发了吗？ | 0.7 | 1.0 |
| 您的性活动程度如何？（包括性交与否） | 0.7 | 1.0 |
| 您感到不适或生病了吗？ | 0.6 | 0.7 |
| 您有腹泻吗？ | 0.6 | 0.9 |
| 您在外面短距离行走有困难吗？ | 0.6 | 0.7 |
| 您感到疲倦吗？ | 0.6 | 0.8 |
| 您的手臂或肩膀有皮肤问题吗？ | 0.2 | 0.3 |
| 您呕吐了吗？ | 0.2 | 0.5 |
| 您有长距离行走的困难吗？ | 0.2 | 0.3 |
| 您的手臂或肩膀有疼痛吗？ | 0.2 | 0.4 |
| 您如何评价过去一周的整体健康状况？ | 0.0 | 0.0 |
| 您需要休息吗？ | 0.0 | 0.0 |
| 您抬起手臂或向侧面移动有困难吗？ | 0.0 | 0.0 |
| 疼痛影响了您的日常活动吗？ | 0.0 | 0.0 |
| 食物和饮料的味道与平时不同吗？ | 0.0 | 0.0 |
| 您如何评价过去一周的整体生活质量？ | 0.0 | 0.0 |

可以观察到，许多频繁出现的标签具有较高的注释者一致性，例如，“您掉头发了吗？”的Fleiss κ值为0.7（单词单位）和1.0（帖子单位），尽管总共只出现在26篇帖子中。即使是备用标签“您感到不适或生病了吗？”也有0.6（单词单位）和0.7（帖子单位）的Fleiss κ值。

Fleiss κ值较低的大多数问题的标注帖子数量很少。观察到的最低一致性为0.0的6个问题总共只涉及14篇帖子，这些情况表明注释者对标签是否适用存在分歧。进一步调查数据后发现，最大的分歧是由于帖子表述模糊，导致无法确定是否适用某个标签。例如，对于“您的手臂或肩膀有疼痛吗？”这样的问题，问题可能涉及到的身体部位描述模糊，或者提到了与该区域疼痛相关的某些疾病或综合征，但并未明确提到疼痛。虽然出于数据隐私原因我们不能提供具体的帖子示例，但我们总结了典型的帖子来说明分歧的原因。对于“您的手臂或肩膀有疼痛吗？”这样的问题，注释者对于诸如“我服用这种药物已经5年了，最近开始出现手足综合征”的帖子存在分歧，因为手足综合征本身并不直接说明疼痛。同样，注释者对一些帖子的意见也存在分歧，例如“在过去的几个月里，我的手的不同部位偶尔会出现抽筋。”另一个注释者一致性较低的标签是“你的受影响乳房的皮肤是否有问题（例如，发痒、干燥、脱皮）？”，例如对于这样的帖子：“我尽量避免食用高叶酸的食物，因为它们可能会让一些人感到手臂疼痛。对于干燥的问题，我经常使用一些药膏。”因为并不清楚“干燥”具体指的是身体的哪个部位。

我们通过计算F1分数来估计作者提供的信息与生活质量（QoL）方面之间的相关性，以及问卷中提供的数据之间的相关性，具体方法如“测量在线帖子和调查回答之间信息一致性”部分所述。表6显示了基于最近6个月数据的10个最常被注释的问题的F1分数和总注释数量，并将这些数字与24个月的相应值进行了比较。

表6. 10个最常被注释的问题的F1分数，描述了注释在预测调查中实际答案方面的准确性，考虑了过去6个月和24个月的数据，这些数据没有经过时间偏差的过滤。

问题 F1分数（6个月）总注释数（6个月） F1分数（24个月）总注释数（24个月）
你是否感到不适或生病？ 0.61 27 0.72 22
你是否感到担心？ 0.83 60 0.94 7
你是否感到紧张？ 0.93 30 0.84 0
你是否感到疼痛？ 0.82 80 0.87 4
你是否感到疲劳？ 1.01 40 0.95 0
你是否感到恶心？ 0.71 40 0.53 4
你的身体状况或医疗治疗是否影响了你的社交活动？0.71 30 0.71 3
你的身体状况或医疗治疗是否给你带来了经济困难？1.01 12 1.01 2
你是否担心自己的健康状况？ 1.01 11 1.01 5
你是否掉了头发？ 0.81 10 0.82 9

这项在线调查使用了欧洲癌症研究与治疗组织（EORTC）的生活质量问卷（QLQ）QLQ-C30和QLQ-BR23，调查时间是在2024年5月至6月之间，对象是在Inspire患者在线论坛上发帖的乳腺癌患者。

从表6可以看出，过去6个月的数据中，所有10个最常被回答的问题都可以通过F1分数0.6或更高的准确率进行预测。其中7个问题的F1分数甚至达到了0.8或更高。最低的分数0.6出现在最常见的问题“你是否感到不适或生病？”上。这个问题也被用作其他类别无法归类的表述的备用标签，因此与其他标签相比，预测难度更大。即使考虑到更长的24个月时间跨度，这些问题的F1分数也没有低于0.5，有些甚至还有所提高。

尽管许多问题的F1分数很高，例如“你是否感到疲劳？”或“你是否担心自己的健康状况？”的F1分数为1.0，但对于某些问题，可用数据变得稀疏，当考虑单个用户或更短的时间跨度时，F1分数会降低，例如“你是否呕吐？”在6个月的数据中只有2个被标记的帖子。减少数据稀疏的一种方法是考虑更长的时间跨度。然而，这样做的代价是距离调查日期较远的帖子和评论可能与当时的生活质量相关性较低。然而，在表6中，尽管包括了较旧的帖子，我们仍然观察到所有10个最常被回答的问题的F1分数都在0.6-1.0之间（平均0.8，标准差0.1），这表明包括调查时间段之外的帖子仍然是有用的。

由于一些问题出现频率较低，我们将帖子和问卷的答案分为EORTC评分手册中使用的“症状性”和“功能性”两组。分组问题的结果显示在表7中。

表7. F1分数描述了注释在预测调查中实际答案方面的准确性，考虑了过去6个月和24个月的数据，使用了根据时间偏差过滤的细粒度和粗粒度分组。

问题 F1分数（6个月）总注释数（6个月） F1分数（24个月）总注释数（24个月）
细粒度分组疲劳 1.05 0.94 4
未来展望 1.05 1.09 1
手臂症状 1.04 1.06 1
腹泻 1.03 0.61 6
呼吸困难 1.02 0.91 4
恶心和呕吐 1.02 0.62 5
身体形象 1.01 1.01 0
经济困难 0.99 0.99 0
情绪功能 0.93 80 0.97 0
社交功能 0.91 10 0.91 1
身体功能 0.99 0.81 2
乳房症状 0.97 0.91 1
角色功能 0.81 0 0.72 1
全身治疗副作用 0.75 9 0.91 8
疼痛 0.71 5 0.86 1
便秘 0.72 0.81 0
认知功能 0.01 0 0.53 0
失眠 0 1.01 0
食欲减退 0 0 0.71 6

粗粒度分组功能性 0.96 80 0.91 2
症状性 0.81 10 0.93 8

使用EORTC QLQ-C30和QLQ-BR23问卷的在线调查是在2024年5月至6月之间进行的，对象是在Inspire患者在线论坛上发帖的乳腺癌患者。

表7中唯一一个在过去6个月的注释数量低于0.7的组是“认知功能”，该组仅包含2个问题，即“你在阅读报纸或看电视时是否有注意力集中的困难？”和“你是否难以记住事情？”所有其他组的结果都非常有希望，超过一半的组的分数在0.9或以上。在数据中没有注释的问题组，如“食欲减退”、“整体健康”、“失眠”、“性享受”、“性功能”和“因脱发而烦恼”在表中已被省略。即使考虑到更长的24个月数据，F1分数也没有低于0.5，许多分数甚至有所提高，这强调了旧数据的相关性。

在6个月的数据中，共有31名用户分享了包含生活质量信息的帖子，平均有10.8%（标准差9.8%）的53个生活质量问题得到了回答。对于完整的24个月注释数据，有46名用户发布了与生活质量相关的帖子，平均有10.8%（标准差10.1%）的问卷问题得到了回答。

这项可行性研究的目标是调查我们是否可以从在线社区的患者的帖子中可靠地获取生活质量信息。为此，我们引入了一种新方法，该方法检查帖子的内容与我们能够访问的同一组患者完成的生活质量调查数据之间的关系。这不仅使我们能够评估用户发布与生活质量相关的信息的频率，还能够衡量这些信息与问卷中相应问题的答案之间的对应程度。这种方法是新颖的，因为之前没有应用于分析患者在线分享的信息是否可以可靠地估计个人的生活质量数据。我们提供了证据表明这种方法是可靠的，显示信息可以被编码为高一致性的水平，并且患者在线分享的信息中有一些客观的“真实情况”，可以一致地解释为对调查问题的回答。关于RQ1，我们可以说患者在线论坛的帖子确实包含了与生活质量相关的信息。这些帖子中最常被提到的问题（RQ2）是“你是否感到担心？”“你是否感到紧张？”和“你是否感到疼痛？”此外，在线帖子与实际的生活质量问卷回答（RQ3）非常吻合，F1分数为0.7，当将类似问题分组时，结果更好（细粒度分组的F1分数为0.8，粗粒度分组的F1分数为0.9）。

特别是，“你是否头痛？”的Fleiss κ值为非负数，达到了最高的1.0。在53个问题中，只有6个问题的同意值为0，平均Fleiss κ值为0.5（标准差0.28），表明注释者之间有中度到高度的一致性，特别是考虑到任务的复杂性。

我们进一步量化了患者分享的信息与EORTC QLQ-C30和QLQ-BR23问卷中的问题之间的对应程度。在总共2669个被注释的帖子和评论中，有613个（23%）至少回答了其中一个EORTC问卷的问题。在过去的6个月（调查结束以来），甚至有217个帖子（37.4%）包含了与生活质量相关的信息。由于这些数字可能受到选择偏差的影响（表现为较旧的帖子包含较少与生活质量相关的信息），它们应该被视为上限，与调查任意一个患者的数据相比。

我们进一步展示了参与者在在线帖子中提供的信息与调查回答之间的显著相关性。我们建议依赖机器学习研究中使用的标准评估指标来估计参与者在线帖子中提供的信息与其在问卷中对应问题的答案之间的正确性。最近6个月的数据中，所有33个问卷问题的平均F1分数为0.7，表明包含与生活质量相关信息的帖子和评论可以可靠地预测问卷答案。同样，从患者层面来看，估计的答案中有63.4%（标准差33.5%）是正确的。这表明包含生活质量信息的论坛帖子具有很高的预测能力。

当将类似问题分组时，细粒度分组的平均F1分数为0.8（标准差0.154），粗粒度分组的平均F1分数为0.9（标准差0.01），在应用时间偏差过滤后排除谈论未指定或遥远过去的事件和经历的帖子和评论。未经过滤时，未分组的平均F1分数为0.7（标准差0.353），细粒度分组的平均F1分数为0.8（标准差0.158），粗粒度分组的平均F1分数为0.9（标准差0.051）。

最常被回答的问题（RQ2）包括“你是否感到担心？”“你是否感到紧张？”“你是否感到疼痛？”“你在工作或其他日常活动中是否受到限制？”“你是否感到疲劳？”“你是否感到恶心？”“你是否担心自己的健康状况？”“你是否缺乏食欲？”“你是否感到抑郁？”这些问题并不特别针对乳腺癌，因此表明患者通常以一般性或较为具体的方式在线讨论他们的生活质量，这从“你是否感到不适或生病？”的高出现次数可以看出。

问卷数据收集和分析的一个固有问题与缺失数据有关，因为患者往往不会填写所有信息。在我们的案例中，问卷数据的完整性率为100%，因为要求完成所有问卷项目。有两个形式为“如果你是/曾经……”的问题允许选择“没有答案”，但这并不被视为缺失数据，而是一种不同的回答方式。

然而，并非所有患者都在他们的帖子中回答了所有问题。对于在帖子中分享了与生活质量相关信息的患者，只有大约10.8%（标准差9.8%）的问题可以通过帖子中的信息得到回答。这意味着可用数据通常不足以回答EORTC生活质量问卷的所有问题，但至少可以可靠地提取每个患者的某些部分。我们还研究了通过分组问题和考虑更长的时间跨度来处理数据稀疏性的方法，这有助于更深入地了解生活质量，而不会失去太多可靠性。

总体而言，我们的结果显示，像Inspire这样的在线社区的用户确实会发布关于他们生活质量的信息，提供了可以一致且客观地映射到标准问卷类别的重要信息。

我们的结果具有重要意义。首先，结果表明我们有可能从在线社区的帖子中可靠地获取生活质量问题的答案。此外，患者的帖子中有一些细微差别是问卷无法直接捕捉到的。一方面，患者在在线讨论中提到或没有提到的主题可能表明这些主题对该患者来说目前最为重要，可能涉及生活质量问卷所涵盖的相对广泛领域的特定方面。另一方面，这可以提供对问卷未涵盖领域的洞察，因为这些领域是该患者特有的（例如，由于某些生活状况）。这暗示了我们的方法论补充标准问卷所获得数据的潜力。

近年来，有许多研究调查了是否可以从非结构化数据源中获取与生活质量相关的信息。然而，我们的工作在许多方面与相关方法有所不同。首先，我们的方法利用了不同类型的数据。我们考虑了来自专门医疗保健在线社区（更准确地说，是Inspire的乳腺癌论坛）的社交媒体帖子。其他研究则侧重于临床报告[30,31]或健康记录[31,32]，尽管这些数据也包含非结构化元素，但在内容和风格上与社交媒体数据有显著差异。在类似的研究中，许多研究使用了Twitter数据[13,15,33-37]，而我们使用的是特定的医疗保健在线社区数据。一个例外是Leung等人的工作[38,39]，他们使用了来自癌症支持小组的数据。然而，这些数据来自由医疗保健专业人员管理的聊天记录，而不是来自自然形成的论坛式在线社区的帖子。他们的研究重点较为狭窄，主要关注参与在线讨论的患者的情感困扰迹象，而我们的研究则更广泛地关注与生活质量相关的信息。Fu等人[40]提供了关于如何分析社交媒体内容以用于医疗保健的概述。

我们的研究旨在通过分析患者在医疗保健社区中的帖子来了解他们的生活质量。相比之下，许多其他研究的目标是发现目标人群中某一地理区域的总体趋势[13,15,36]。还有一些研究关注疾病、干预措施或治疗对患者整体影响的趋势，而不是为特定用户估计生活质量值[9,11,12,37,41-52]。这种全范围的分析有助于构建疾病的概念模型[9,42]，而其他研究则关注一般健康状况[33]、关于医疗服务的讨论[53]或在线聊天参与者的情感困扰[38,39]。

一些研究是与现有的生活质量问卷相关的。例如，Tapi Nzali等人[54]使用了EORTC QLQ-C30和QLQ-BR23问卷，旨在识别被诊断为乳腺癌的患者在问卷中讨论的普遍话题。Gries和Fastenau[52]利用EORTC QLQ-C30和QLQ-MY20问卷中的条目，调查了多发性骨髓瘤患者在特定医疗保健社交媒体平台上讨论的概念、症状和影响。这些研究分析的是总体趋势，而不是预测个别患者的生活质量。Renner等人[55]使用Short Form Health Survey SF-36[56]和Euro Quality of Life 5 Dimensions[57]对19个与健康相关的论坛的数据进行了注释，但他们没有像我们这样将调查结果与患者帖子中的信息进行比较和对比。

很少有研究分析患者发布的信息与现有生活质量问卷数据中的真实生活质量数据进行对比。例如，Zivanovic等人[15]将布里斯托尔市的Twitter数据与该城市的官方生活质量数据进行了比较。他们分析的是整个城市的数据，而不是像我们这样分析个别患者的数据。Sarma等人[35]也使用了Twitter数据，并将从中获取的信息与疾病控制中心Healthy Days问卷[58]的真实数据进行了比较。他们使用的问卷比我们研究中使用的要短得多，因此提供的患者生活质量视图不够详细。Cotté等人[16]将癌症特定论坛的数据与Functional Assessment of Cancer Therapy-General[59]和EORTC QLQ-C30问卷的数据进行了比较。他们的主要关注点是研究免疫检查点抑制剂的影响，而不是分析个别用户的生活质量影响。

尽管这项工作专注于乳腺癌，但相关研究涵盖了广泛的疾病，包括帕金森病[9,10]、弱视[41]、老花眼[42,49]、癌症[16,30,48,51]、干眼症[43]、慢性眼痛[44]、干燥综合征[11]、慢性阻塞性肺疾病[12]、系统性红斑狼疮[45,60]、免疫球蛋白A肾病[46]、补体3肾小球病[47]、特应性皮炎[50,61]、肥胖[36]、抑郁症[62]以及（一般的）心理健康[13,14]。

总之，我们的工作为监测患者的生活质量开辟了新的途径。正如前一节所详述的，通过分析论坛帖子中的生活质量相关内容，可以补充现有的生活质量评估工具，帮助关注患者生活质量的最相关方面，并发现现有工具可能未详细覆盖的领域。此外，利用人工智能等方法自动化识别在线帖子中的生活质量相关信息也是未来研究的一个有趣方向。

尽管我们仔细地注释了数据并通过调查收集了真实数据，但我们的工作仍存在一些局限性，本节将简要讨论这些局限性。在我们的研究中，研究对象仅限于在Inspire平台上活跃的用户。然而，还存在许多其他在线患者社区，这些社区中与生活质量相关的言论频率及其预测能力可能有所不同。同样，数据集中较旧的帖子较少讨论与生活质量相关的话题，这表明我们的数据可能存在选择偏差，因为目前对生活质量感兴趣的患者更有可能参与了我们的研究。因此，我们的结果应被视为对在线论坛帖子中患者生活质量可能见解的上限。

此外，我们还发现了数据中的回忆偏差。例如，我们发现一些患者在参与研究前不久谈论了对不同话题的担忧，但随后回答说他们并不担心。这种现象尚未在本研究中系统地进行研究，可能会影响研究结果。某些高度私密的话题（如与性或身体形象相关的内容）在论坛帖子中很少被提及。考虑到数据的公开性质，这是可以预料的，但这限制了从此类数据集中获得的深度和见解范围。与一对一访谈相比，论坛数据可能无法全面反映患者在这些方面的担忧。

最后，数据稀疏性和帖子及评论在论坛用户之间的不均衡分布是考虑社交媒体时典型的问题。如图2所示的长尾分布所示，数据集中有少数用户发布了大量帖子和评论，但大多数用户的帖子数量较少。因此，我们能够获取的生活质量信息程度取决于特定用户的发帖行为。本研究中呈现的统计数据和数字应被视为从Inspire社区随机选择的用户中提取生活质量信息的上限。同样，由于数据总体上的稀疏性，我们的数据样本中较少覆盖的标签在其他用户中可能更为常见，反之亦然。

总之，这项工作通过为监测患者生活质量提供新的途径，推动了该领域的发展。正如前一节所阐述的，分析论坛帖子中的生活质量相关内容可以补充现有的生活质量评估工具，帮助关注患者生活质量的最相关方面，并发现现有工具可能未详细覆盖的领域。此外，利用人工智能等方法自动化识别在线帖子中的生活质量相关信息也是未来研究的一个有趣方向。

尽管我们仔细地注释了数据并通过调查收集了真实数据，但我们的工作仍存在多个局限性。在我们的研究中，研究对象仅限于在Inspire平台上活跃的用户。然而，还存在许多其他在线患者社区，这些社区中与生活质量相关的言论频率及其预测能力可能有所不同。同样，数据集中较旧帖子较少讨论与生活质量相关的话题表明，我们的数据可能存在选择偏差，因为目前对生活质量感兴趣的患者更有可能参与了我们的研究。因此，我们的结果应被视为对在线论坛帖子中患者生活质量可能见解的上限。

此外，我们还在数据中发现了回忆偏差的迹象。例如，我们发现一些患者在参与研究前不久谈论了对不同话题的担忧，但随后回答说他们并不担心。这种现象尚未在本研究中系统地研究，可能会影响研究结果。某些高度私密的话题（如与性或身体形象相关的内容）在论坛帖子中很少被提及。鉴于数据的公开性质，这是可以预料的，但这限制了从此类数据集中获得的深度和见解范围。与一对一访谈相比，论坛数据可能无法全面反映患者在这些方面的担忧。

最后，数据稀疏性和帖子及评论在论坛用户之间的不均衡分布是考虑社交媒体时的典型问题。如图2所示的长尾分布表明，数据集中有少数用户发布了大量帖子和评论，但大多数用户的帖子数量较少。因此，我们能够获取生活质量信息的程度取决于特定用户的发帖行为。因此，本研究中呈现的统计数据和数字应被视为从Inspire社区随机选择的用户中提取生活质量信息的上限。同样，由于数据总体上的稀疏性，我们的数据样本中较少覆盖的标签在其他用户中可能更为常见，反之亦然。

热点排行