《Smart Health》:AI-powered play assessment approach using video language models: A feasibility study
编辑推荐:
本研究针对传统社会行为观察评估方法耗时、易出错且存在主观偏差的问题,开发了集成深度神经网络(DNN)与计算机视觉技术的AI软件,通过视频大语言模型(Video LLMs)对亲子共同游戏互动进行自动评分。研究利用微调后的Qwen2.5VL模型对37对1-6岁亲子视频进行PC-SCP(Parent/Caregiver Support of Children’s Playfulness)量表自动评分,准确率达38.2%,最佳五组准确率61.3%,证实了AI自动化评估在临床行为观察中的可行性,为儿童发展评估提供了更高效客观的新范式。
在儿童发展评估和家庭中心式照护中,亲子共同游戏体验扮演着至关重要的角色。它不仅促进儿童的成长发育,还能增强家庭内外的关系互动。临床工作者迫切需要准确识别儿童在游戏中的需求,以及家长如何在与孩子共同游戏时提供有效支持。为了评估这种共同游戏体验,Waldman-Levi和Bundy于2023年开发并验证了家长/照护者支持儿童游戏性量表(PC-SCP),这一标准参照评估工具已成为儿科临床工作者的重要评估手段。
然而,传统的社会行为观察评估方法面临着严峻挑战。这些评估要求评估者经过严格培训并具备丰富经验,整个过程既耗时又容易受到人为错误、主观偏见和评分不一致性的影响。在科研领域,评估者需要与经验丰富的评分者进行练习以建立评分者间信度,这一过程同样耗时且容易产生误差。
随着人工智能技术的快速发展,深度神经网络(DNN)作为机器学习模型的一种,在医疗健康评估领域展现出独特优势。DNN能够以比传统方法(如基于树的模型)更高的精度处理复杂数据,为行为评估带来了新的可能性。特别是在视频分析领域,视频大语言模型(Video LLMs)的出现为理解复杂的多模态行为数据提供了新的技术路径。
在这项发表于《Smart Health》的研究中,研究人员开展了一项创新性的探索,旨在验证视频大语言模型在自动化评估亲子游戏互动中的可行性。研究团队开发了专门的AI驱动软件,将深度神经网络与计算机视觉技术相结合,用于分析亲子共同游戏互动视频。
研究采用了便利抽样方法,招募了37对亲子组合,包括神经典型发展和神经多样性(如自闭症谱系障碍、发育迟缓、注意力缺陷障碍)的1-6岁儿童。经过资格筛查和知情同意程序后,研究人员在家庭环境中录制了10-15分钟的亲子互动视频。这些视频随后由经过培训的职业治疗研究生按照PC-SCP标准进行手动评分,其中20%的视频由两名评估者双重评分以确保评分者间信度。
在技术方法上,研究团队评估了四种先进的视频理解模型:Qwen2VL、Qwen2.5VL、LLaMA3.2-Vision和InternVL。经过初步比较后,选择在80%训练集上对Qwen2.5VL进行微调,使用批大小为2、学习率为1×10-5、3个训练轮次的参数设置。实验在配备4块A100 80GB GPU的PyTorch环境中进行,采用交叉熵损失函数优化模型参数。
2.4.1 标准分类指标
研究人员采用了全面的评估指标体系,包括准确率、精确率、召回率和F1分数。准确率衡量模型正确预测的比例;精确率关注真正例预测在所有阳性预测中的比例;召回率评估真正例预测在所有实际阳性案例中的比例;F1分数则作为精确率和召回率的调和平均数,提供平衡评估。
2.4.2 序数特异性指标
考虑到PC-SCP采用序数评分(0-3分)的特点,研究特别引入了加权Kappa作为关键评估指标。这一指标考虑了评估者之间分歧的大小程度,对于临床评估情境尤其重要,因为近邻错误(相差1分)比大偏差错误的严重性要小。
2.4.3 性能上限指标
最佳五组准确率的计算为理解模型在最优条件下的潜力提供了洞察,有助于区分系统性模型限制与特定挑战性案例导致的性能下降。
3. 结果和分析
研究样本包含37名英语家长,其中64%为白种人,儿童平均年龄3.15岁(标准差1.60),男女比例均衡。双重评分显示评分者间信度极高,组内相关系数(ICC)达0.933。在所有评估模型中,微调后的Qwen2.5VL表现最佳,准确率达到38.2%,最佳五组准确率为61.3%。尽管绝对数值看似不高,但考虑到样本量有限(仅37对亲子)以及评估任务的复杂性(需对16个行为维度进行评分),这一结果显示了视频大语言模型在行为评估中的潜力。
4. 讨论
研究结果表明,基于视频大语言模型的自动化评估方法能够显著简化亲子互动视频的分析流程,在保持评估质量的同时降低对资源密集型人工评估的依赖。经过专门微调的模型在识别细微互动线索方面表现更优,与专家判断的一致性更高。然而,研究也发现模型在处理重叠语音或快速行为变化场景时存在困难,这反映了仅在通用数据集上训练的模型的局限性。
4.1 局限性和未来工作建议
研究存在几项重要限制:样本规模较小且多样性不足;未整合音频/时序融合技术;缺乏外部验证。未来研究需要扩大数据集规模和多样性,开发更先进的多模态融合技术,并加强模型在真实环境中的部署验证。
5. 结论
本研究开发的AI驱动软件为亲子共同游戏评估提供了创新解决方案。尽管在有限样本中取得了61.3%的最佳五组准确率,但模型的普适性仍需在更大规模、更多样化的数据集上进行验证。AI驱动的评估工具不仅有望在康复、心理健康、发育障碍和儿科等医疗场景中优化行为评估流程,还可能在教育环境和专业培训中发挥重要作用,为临床工作者和教育者提供有价值的辅助工具。
这项研究的创新之处在于首次将视频大语言模型应用于复杂的双人互动行为分析,涵盖了行为、动作、语音和声音等多模态信息。虽然当前性能仍有提升空间,但为未来开发更精准、高效的自动化行为评估系统奠定了重要基础,标志着儿童发展评估领域向数字化、智能化方向迈出了关键一步。