HumanCrop-Thinker：一种基于推理的框架，具备明确的思维过程，可用于实现可解释的以人为中心的图像裁剪

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：HumanCrop-Thinker: An Inference-Driven Framework with Explicit Thinking for Explainable Human-Centric Image Cropping

【字体：大中小】 时间：2026年02月28日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　人类中心图像裁剪可解释性框架，通过分阶段强化学习引入结构化推理监督，在保持高几何精度（GAICD-Human mIoU 0.7729，FCDB-Human 0.7502）的同时提供可验证的决策解释，突破传统黑箱模型局限。

关媛|黄一波|陈鹏飞|李蕾达

中国西安电子科技大学人工智能学院

摘要

以人为中心的图像裁剪（HCIC）旨在优化照片构图和视觉平衡，同时保持人物主体的完整性。现有的端到端裁剪方法直接回归裁剪窗口，但没有为其决策提供透明的理由，导致其内部推理过程不明确。为了解决这一限制，我们提出了HumanCrop-Thinker，这是一个基于推理的HCIC框架，通过将结构化推理监督引入裁剪流程，使裁剪理由明确且可检查，从而在单一决策过程中统一了解释性和裁剪精度。与仅输出边界框的先前方法不同，HumanCrop-Thinker在最终裁剪预测之前生成简洁的文本解释，揭示了模型对人物主体和上下文元素的推理过程。这种结构化的推理机制为可解释的HCIC建立了新的范式。HumanCrop-Thinker使用两阶段可验证的强化学习方案进行训练：第一阶段确保几何有效性和输出格式的正确性，而第二阶段结合以人为中心的线索和多目标奖励来细化语义对齐和边界精度。这种设计使模型能够同时实现高裁剪精度和可解释的推理保真度。在四个HCIC基准测试（GAICD-Human、FCDB-Human、FLMS-Human和CPC-Human）上的广泛实验证明了我们提出方法的有效性。HumanCrop-Thinker在GAICD-Human上取得了0.7729的mIoU，在FCDB-Human上取得了0.7502的mIoU，超越了最近的先进方法，并在多种场景中保持了强大的跨数据集泛化能力。总体而言，我们的框架将HCIC从一个黑盒预测任务转变为一个透明、基于推理且可解释的过程。代码可在以下链接获取：https://github.com/dylanqyuan/HCThinker

引言

随着移动成像设备的广泛采用和社交媒体平台的快速扩展，对视觉上构图良好的图像的需求持续增长。设备能力、显示格式和用户技能的差异往往导致图像中主体不明确、布局不平衡或背景杂乱，从而削弱了视觉连贯性和美学质量（Chounchenani, Shahbahrami, Hassanpour, & Gaydadjiev (2025); Lindell et al. (2021); Yang et al. (2022)）。在以人为中心的场景中，这些问题尤为明显，保持主体完整性和视觉平衡至关重要，即使是微小的构图偏差也会大幅降低感知吸引力。

在这种背景下，图像裁剪（IC）已成为视觉美学理解的关键任务，旨在自动提取保留关键语义的区域，同时提高构图质量（Wang, Shen, & Ling (2019); Zeng, Li, Cao, & Zhang (2022）。以人为中心的应用日益普及，进一步提升了以人为中心的图像裁剪（HCIC）作为一个专门且日益重要的子问题的地位。与通用场景不同，以人为中心的图像对主体保护和上下文平衡有更严格的约束，使得HCIC对构图错误更加敏感，并在语义保真度方面要求更高。

尽管对HCIC的兴趣日益增长，但现有方法在可解释性方面存在根本性局限。当前模型作为端到端预测器仅输出最终裁剪窗口，而不揭示它们如何识别主体、抑制干扰或推理构图结构，如图1所示。更关键的是，之前的HCIC研究没有建立生成可验证的中间推理步骤的机制，使得决策过程不透明，无法可靠地评估模型的内部逻辑。这种可解释性差距限制了许多以人为中心的应用所需的透明度、可控性和语义责任。

为了解决这一限制，我们提出了HumanCrop-Thinker，这是一个基于推理的HCIC框架，在生成裁剪输出之前生成结构化的文本推理。这种设计将HCIC从一个不透明的预测范式转变为一个透明的、基于推理的过程，使模型能够阐明它如何解释场景并得出裁剪决策。HumanCrop-Thinker采用了一种可验证的优化策略，鼓励几何上有效、与人对齐的裁剪行为，同时确保伴随的推理在语义上是有根据的，并与最终输出一致。与最近基于视觉语言模型（VLM）的裁剪方法（Lee et al. (2025)不同，这些方法仍然作为黑盒预测器运行，HumanCrop-Thinker为其决策提供了明确且可验证的理由，从而增强了其可解释性和用户信任。

在四个HCIC基准测试（GAICD-Human、FCDB-Human、FLMS-Human和CPC-Human）上进行的实验表明，HumanCrop-Thinker实现了具有竞争力的几何精度、强大的跨数据集泛化能力和可解释的推理能力，这是以前的HCIC方法所不具备的。

我们的主要贡献如下：

•
我们提出了HumanCrop-Thinker，这是一个基于推理的HCIC框架，它生成结构化且可验证的文本解释，以揭示其决策逻辑，解决了现有HCIC研究中的关键可解释性差距。这种推理机制的有效性得到了定量可解释性评估的支持，包括推理与裁剪的一致性和推理的信息量。
•
我们开发了一种可验证的优化范式，通过可解释的奖励信号确保几何正确性和以人为中心的对齐，为策略学习期间的裁剪行为提供明确控制。
•
我们展示了结合明确推理可以提高可解释性和鲁棒性，而不会牺牲几何精度。在代表性的领域内基准测试中，HumanCrop-Thinker取得了有竞争力的性能（例如，在GAICD-Human上达到0.7729的mIoU，在FCDB-Human上达到0.7502的mIoU），同时始终表现出比现有HCIC方法更强的可解释性相关指标。

本文的组织结构如下。第2节回顾了与本工作密切相关的领域，包括图像裁剪、以人为中心的场景裁剪和可验证的强化学习方法，并总结了现有方法在可解释性和推理透明度方面的不足。第3节系统介绍了提出的HumanCrop-Thinker框架，涵盖了任务定义、模型架构、两阶段可验证的优化策略和策略学习方法。第4节介绍了实验设计、评估指标、与最先进方法的比较结果、消融研究和可视化分析，全面验证了模型的有效性和可解释性。第5节总结了本研究的主要贡献，并讨论了当前方法的局限性和未来研究的潜在方向。

HumanCrop-Thinker框架

本节详细介绍了提出的HumanCrop-Thinker框架，它为HCIC引入了一种明确的推理范式。我们首先对HCIC任务进行了形式化（第3.1节），然后介绍了整体架构及其可解释的思维机制（第3.2节）。训练流程包括两个可验证的优化阶段（第3.3节和第3.4节）：基础锚定，确保几何有效性和输出格式的正确性；以及以人为中心的裁剪优化，

实验

本节对提出的HumanCrop-Thinker模型在HCIC任务上的表现进行了全面评估。我们首先介绍了实验设置，包括实现细节（第4.1节）、数据集（第4.2节）和评估指标（第4.3节）。然后，我们在领域内（第4.4节）和跨领域（第4.5节）设置中报告了与代表性基线的比较结果。随后，我们进行了消融研究（第4.6节），以分析各个组件的贡献

结论与未来工作

本文介绍了HumanCrop-Thinker，它将明确的文本推理引入HCIC。与直接输出裁剪的传统方法不同，我们的框架首先生成结构化的解释，使其决策逻辑透明且可验证。通过基于两阶段GRPO的强化学习范式和复合奖励进行优化，该模型在四个HCIC基准测试上实现了具有竞争力的准确性和跨数据集的鲁棒性。实验分析证实了几何

未引用的浮动内容

表1。

CRediT作者贡献声明

关媛：概念化、方法论、软件、写作——原始草稿。黄一波：方法论、验证、资金获取、写作——审阅与编辑。陈鹏飞：概念化、验证、资金获取、写作——审阅与编辑。李蕾达：概念化、资金获取、写作——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作