利用村庄视角图像和多模态大型语言模型提升传统调查效果：以中国农村村庄建设评估为例

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Geography》：Enhancing traditional surveys with village view imagery and multimodal large language models: Evidence from village construction assessment in rural China

【字体：大中小】 时间：2026年03月14日 来源：Applied Geography 5.4

编辑推荐：

　　基于街景影像与多模态大语言模型的农村建设自动化评估方法研究，提出整合VVI和MLLM的智能评估框架，通过设计政策导向型提示工程实现五项指标客观评估，在99个中国县域验证中显示与传统问卷高度一致性，有效降低人工调查成本并支持乡村振兴政策实施。

潘木哲|徐伟攀|赵海龙|李正|卜一婷|邓伟环|李迅

中山大学地理与规划学院，广州，510275，中国

摘要

由于农村数据资源的稀缺，目前对农村地区建成环境的评估仍然严重依赖传统的实地调查，这些调查通常成本高昂、更新缓慢且覆盖范围有限。街道视图影像和计算机视觉技术的最新进展为开发更高效的评估方法提供了新的机会。本研究提出了一个自动化图像解释框架，该框架将村庄视图影像（VVI）与多模态大语言模型（MLLM）和提示工程相结合，以客观地评估村庄建设的多个维度。我们将这一框架应用于中国99个样本县，评估了超过27,000张图像，并得出了与农村建成环境关键要素（如农村住房和道路）相关的五个指标。然后，我们将这些指标与传统的调查结果进行比较，以评估其一致性。研究结果表明：（1）总体而言，VVI和MLLM生成的评估结果与传统问卷数据高度一致，证明了该方法在农村环境中的适用性；（2）在专家知识的指导下，将政策要求和可观察特征纳入提示中可以提高评估结果的准确性；（3）结果揭示了中国不同地区村庄建设水平的显著差异，县级分析有助于识别关键缺陷，显示出强大的应用价值。在实际应用中，我们的评估框架具有低成本、高效率和用户友好性的优势，减少了传统调查中对人工现场评估的依赖。它非常适合嵌入到农村的“评估到实施”工作流程中，并可以支持国家和地方政府进行政策设计和项目规划。

引言

目前，全球超过40%的人口居住在农村地区，这使得农村的可持续性对经济发展和社会稳定至关重要（Harrington, 2016）。然而，由于长期以城市为中心的发展，农村在住房和基础设施方面落后（Y. Liu & Li, 2017; Li et al., 2019）。多个联合国可持续发展目标，包括清洁水和卫生（SDG 6）、可持续社区（SDG 11）和减贫（SDG 1），直接针对农村定居点的发展。为此，许多国家，特别是像中国这样的发展中国家，已经启动了农村振兴计划，以改善村庄建设和提高农村生活条件（Li et al., 2020; So, 2019）。在这种背景下，科学准确地评估村庄建设水平对于制定地方发展策略和指导有针对性的政策行动变得越来越重要（Cheng et al., 2025; Huang et al., 2025）。

农村地区覆盖广阔的领土，村庄分布分散，这使得数据收集成本特别高。与数据丰富的城市环境不同，农村面临严重的数据稀缺问题。因此，对村庄发展的评估仍然严重依赖传统的实地调查，这些调查耗时、昂贵且更新缓慢。这对大规模和长期监测提出了重大挑战。最近，多源大数据的兴起和技术的快速进步提供了新的解决方案。其中，街道视图影像（SVI）因其对建成环境的丰富视觉表现而受到关注（Biljecki & Ito, 2021）。在人工智能和计算机视觉的支持下，SVI已广泛应用于城市研究，并显示出进行大规模自动化农村评估的潜力（Fan et al., 2023; He & Li, 2021; Larkin et al., 2025; Liang et al., 2023）。值得注意的是，多模态大语言模型（MLLM）的出现进一步降低了图像解释的技术门槛和成本（Chang et al., 2024; Malekzadeh et al., 2025）。

然而，将现有的图像解释技术从城市环境适应到农村环境面临关键挑战。首先，农村地区的SVI覆盖范围有限，因为主要的地图服务提供商主要关注城市地区；其次，农村场景与城市环境有很大不同，难以应用为城市开发的城市模型和数据标签；第三，大多数城市SVI研究关注主观感知（如视觉吸引力、安全性），这些指标不适合评估客观的农村建成环境。这引发了一个关键问题：如何更有效地在农村环境中应用SVI和计算机视觉技术，以减少传统实地调查所需的人工和时间成本？

基于此背景，本研究开发了一个用于村庄视图影像（VVI）的众包数据收集平台，并建立了一个智能评估框架来评估村庄建设。该框架评估农村建成环境各个组成部分的建设水平。我们使用MLLM作为评估引擎，并根据政策要求和专家知识设计结构化提示，以实现各种建成环境元素的准确评估。我们将这一评估框架应用于中国99个样本县，并通过与其他独立调查的数据进行比较来验证其有效性。此外，我们还探讨了这一智能评估框架在农村规划和政策实施中的潜在实际应用。

本研究的创新和贡献主要体现在以下三个方面：（1）它提出了一个基于VVI和MLLM的智能评估框架，能够在相对较低的成本和技术门槛下客观评估农村地区的各种建成环境元素，减少了对传统实地调查中人工现场评估的依赖；（2）它引入了一种基于政策要求和专家知识的三层提示设计策略，显著提高了MLLM在农村环境中的评估性能；（3）从实际角度来看，该评估框架与相关政策要求紧密对齐，有助于识别村庄建设中的问题，并支持地方政府制定有针对性的干预措施。

章节片段

从传统调查到图像解释

由于农村数据资源的稀缺，早期研究经常依赖案例研究和小范围的实地工作来收集原始数据（Rozelle et al., 1999; Fei & Malinowski, 2013; H. L. Wong et al., 2017）。近年来，政府和第三方组织开展了大规模的农村调查，产生了包含统计数据和家庭层面信息的综合数据集（例如，中国农村振兴调查和世界银行的LSMS-ISA）。这些数据集使得

研究区域和数据获取

作为世界上最大的发展中国家，中国长期以来面临着城乡二元结构下的农村衰退问题，导致农村地区的基础设施和发展水平持续较低。为此，政府于2017年推出了农村振兴战略（RVS），并在2018年启动了全国性的农村生活环境改善运动。随着2025年第十四个五年计划的结束，迫切需要客观评估来为政策制定提供依据

MLLM评估结果的验证

在大规模应用评估框架之前，有必要检查三种类型提示生成的评分结果的特点，并确定哪种类型的提示表现更好。考虑到时间和成本限制，我们采用了在各省之间等概率的分层随机抽样方法，从99个样本县中选择了50个县作为验证集。所有三种类型的提示都被用来评估五个指标。

VVI和MLLM在客观评估中的潜力

本研究探讨了使用MLLM解释众包的VVI，并通过提示工程优化评估过程，最终实现了对村庄建设水平的客观、多维度评估。结果显示，基于图像的评估与传统问卷数据之间具有很强的整体一致性，支持了这种方法的可靠性。然而，对于两个特定指标（水环境质量和废物收集设施的建设水平），

结论

本研究基于VVI和MLLM开发了一个智能评估框架，用于评估农村建成环境，减少了对劳动密集型实地工作的依赖，并为传统实地调查提供了相对客观的补充。它通过众包实现了大规模的VVI数据收集，并利用提示工程将MLLM的评估结果与实际政策要求联系起来，从而提高了结果的可靠性。我们将这一框架应用于

CRediT作者贡献声明

潘木哲：撰写 – 审稿与编辑，撰写 – 原稿，可视化，方法论，调查，概念化。徐伟攀：方法论，数据管理，概念化。赵海龙：方法论，调查，数据管理。李正：方法论，调查。卜一婷：方法论，调查。邓伟环：撰写 – 审稿与编辑，概念化。李迅：撰写 – 审稿与编辑，监督，资金筹集。

资金支持

本研究得到了国家自然科学基金（42371206）的资助。

利益声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号