从数据不一致到可靠的可持续发展目标11.3.1监测：一项关于土地利用效率的全球多数据集评估

《Land Use Policy》：From data inconsistency to reliable SDG 11.3.1 monitoring: A global multi-dataset assessment of land use efficiency

【字体：大中小】 时间：2026年05月10日 来源：Land Use Policy 5.9

编辑推荐：

　　卢伟鹏 | 冯启豪香港理工大学土地测量与地理信息系地球观测JC STEM实验室，香港九龙红磡 **摘要** 本研究评估了土地利用效率（LUE）作为可持续发展目标（SDG）11.3.1的主要指标的可靠性，即土地消耗率与人口增长率之比。研究使用了2000至2020年间

　　卢伟鹏 | 冯启豪
香港理工大学土地测量与地理信息系地球观测JC STEM实验室，香港九龙红磡

**摘要**
本研究评估了土地利用效率（LUE）作为可持续发展目标（SDG）11.3.1的主要指标的可靠性，即土地消耗率与人口增长率之比。研究使用了2000至2020年间176个国家的六个建成区数据集和四个人口数据集。具体而言，本研究旨在回答以下问题：（1）不同建成区和人口数据集之间的LUE估计值是否一致？（2）哪些数据来源和指标导致了这种不一致性。我们通过类内相关性和Fleiss’ Kappa系数来量化一致性，并开发了一个集成LUE评分框架，该框架整合了多个数据集以系统地评估LUE的状态和趋势。分析显示，建成区数据集之间存在显著差异，尤其是这些数据集得出的土地消耗率，而人口数据集的表现则更为一致。此外，非洲和西亚地区的数据集存在较大分歧。总体而言，来自这两种类型数据集的LUE评分显示出较大的不确定性。评分结果表明，尽管约有30%的国家的LUE有所改善，但超过一半的国家在LUE状态上并未达到理想水平。这些发现表明，依赖单一数据集存在局限性，并强调了多源数据整合在监测中的重要性。综合分析进一步表明，实现SDG 11.3.1的全球进展仍存在不确定性，这不仅反映了数据集之间的不一致性，也反映了迄今为止取得的有限进展，说明在2030年前实现SDG 11.3.1仍处于挑战之中。此外，分析还揭示了一种发展依赖性的差异：在许多发展中国家，主要挑战是快速的城市扩张；而在许多发达国家，较低的LUE评分往往与持续的城市蔓延和人口减少有关。这些发现突显了为实现可持续城市化制定差异化土地利用政策的紧迫性。

**1. 引言**
作为社会经济活动的中心，城市地区在过去几十年中经历了前所未有的形态和人口变化。1985年至2015年间，全球城市建成区面积翻了一番（Liu等人，2020年），1990年至2022年间城市人口比例从43%上升至56%（世界银行）。这种爆炸性增长加剧了在土地消耗与人口动态之间实现可持续平衡的紧迫性，这是可持续发展目标（SDG）11.3的核心目标。为了监测这一目标，成立了SDG指标11.3.1——即土地消耗率与人口增长率之比（LCRPGR），作为量化土地利用效率（LUE）的关键指标（Huang等人，2024年；Zhao等人，2022年）。
原则上，LCRPGR值为1表示土地消耗与人口增长成正比，而下降的值则表明LUE有所改善（Estoque等人，2021年；Schiavina等人，2022年）。然而，尽管概念清晰，实际应用中仍面临诸多挑战，这些挑战削弱了其可靠性和可比性。我们总结了以下两个主要挑战：
**第一个挑战是数据来源的差异。**虽然地方研究可能使用一致的官方统计数据（Jiang等人，2021年；Wang等人，2025年），但全球评估必须依赖于大规模的建成区产品、网格化的人口数据集以及国际组织的报告（Gao和O’Neill，2021年；Liu等人，2020年；Melchiorri等人，2019年）。这些来源往往产生相互矛盾的估计结果，给LUE的计算带来了很大的不确定性。例如，全球建成区产品经常报告完全不同的城市土地总面积和增长率，导致计算土地消耗率时出现显著差异（Gong等人，2020年；Liu等人，2024年；Pesaresi等人，2024年；Ren等人，2025年）。
**第二个挑战是解释的差异。**这种差异源于LCRPGR在特定人口和城市扩张条件下的数学结构。在人口增长接近零或负增长的地区，或者城市扩张停滞的地区，该指标可能产生极端或反直觉的值（Zhong等人，2025年）。随着人口减少甚至去城市化的普遍化，这种解释上的模糊性进一步加剧，使得LUE的评估变得更加复杂（Dong等人，2021年；Sun等人，2023年）。
鉴于这些差异，本研究假设LUE评估对所使用数据集的选择非常敏感，从而导致报告结果的显著不一致。本研究的目标是：（1）量化不同建成区和人口数据集导致的LUE评估偏差；（2）识别导致这些不一致性的主要数据来源和指标，从而揭示全球LUE估计中的主要不确定性来源。
此外，我们还提出并实施了一种新的集成LUE评分方法，该方法整合了六个建成区数据集和四个人口数据集。与以往依赖单一人口和建成区数据源的SDG 11.3.1研究不同（Estoque等人，2021年；Schiavina等人，2022年；Zhong等人，2025年），所提出的框架根据每个数据组合与其他所有组合的一致性来确定其权重。通过这种方式，跨数据集的一致性不再是单纯的不确定性，而是用于指导整合的明确信息。因此，集成评分既反映了LUE评估的结果，也反映了支持该结果的各种数据集之间的共识程度。

**2. 数据集**
为了全面评估SDG 11.3.1的进展，本研究整合了多个独立的全球数据集，包括建成区产品、人口分布数据（见表1）和辅助行政数据。选择这些数据集是为了确保全球覆盖范围、时间连续性（2000–2020年）以及广泛的科学认可度。其中一些产品在全球城市和人口研究中被广泛使用。特别是GHSL框架在SDG 11.3.1相关研究中经常被采用（Estoque等人，2021年；Zhong等人，2025年）。此外，WorldPop和LandScan是最常用的全球网格化人口数据集之一（Jones等人，2024年；Láng-Ritter等人，2025年；Meng等人，2021年），而世界银行提供了官方的国家级人口数据源。在建成区方面，所选数据集代表了不同的传感器类型、空间分辨率和映射策略，包括基于Sentinel的10米分辨率的定居点地图（Pesaresi等人，2024年）、基于Landsat的30米分辨率的不透水面和土地覆盖产品（Gong等人，2020年；Zhang等人，2023年），以及整合了夜间照明等辅助信息的100米分辨率的定居点数据集（Liu等人，2024年）。这种多样性很重要，因为本研究的目的是评估不同但具有代表性的全球数据集如何影响SDG 11.3.1指标的估计和一致性。

**表1. 本研究使用的数据集概况。**
| 数据集 | 时间范围 | 分辨率 | 坐标系统 |
|-------------|-----------------|-----------------|-----------------|
| GHSL-S | 1975–2030 | 10米 | Mollweide |
| GURS | 2000–2020 | 100米 | Mollweide |
| GLC-FCS30D | 1985–2022 | 30米 | WGS84 |
| GISA | 1985–2021 | 30米 | WGS84 |
| GISD | 1985–2020 | 30米 | WGS84 |
| GAIA | 1985–2018 | 30米 | WGS84 |
| GHS-POP | 1975–2030 | 100米 | Mollweide |
| WorldPop | 2000–2020 | 100米 | WGS84 |
| LandScan | 2000–2020 | 1公里 | WGS84 |
| 世界银行 | 2000–2020 | 表格数据（国家级） |

**2.1. 建成区数据集**
在本研究中，我们使用了2000年、2005年、2010年、2015年和2020年的六个全球建成区/不透水面数据集。具体来说，欧洲委员会的全球人类居住层-Sentinel（GHSL-S）提供了基于Sentinel-1/2数据的10米分辨率的全球建成区信息（Pesaresi等人，2024年）。全球城市遥感（GURS）产品提供了30米分辨率的全球城市范围数据，专注于城市形态的划分（Liu等人，2024年）。全球土地覆盖-细分类系统30米数据集（GLC-FCS30D）提供了包括建成区在内的详细土地覆盖类别（30米分辨率）。在本研究中，我们特别收集了不透水面类别的数据（Zhang等人，2023年）。全球不透水面面积数据集（GISA）和30米分辨率的全球不透水面数据集（GISD30）都提供了高分辨率的不透水面地图，有助于详细评估城市扩张情况（Ren等人，2025年；Zhang等人，2022年）。最后，全球人工不透水面数据集（GAIA）是一个基于Landsat影像的年度时间序列产品，支持建成区变化的长期动态分析（Gong等人，2020年）。

**2.2. 人口数据集**
对于人口分布和动态，我们使用了2000年、2005年、2010年、2015年和2020年的四个 population 数据集。欧洲委员会的全球人类居住-人口数据集（GHS-POP）通过分解人口普查数据提供了网格化的人口估计（Pesaresi等人，2024年）。世界银行数据库提供了国家级社会经济和人口指标，广泛用于国家层面的比较和统计分析。LandScan数据集提供了环境人口分布信息，整合了人口普查数据、土地覆盖和基础设施信息，并自2000年以来由橡树岭国家实验室进行了年度更新（Lebakula等人，2025年）。最后，WorldPop项目通过机器学习利用人口普查数据和地理空间协变量生成了网格化人口数据（WorldPop，2020年）。所有这些数据集都被汇总到了国家层面（行政级别0）。

**2.3. 辅助数据**
国家边界数据来源于全球行政区域数据库（GADM，版本4.1），单位为行政级别0。由于某些国家/地区的数据缺失，为了确保分析与框架的一致性，特定单元进行了合并和简化，具体规则详见附表1。人类发展指数（2023年）和收入群体（2020年）的数据分别来自联合国开发计划署和世界银行，用于分析发展阶段与土地利用效率之间的关系。

**3. 方法**
本研究的分析框架由两个主要部分组成：单个数据集的一致性评估和集成LUE评分的计算。整体工作流程如图1所示。

**图1. 基于多个数据集的集成土地利用效率（LUE）评分框架。**该图展示了LUE评分计算的两个关键步骤：单数据集组合的LUE评估和基于一致性的整合分析。第一步，将六个建成区数据集和四个人口数据集配对生成24种数据集组合，每种组合用于计算与SDG 11.3.1相关的指标，包括人口增长率（PGR）、土地消耗率（LCR）及其比率（LCRPGR），并将每个国家的LUE状态或LUE趋势分类为二元结果（1=令人满意/改善；0=不满意/未改善）。第二步，涉及多个一致性指标，包括类内相关性、方差系数、Fleiss’ Kappa系数和F1分数，这24个二元分类结果的平均F1分数被用作LUE评分的集成权重。图中的图标由Freepik制作。

**3.1. 建成区统计**
除GHSL-S和GURS等少数采用Mollweide等面积投影的建成区数据集外，其余数据集均采用无投影的WGS84坐标参考系统（例如，使用Plate Carrée显示地图）。因此，它们的像素面积会随纬度变化而变化。因此，在国家层面汇总结果之前，需要根据公式（1）单独计算每个像素的面积。（1）s=R2?Δλ?Δ??cos?c，其中A是特定单元的面积，R是地球半径（6378137.0米），?c是该单元的中心纬度，Δλ和Δ?分别表示经度和纬度方向的像素大小，单位为弧度。该假设像素在其区域内具有均匀的分辨率，意味着经度和纬度方向的像素大小在单元内没有显著变化。我们在补充信息的第4节中加入了敏感性分析，证明无论纬度、空间分辨率或与本研究相关的斑块大小如何，累积面积的汇总结果都是稳健的。

3.2. 可持续发展目标11.3.1指标LCRPGR是可持续发展目标11.3中的一个指标，表示土地消耗率（LCR）与人口增长率（PGR）的比率（Huang等人，2024年；Wang等人，2024年）。土地消耗率和人口增长率通过以下两个公式计算：（2）LCR=logUi/(Ui+t) （3）PGR=logPi/(Pi+t）（4）LCRPGR=LCR/PGR。其中U和P分别代表统计单元中的建成区和总人口，下标表示数据年份。在本研究中，我们选择了5年（2000年、2005年、2010年、2015年、2020年）作为时间节点，时间间隔为5年、10年和20年，这些时间间隔构成了表2中的时间周期。选择这些时间间隔是基于方法论和实际考虑。首先，5年的时间间隔在相关的研究和可持续发展目标11.3.1的评估中被广泛使用，并且与许多全球建成区和人口数据集的时间结构相兼容（Karthikeya等人，2024年；Wang等人，2025年；Zhao等人，2022年）。其次，联合国最近的指南建议，10年应被视为可持续发展目标11.3.1的最低评估周期，这使得2000–2010年和2010–2020年这两个区间对于中期评估特别重要（联合国人类住区规划署，2025年）。第三，20年的时间间隔被包括进来，以捕捉从2000年到2020年整个研究期间的整体长期状况和变化。因此，5年、10年和20年的时间间隔被共同采纳为本研究的时间框架，这些时间间隔的覆盖范围也是数据集选择时的考虑标准之一。

表2. 对建成区数据集、人口数据集、人均建成区（BpC）、土地消耗率（LCR）、人口增长率（PGR）、LCR与PGR的比率（LCRPGR）以及人均建成区比率（BpCR）的类内相关性系数测试设置，这些指标在多个数据集和时间周期内进行了评估。
主体评分者时间（周期）建成区 6个建成区数据集 2000年、2005年、2010年、2015年、2020年人口 4个人口数据集 BpC 6×4个数据集组合 LCR 6个建成区数据集 2000-2020年、2000-2010年、2010-2020年、2000-2005年、2005-2010年、2010-2015年、2015-2020年 PGR 4个人口数据集 LCRPGR 6×4个数据集组合 BpC 6×4个数据集组合

人均建成区（BpC）是可持续发展目标11.3.1的一个次要指标。BpC及其变化率（BpCR）通过以下公式计算：（5）BpCi=Ui/Pi （6）BpCR=log(BpCi)/(t+BpCi)/t，其中i是数据年份，t是时间间隔。

3.3. 土地利用效率（LUE）评估
在这项研究中，我们从两个方面评估了土地利用效率（LUE）：LUE状态和LUE趋势。图2展示了基于不同变量的LUE状态和LUE趋势分类的三个规则。
下载：下载高分辨率图像（227KB）
下载：下载全尺寸图像
图2. 土地利用效率（LUE）状态和LUE趋势的分类流程。a) 基于土地消耗率与人口增长率比率（LCRPGR）的LUE状态：对于每个数据集组合和时间周期，当0
普遍认为，lcrpgr小于一表示lue状态可持续，而lcrpgr的下降表示lue有所改善（huang等人，2024年；melchiorri等人，2019年）。在本研究中，我们将lue状态定性分为两类：如果lcrpgr∈(0,1]的条件成立，则赋予其值1；否则，赋予其值0。

对于lue趋势，我们也将其分为两类。对于10年的时间间隔（2000-2010年和2010-2020年），我们将lcrpgr的下降视为土地利用效率的改进（赋值为1）。对于5年的时间间隔，我们使用线性回归验证趋势。如果回归斜率显著为负（p<0.05），则趋势被归类为1（表示显著下降趋势）。此外，我们对lcrpgr的负值进行了限制。由于lcrpgr<0表示尽管人口减少，建成区仍在继续扩张，这并不代表有效的土地利用模式，因此即使它们通过了统计显著性测试，我们也不会将此类情况归类为1。zhong等人（2025年）建议，如果bpc保持稳定或呈现缓慢上升趋势，并且其增长率远低于人口或gdp的增长率，可以视为可持续发展的信号。在本研究中，我们使用了20%的人口增长率（pgr）阈值来识别可持续性，并使用线性回归来测试bpc的趋势。

3.4. 数据集的一致性
为了从定量角度验证数据集的一致性，我们采用了基于双向随机效应模型（icc(2,1)）和双向混合效应模型（icc(3,1)）的系数方差（cvbc）和类内相关性系数（shrout和fleiss，1979年）作为一致性指标。实验按照表2中总结的设计进行，其中特定时间周期和数据集中的不同指标分别用作评分者和主体。例如，我们计算了从六个数据集中提取的建成区的icc(2,1)，并为每年获得了五个一致性值。

在定性评估中，采用了三个视角：（1）lcrpgr是否在范围（0,1）内；（2）通过lcrpgr评估的土地利用效率是否有所改善；以及（3）bpc是否展示了可持续发展的轨迹。为了评估这些二元分类之间的一致性，我们使用了fleiss的kappa值，这是衡量分类数据中评分者间可靠性的合适方法。请参考补充信息中的第2节，了解cvbc、icc(2,1)、icc(3,1)和fleiss的kappa的数学处理方法。

3.5. 集成lue得分
考虑到不同数据集在lue评估上可能存在分歧，我们认为有必要整合多个数据集来评估lue状态和lue趋势。在之前的处理中，可以基于lcrpgr和bpc得到二元分类，其中积极的结果被编码为1，消极的结果被编码为0。基于这些结果，我们提出了一种基于一致性的加权评估方法。在这里，我们以2000-2020年间lcrpgr∈(0,1]的二元分类为例进行说明。对于建成区和人口数据集的组合combi（i=1,2,...,m），我们得到了一个0-1的向量vi=vi,j∈{0,1},j=1,2,...,n，其中vi,j=1表示j单位在2000-2020年的lcrpgr值在（0,1]范围内，否则vi,j=0。因此，combi与其他组合之间的f1分数为：（7）fi,j=vivj/vi+j。combi与其他组合的平均f1分数为：（8）fi=1/m∑j=1m,j≠ifi,j。相应地，每个组合的权重w=(w1,w2,...,wm)确定如下：（9）wi=fi/∑j=1mfj。最后，单元i的加权分数si为：（10）si=wvi。这个框架产生了一个加权分数，量化了多个数据集在评估土地利用效率方面的一致性水平。接近1的值表示有强烈的共识认为效率得到了提高，而接近0的值则表明没有达成强烈共识。中间值表明数据集组合之间存在显著分歧，突显了评估高度不确定的领域。我们采用基于f1分数的集成方法，因为它明确衡量了不同数据集组合之间二元分类结果的相互一致性。与简单平均或多数投票相比，这种方法更重视表现出更强一致性的数据集对，同时抑制了可靠性较差的异常组合的影响。f1分数在精确度和召回率之间取得了平衡，提供了整体数据集一致性的有效代理。因此，这种基于可靠性的加权方法确保了最终的集成lue分数不仅反映了多个来源的共识，还反映了贡献数据集的内部可信度，从而增强了整合结果的合理性和透明度。此外，该值还反映了空间单元的lue，值越高表示效率越好。

4. 结果
4.1. 数据集的一致性
为了系统地量化数据分歧，我们首先评估了输入数据集的一致性。我们的评估从两个方面进行：首先，静态值（例如，总建成区和人口数量；表3）的一致性；其次，从静态值派生的动态比率（例如，土地消耗率lcr和人口增长率pgr；表4）的一致性。
表3. 六个建成区数据集和四个人口数据集之间的建成区（ba）、人口（pop）和人均建成区（bpc）的一致性。
年份 icc(2,1) icc(3,1) ba pop bpc
2000 0.85 10.99 8 0.49 5 0.86 10.99 8 0.61 4
2005 0.85 8 0.99 8 0.52 7 0.86 8 0.99 8 0.66
3 2010 0.86 7 0.99 8 0.55 3 0.87 7 0.99 8 0.69
5 2015 0.87 3 0.99 8 0.56 8 0.88 2 0.99 8 0.71
2 2020 0.88 10.99 8 0.59 3 0.88 9 0.99 8 0.73 4

表4. 六个建成区数据集和四个人口数据集之间的土地消耗率（lcr）、人口增长率（pgr）、lcr与pgr的比率（lcrpgr）以及人均建成区比率（bpcr）的定量一致性。
时间周期 icc(2,1) icc(3,1) lcr pgr lcrpgr bpc lcr pgr lcrpgr bpc
2000-2020 0.16 20.91 7 0.005 0.37 4 0.20 4 0.91 7 0.005 0.43 6
2000-2010 0.15 5 0.76 7 0.21 5 0.41 3 0.19 7 0.21 5 0.46 9
2010-2020 0.12 4 0.83 4 0.11 5 0.26 5 0.14 2 0.83 3 0.11 5 0.29 4
2000-2005 0.06 3 0.77 10.35 4 0.30 9 0.07 8 0.77 0.35 4 0.35 3
2005-2010 0.09 4 0.59 10.14 6 0.33 0.12 3 0.59 2 0.14 6 0.37 8
2010-2015 0.15 4 0.72 7 0.18 0.37 5 0.17 10.72 7 0.18 0.39 5
2015-2020 0.06 20.70 0.04 5 0.17 7 0.07 6 0.69 8 0.04 5

4.1. 建成区数据集
我们对六个建成区数据集的评估揭示了一个关键的分歧：国家相对排名的高一致性，但在它们的绝对面积上却存在较差的一致性。这种高的相对一致性由icc值证实，icc(2,1)的范围从0.851到0.881，icc(3,1)的范围从0.861到0.889（表3）。这表明数据源在哪些国家的建成区更大或更小方面有强烈的共识。然而，较高的icc(3,1)和较低的icc(2,1)之间的持续差距表明数据源之间存在显著的系统性偏差，这是它们绝对值不一致的直接原因。图3直观地展示了这一现象，即尽管总绝对面积波动剧烈，但各地区的建成区比例份额保持稳定。绝对值的较差一致性也通过cvbc量化。每年的平均cvbc范围从0.473到0.512，这意味着对于一个典型国家来说，六个面积估计的标准差接近平均值的50%。这一结果直接表明面积估计之间存在较大差异。这也表明依赖任何单一数据源来获取一个国家的绝对建成区是不可靠的。

下载：下载高分辨率图像（488kb）
下载：下载全尺寸图像
图3. 不同数据集估算的各地区建成区（ba）和土地消耗率（lcr）。a-f，六个数据集的总ba堆叠图；g-l，六个数据集按地区计算的lcr。

4.1.2. 人口数据集
相比之下，四个人口数据集显示出异常高的一致性（图4）。icc值在icc(2,1)和icc(3,1)方面都保持在0.998左右，表明几乎完美的一致性。这种一致性延伸到绝对值上，平均cvbc仅在这五年间介于0.035到0.037之间（负的cvbc被忽略）。这种低变异性与建成区数据中超过0.47的cvbc形成鲜明对比。因此，与建成区数据不同，人口数据集在它们的绝对数量和相对排名方面都表现出高度的可信度。

下载：下载高分辨率图像（315kb）
下载：下载全尺寸图像
图4. 不同数据集估算的各地区总人口和人口增长率（pgr）。a-d，四个数据集的总人口堆叠图。e-h，四个数据集按地区计算的pgr。

4.1.3. 土地消耗率
在检查变化率时，静态建成区数据中观察到的不一致性被严重放大。lcr在所有分析的时间间隔内表现出极低的一致性。icc值对于icc(2,1)（范围从0.062到0.162）和icc(3,1）（范围从0.076到0.204）都很低。这两个指标的统一表现不佳表明，数据集不仅在城市扩张的幅度上存在分歧，而且在哪些国家扩张最快方面也存在分歧，这表明随机误差水平很高。这种不确定性进一步通过cvbc得到证实。基于lcrpgr变化的lue趋势：对于10年时间间隔（2000-2010年和2010-2020年），lcrpgr的下降被视为改进；而对于5年的时间间隔，使用线性回归测试趋势，只有当斜率显著为负（p<0.05）时才归类为1；lcrpgr为负的情况不被视为改进，因为这通常反映了在人口下降的情况下土地持续扩张的情况。c) 基于人均建成区（bpc）的lue趋势：根据bpc是否保持稳定或仅适度增加对国家进行分类。普遍认为，lcrpgr小于一表示lue状态可持续，而lcrpgr的下降表示lue有所改善（huang等人，2024年；melchiorri等人，2019年）。在本研究中，我们将lue状态定性分为两类：如果lcrpgr∈(0,1]的条件成立，则赋予其值1；否则，赋予其值0。对于lue趋势，我们也将其分为两类。对于10年的时间间隔（2000-2010年和2010-2020年），我们将lcrpgr的下降视为土地利用效率的改进（赋值为1）。对于5年的时间间隔，我们使用线性回归验证趋势。如果回归斜率显著为负（p<0.05），则趋势被归类为1（表示显著下降趋势）。此外，我们对lcrpgr的负值进行了限制。由于lcrpgr<0表示尽管人口减少，建成区仍在继续扩张，这并不代表有效的土地利用模式，因此即使它们通过了统计显著性测试，我们也不会将此类情况归类为1。zhong等人（2025年）建议，如果bpc保持稳定或呈现缓慢上升趋势，并且其增长率远低于人口或gdp的增长率，可以视为可持续发展的信号。在本研究中，我们使用了20%的人口增长率（pgr）阈值来识别可持续性，并使用线性回归来测试bpc的趋势。 3.4. 数据集的一致性为了从定量角度验证数据集的一致性，我们采用了基于双向随机效应模型（icc(2,1)）和双向混合效应模型（icc(3,1)）的系数方差（cvbc）和类内相关性系数（shrout和fleiss，1979年）作为一致性指标。实验按照表2中总结的设计进行，其中特定时间周期和数据集中的不同指标分别用作评分者和主体。例如，我们计算了从六个数据集中提取的建成区的icc(2,1)，并为每年获得了五个一致性值。在定性评估中，采用了三个视角：（1）lcrpgr是否在范围（0,1）内；（2）通过lcrpgr评估的土地利用效率是否有所改善；以及（3）bpc是否展示了可持续发展的轨迹。为了评估这些二元分类之间的一致性，我们使用了fleiss的kappa值，这是衡量分类数据中评分者间可靠性的合适方法。请参考补充信息中的第2节，了解cvbc、icc(2,1)、icc(3,1)和fleiss的kappa的数学处理方法。 3.5. 集成lue得分考虑到不同数据集在lue评估上可能存在分歧，我们认为有必要整合多个数据集来评估lue状态和lue趋势。在之前的处理中，可以基于lcrpgr和bpc得到二元分类，其中积极的结果被编码为1，消极的结果被编码为0。基于这些结果，我们提出了一种基于一致性的加权评估方法。在这里，我们以2000-2020年间lcrpgr∈(0,1]的二元分类为例进行说明。对于建成区和人口数据集的组合combi（i=1,2,...,m），我们得到了一个0-1的向量vi=vi,j∈{0,1},j=1,2,...,n，其中vi,j=1表示j单位在2000-2020年的LCRPGR值在（0,1]范围内，否则vi,j=0。因此，Combi与其他组合之间的F1分数为：（7）Fi,j=vivj/vi+j。Combi与其他组合的平均F1分数为：（8）Fi=1/m∑j=1m,j≠iFi,j。相应地，每个组合的权重w=(w1,w2,...,wm)确定如下：（9）wi=Fi/∑j=1mFj。最后，单元i的加权分数si为：（10）si=wvi。这个框架产生了一个加权分数，量化了多个数据集在评估土地利用效率方面的一致性水平。接近1的值表示有强烈的共识认为效率得到了提高，而接近0的值则表明没有达成强烈共识。中间值表明数据集组合之间存在显著分歧，突显了评估高度不确定的领域。我们采用基于F1分数的集成方法，因为它明确衡量了不同数据集组合之间二元分类结果的相互一致性。与简单平均或多数投票相比，这种方法更重视表现出更强一致性的数据集对，同时抑制了可靠性较差的异常组合的影响。F1分数在精确度和召回率之间取得了平衡，提供了整体数据集一致性的有效代理。因此，这种基于可靠性的加权方法确保了最终的集成LUE分数不仅反映了多个来源的共识，还反映了贡献数据集的内部可信度，从而增强了整合结果的合理性和透明度。此外，该值还反映了空间单元的LUE，值越高表示效率越好。 4. 结果 4.1. 数据集的一致性为了系统地量化数据分歧，我们首先评估了输入数据集的一致性。我们的评估从两个方面进行：首先，静态值（例如，总建成区和人口数量；表3）的一致性；其次，从静态值派生的动态比率（例如，土地消耗率lcr和人口增长率pgr；表4）的一致性。表3. 六个建成区数据集和四个人口数据集之间的建成区（ba）、人口（pop）和人均建成区（bpc）的一致性。年份 icc(2,1) icc(3,1) ba pop bpc 2000 0.85 10.99 8 0.49 5 0.86 10.99 8 0.61 4 2005 0.85 8 0.99 8 0.52 7 0.86 8 0.99 8 0.66 3 2010 0.86 7 0.99 8 0.55 3 0.87 7 0.99 8 0.69 5 2015 0.87 3 0.99 8 0.56 8 0.88 2 0.99 8 0.71 2 2020 0.88 10.99 8 0.59 3 0.88 9 0.99 8 0.73 4 表4. 六个建成区数据集和四个人口数据集之间的土地消耗率（lcr）、人口增长率（pgr）、lcr与pgr的比率（lcrpgr）以及人均建成区比率（bpcr）的定量一致性。时间周期 icc(2,1) icc(3,1) lcr pgr lcrpgr bpc lcr pgr lcrpgr bpc 2000-2020 0.16 20.91 7 0.005 0.37 4 0.20 4 0.91 7 0.005 0.43 6 2000-2010 0.15 5 0.76 7 0.21 5 0.41 3 0.19 7 0.21 5 0.46 9 2010-2020 0.12 4 0.83 4 0.11 5 0.26 5 0.14 2 0.83 3 0.11 5 0.29 4 2000-2005 0.06 3 0.77 10.35 4 0.30 9 0.07 8 0.77 0.35 4 0.35 3 2005-2010 0.09 4 0.59 10.14 6 0.33 0.12 3 0.59 2 0.14 6 0.37 8 2010-2015 0.15 4 0.72 7 0.18 0.37 5 0.17 10.72 7 0.18 0.39 5 2015-2020 0.06 20.70 0.04 5 0.17 7 0.07 6 0.69 8 0.04 5 4.1. 建成区数据集我们对六个建成区数据集的评估揭示了一个关键的分歧：国家相对排名的高一致性，但在它们的绝对面积上却存在较差的一致性。这种高的相对一致性由icc值证实，icc(2,1)的范围从0.851到0.881，icc(3,1)的范围从0.861到0.889（表3）。这表明数据源在哪些国家的建成区更大或更小方面有强烈的共识。然而，较高的icc(3,1)和较低的icc(2,1)之间的持续差距表明数据源之间存在显著的系统性偏差，这是它们绝对值不一致的直接原因。图3直观地展示了这一现象，即尽管总绝对面积波动剧烈，但各地区的建成区比例份额保持稳定。绝对值的较差一致性也通过cvbc量化。每年的平均cvbc范围从0.473到0.512，这意味着对于一个典型国家来说，六个面积估计的标准差接近平均值的50%。这一结果直接表明面积估计之间存在较大差异。这也表明依赖任何单一数据源来获取一个国家的绝对建成区是不可靠的。下载：下载高分辨率图像（488kb）下载：下载全尺寸图像图3. 不同数据集估算的各地区建成区（ba）和土地消耗率（lcr）。a-f，六个数据集的总ba堆叠图；g-l，六个数据集按地区计算的lcr。 4.1.2. 人口数据集相比之下，四个人口数据集显示出异常高的一致性（图4）。icc值在icc(2,1)和icc(3,1)方面都保持在0.998左右，表明几乎完美的一致性。这种一致性延伸到绝对值上，平均cvbc仅在这五年间介于0.035到0.037之间（负的cvbc被忽略）。这种低变异性与建成区数据中超过0.47的cvbc形成鲜明对比。因此，与建成区数据不同，人口数据集在它们的绝对数量和相对排名方面都表现出高度的可信度。下载：下载高分辨率图像（315kb）下载：下载全尺寸图像图4. 不同数据集估算的各地区总人口和人口增长率（pgr）。a-d，四个数据集的总人口堆叠图。e-h，四个数据集按地区计算的pgr。 4.1.3. 土地消耗率>
普遍认为，lcrpgr小于一表示lue状态可持续，而lcrpgr的下降表示lue有所改善（huang等人，2024年；melchiorri等人，2019年）。在本研究中，我们将lue状态定性分为两类：如果lcrpgr∈(0,1]的条件成立，则赋予其值1；否则，赋予其值0。

对于lue趋势，我们也将其分为两类。对于10年的时间间隔（2000-2010年和2010-2020年），我们将lcrpgr的下降视为土地利用效率的改进（赋值为1）。对于5年的时间间隔，我们使用线性回归验证趋势。如果回归斜率显著为负（p<0.05），则趋势被归类为1（表示显著下降趋势）。此外，我们对lcrpgr的负值进行了限制。由于lcrpgr<0表示尽管人口减少，建成区仍在继续扩张，这并不代表有效的土地利用模式，因此即使它们通过了统计显著性测试，我们也不会将此类情况归类为1。zhong等人（2025年）建议，如果bpc保持稳定或呈现缓慢上升趋势，并且其增长率远低于人口或gdp的增长率，可以视为可持续发展的信号。在本研究中，我们使用了20%的人口增长率（pgr）阈值来识别可持续性，并使用线性回归来测试bpc的趋势。

3.4. 数据集的一致性
为了从定量角度验证数据集的一致性，我们采用了基于双向随机效应模型（icc(2,1)）和双向混合效应模型（icc(3,1)）的系数方差（cvbc）和类内相关性系数（shrout和fleiss，1979年）作为一致性指标。实验按照表2中总结的设计进行，其中特定时间周期和数据集中的不同指标分别用作评分者和主体。例如，我们计算了从六个数据集中提取的建成区的icc(2,1)，并为每年获得了五个一致性值。

在定性评估中，采用了三个视角：（1）lcrpgr是否在范围（0,1）内；（2）通过lcrpgr评估的土地利用效率是否有所改善；以及（3）bpc是否展示了可持续发展的轨迹。为了评估这些二元分类之间的一致性，我们使用了fleiss的kappa值，这是衡量分类数据中评分者间可靠性的合适方法。请参考补充信息中的第2节，了解cvbc、icc(2,1)、icc(3,1)和fleiss的kappa的数学处理方法。

3.5. 集成lue得分
考虑到不同数据集在lue评估上可能存在分歧，我们认为有必要整合多个数据集来评估lue状态和lue趋势。在之前的处理中，可以基于lcrpgr和bpc得到二元分类，其中积极的结果被编码为1，消极的结果被编码为0。基于这些结果，我们提出了一种基于一致性的加权评估方法。在这里，我们以2000-2020年间lcrpgr∈(0,1]的二元分类为例进行说明。对于建成区和人口数据集的组合combi（i=1,2,...,m），我们得到了一个0-1的向量vi=vi,j∈{0,1},j=1,2,...,n，其中vi,j=1表示j单位在2000-2020年的lcrpgr值在（0,1]范围内，否则vi,j=0。因此，combi与其他组合之间的f1分数为：（7）fi,j=vivj/vi+j。combi与其他组合的平均f1分数为：（8）fi=1/m∑j=1m,j≠ifi,j。相应地，每个组合的权重w=(w1,w2,...,wm)确定如下：（9）wi=fi/∑j=1mfj。最后，单元i的加权分数si为：（10）si=wvi。这个框架产生了一个加权分数，量化了多个数据集在评估土地利用效率方面的一致性水平。接近1的值表示有强烈的共识认为效率得到了提高，而接近0的值则表明没有达成强烈共识。中间值表明数据集组合之间存在显著分歧，突显了评估高度不确定的领域。我们采用基于f1分数的集成方法，因为它明确衡量了不同数据集组合之间二元分类结果的相互一致性。与简单平均或多数投票相比，这种方法更重视表现出更强一致性的数据集对，同时抑制了可靠性较差的异常组合的影响。f1分数在精确度和召回率之间取得了平衡，提供了整体数据集一致性的有效代理。因此，这种基于可靠性的加权方法确保了最终的集成lue分数不仅反映了多个来源的共识，还反映了贡献数据集的内部可信度，从而增强了整合结果的合理性和透明度。此外，该值还反映了空间单元的lue，值越高表示效率越好。

4. 结果
4.1. 数据集的一致性
为了系统地量化数据分歧，我们首先评估了输入数据集的一致性。我们的评估从两个方面进行：首先，静态值（例如，总建成区和人口数量；表3）的一致性；其次，从静态值派生的动态比率（例如，土地消耗率lcr和人口增长率pgr；表4）的一致性。
表3. 六个建成区数据集和四个人口数据集之间的建成区（ba）、人口（pop）和人均建成区（bpc）的一致性。
年份 icc(2,1) icc(3,1) ba pop bpc
2000 0.85 10.99 8 0.49 5 0.86 10.99 8 0.61 4
2005 0.85 8 0.99 8 0.52 7 0.86 8 0.99 8 0.66
3 2010 0.86 7 0.99 8 0.55 3 0.87 7 0.99 8 0.69
5 2015 0.87 3 0.99 8 0.56 8 0.88 2 0.99 8 0.71
2 2020 0.88 10.99 8 0.59 3 0.88 9 0.99 8 0.73 4

表4. 六个建成区数据集和四个人口数据集之间的土地消耗率（lcr）、人口增长率（pgr）、lcr与pgr的比率（lcrpgr）以及人均建成区比率（bpcr）的定量一致性。
时间周期 icc(2,1) icc(3,1) lcr pgr lcrpgr bpc lcr pgr lcrpgr bpc
2000-2020 0.16 20.91 7 0.005 0.37 4 0.20 4 0.91 7 0.005 0.43 6
2000-2010 0.15 5 0.76 7 0.21 5 0.41 3 0.19 7 0.21 5 0.46 9
2010-2020 0.12 4 0.83 4 0.11 5 0.26 5 0.14 2 0.83 3 0.11 5 0.29 4
2000-2005 0.06 3 0.77 10.35 4 0.30 9 0.07 8 0.77 0.35 4 0.35 3
2005-2010 0.09 4 0.59 10.14 6 0.33 0.12 3 0.59 2 0.14 6 0.37 8
2010-2015 0.15 4 0.72 7 0.18 0.37 5 0.17 10.72 7 0.18 0.39 5
2015-2020 0.06 20.70 0.04 5 0.17 7 0.07 6 0.69 8 0.04 5

4.1. 建成区数据集
我们对六个建成区数据集的评估揭示了一个关键的分歧：国家相对排名的高一致性，但在它们的绝对面积上却存在较差的一致性。这种高的相对一致性由icc值证实，icc(2,1)的范围从0.851到0.881，icc(3,1)的范围从0.861到0.889（表3）。这表明数据源在哪些国家的建成区更大或更小方面有强烈的共识。然而，较高的icc(3,1)和较低的icc(2,1)之间的持续差距表明数据源之间存在显著的系统性偏差，这是它们绝对值不一致的直接原因。图3直观地展示了这一现象，即尽管总绝对面积波动剧烈，但各地区的建成区比例份额保持稳定。绝对值的较差一致性也通过cvbc量化。每年的平均cvbc范围从0.473到0.512，这意味着对于一个典型国家来说，六个面积估计的标准差接近平均值的50%。这一结果直接表明面积估计之间存在较大差异。这也表明依赖任何单一数据源来获取一个国家的绝对建成区是不可靠的。

下载：下载高分辨率图像（488kb）
下载：下载全尺寸图像
图3. 不同数据集估算的各地区建成区（ba）和土地消耗率（lcr）。a-f，六个数据集的总ba堆叠图；g-l，六个数据集按地区计算的lcr。

4.1.2. 人口数据集
相比之下，四个人口数据集显示出异常高的一致性（图4）。icc值在icc(2,1)和icc(3,1)方面都保持在0.998左右，表明几乎完美的一致性。这种一致性延伸到绝对值上，平均cvbc仅在这五年间介于0.035到0.037之间（负的cvbc被忽略）。这种低变异性与建成区数据中超过0.47的cvbc形成鲜明对比。因此，与建成区数据不同，人口数据集在它们的绝对数量和相对排名方面都表现出高度的可信度。

下载：下载高分辨率图像（315kb）
下载：下载全尺寸图像
图4. 不同数据集估算的各地区总人口和人口增长率（pgr）。a-d，四个数据集的总人口堆叠图。e-h，四个数据集按地区计算的pgr。

4.1.3. 土地消耗率
在检查变化率时，静态建成区数据中观察到的不一致性被严重放大。lcr在所有分析的时间间隔内表现出极低的一致性。icc值对于icc(2,1)（范围从0.062到0.162）和icc(3,1）（范围从0.076到0.204）都很低。这两个指标的统一表现不佳表明，数据集不仅在城市扩张的幅度上存在分歧，而且在哪些国家扩张最快方面也存在分歧，这表明随机误差水平很高。这种不确定性进一步通过cvbc得到证实。>在2000年至2020年期间，有42.6%的国家的土地消耗率与人口增长率的变异系数（CVbC）大于0.50，12.5%的国家的CVbC大于0.75（见图5a）。这种LCR估计值的显著差异是全球土地利用效率（LUE）评估不确定性的主要因素。下载：下载高分辨率图片（768KB）下载：下载全尺寸图片

图5. 2000–2020年间各国基于变异系数（CVbC）的指标一致性。a，六个建成区数据集的土地消耗率CVbC；b，四个人口数据集的人口增长率CVbC。饼图显示了各地区的CVbC比例，每张地图底部的条形图显示了全球范围内的CVbC比例。请注意，不同地图的分类方案和数值范围有所不同，地图中的“NA”表示CVbC为负值。

相反，人口增长率（PGR）的一致性更好。ICC(2,1)值介于0.591到0.917之间，表明一致性为中等到高。ICC(3,1)值在每个对应时期内几乎与ICC(2,1)值相同。这种近乎完美的平等性证明了数据集之间的增长率没有系统性偏差。CVbC分析也支持了这一发现：在2000年至2020年期间，大约三分之二国家的CVbC介于0到0.2之间，表明数据集之间对人口变化的估计是稳定和可靠的（见图5b）。

总体而言，我们的分析揭示了建成区数据集与人口数据集之间在可靠性方面的明显对比。建成区数据集面临双重挑战：其静态值受到显著的系统偏差影响（影响绝对数量但不影响排名），而LCR则受到高随机误差的影响，使其在绝对和相对意义上都不可靠。相比之下，人口数据集在静态值和变化率方面显示出近乎完全的一致性。这表明人口数据为跨国比较提供了更可靠的依据。相反，对建成区数据集的分析表明，任何关于城市面积或扩张率的分析都必须极其谨慎地进行。

4.2. 千年发展目标11.3.1指标的一致性
基于上述内容，我们评估了来自不同建成区和人口数据集组合的LCRPGR（土地消耗率与人口增长率的比率）的一致性。为了全面评估这一点，我们从两个角度评估了所有24种数据集组合得出的LCRPGR值的一致性：它们的定量一致性（数值本身）和定性一致性（LUE状态和趋势的分类结果）。

4.2.1 定量评估
LCRPGR的定量一致性非常差。在所有七个时间段内，ICC(2,1)和ICC(3,1)的LCRPGR值范围从0.005到0.354（表4）。这种接近零的一致性表明数据集之间的显著分歧几乎完全是由高水平的随机偏差引起的。CVbC进一步强调了这一点：在2000–2020年期间，44.3%的国家的CVbC值大于0.5（见图6），表明计算出的值存在巨大差异。

我们还观察到了这种不一致性中的时间模式。较短的时间间隔具有更好的一致性，而随着时间间隔的延长，一致性迅速下降。值得注意的是，第一个十年（2000–2010年）的一致性高于第二个十年（2010–2020年）。一个可能的解释是建成区产品的生成逻辑：大多数假设从透水性覆盖转变为不透水性覆盖的过程是不可逆的。违反这一规则的像素逐年被校正，这种累积调整可能会随着时间的推移放大差异（Zhang等人，2022年）。

4.2.2 LUE状态的定性评估
我们使用Fleiss’ Kappa来衡量二元分类结果（即LCRPGR是否在0–1范围内）的一致性。在七个时间段内，Fleiss’ Kappa的值范围从0.301到0.385（表5）。这种低水平的一致性意味着依赖单一数据集组合来评估SDG11.3.1可能会导致关于一个国家表现好坏的相互矛盾的判断。

4.3. 2000–2020年的LUE得分
鉴于数据集之间的巨大差异，我们认为使用单一数据集对SDG 11.3.1的进展进行评估是不可靠的。为了整合多个数据集，我们为每个国家构建了LUE得分，定义为二元分类结果的加权平均值（0=差，1=好）。权重来源于数据集组合的F1分数（见补充图1和2）。重要的是，这个得分不仅衡量了LUE状态或趋势的水平，还反映了不同数据集之间的一致性程度。较高的得分反映了更强的土地利用效率状态或趋势。具体来说，它表明大多数数据集组合一致认为一个国家达到了良好的LUE状态（或趋势）。同时，较低的得分表明大多数组合不支持良好的LUE状态或趋势。详细程序见方法部分。接下来，我们基于结合了六个建成区数据和四个人口数据的LUE得分，报告了各国在SDG11.3.1方面的国家级进展，重点关注（1）2000年至2020年的LUE状态和（2）2000–2010年与2010–2020年期间的国家LUE趋势。

4.3.1 LUE状态（2000–2020年）
如图7a所示，51.1%的国家的得分低于0.2，表明大多数数据集组合认为超过一半的国家未能达到良好的LUE状态。只有7.3%的国家的得分高于0.8，被广泛认为是达到了良好的LUE状态。同时，15.7%的国家的得分落在0.4–0.6区间内，显示出显著的分歧。在这些情况下，一个国家是否被认为达到了良好的LUE在很大程度上取决于所使用的数据集。地区模式以不同的方式反映了这些结果。在北美和欧洲，缺乏认可的情况普遍存在，82.2%的国家的得分低于0.2，只有2.9%的得分高于0.8；拉丁美洲的情况类似，63.6%的国家的LUE状态被评为较差，一小部分（9.1%）被评为良好，18.2%的国家得分在分歧区间内。亚太地区的结果更为复杂：52.6%的国家的LUE状态未被认可，15.8%的国家的LUE状态被评为良好，18.2%的国家得分在分歧区间内。中亚和南亚也倾向于不认可（46.2%），只有7.7%的国家被评为良好，但15.4%的国家得分在0.4–0.6区间内，表明数据集之间存在较大差异。北非和西亚的情况则呈两极分化：37.5%的国家未被认可，29.2%的国家被认可，16.7%的国家得分在分歧区间内。

图7. 基于六个建成区数据和四个人口数据的LUE得分的全球土地利用效率（LUE）地图。a，2000–2020年间土地消耗率与人口增长率比率的LUE得分（LCRPGR）。b，2000–2010年和2010–2020年间LCRPGR的LUE趋势得分。饼图显示了各地区的LUE得分比例，每张地图底部的条形图显示了全球范围内的LUE得分比例。较高的得分表示更好的LUE状态或趋势，而接近0或1的得分表示数据集组合之间的一致性更好。

4.3.2 LUE趋势（2000–2010年对比2010–2020年）
图7b通过检查LUE是否随时间改善提供了更动态的视角。与绝对状态相比，趋势分析呈现出了稍微乐观的结果：只有25.8%的国家的得分低于0.2，而30.4%的国家的得分高于0.6，12.4%的国家的得分高于0.8。这些分数意味着在21世纪的前二十年里，大多数数据集组合支持LUE的改善。同时，20.2%的国家的得分落在0.4–0.6区间内，表明数据集在LUE改善方面存在显著分歧。从地区来看，拉丁美洲的表现相对较好，48.5%的国家的得分高于0.6，因此被广泛认为是有所改善的，另有18.2%的国家得分在分歧区间内。撒哈拉以南非洲的情况则较为复杂：22.7%的国家的LUE状态被一致认为是改善的，但29.5%的国家得分在0.4和0.6之间，表明许多评估结果仍不确定。欧洲（包括北美）的主要问题是缺乏认可，46.7%的国家的LUE状态未被认可，只有17.8%的国家被认为有所改善，另有13.3%的国家得分在分歧区间内。亚太地区也高度多样化：26.3%的国家的LUE状态未被认可，15.8%的国家被认可，16.7%的国家得分在分歧区间内。中亚和南亚也倾向于不认可（46.2%），只有7.7%的国家被认可，但15.4%的国家得分在0.4–0.6区间内，表明数据集之间存在较大差异。该指标提供了人口动态与空间扩张之间的理论联系，反映了城市增长在适应人口增长方面的效率（Estoque等人，2021年；Melchiorri等人，2019年）。紧凑且管理良好的发展被认为可以通过密集化和减少城市扩张来提高土地使用效率，这与集聚经济和可持续城市形态理论是一致的（Yao等人，2022年）。然而，LUE指标的实际评估在不同情境下有所不同，新兴研究强调了其对数据精度和定义边界的敏感性（Wang等人，2024年；Wang等人，2025年）。总的来说，这些理论和方法上的进展使LUE成为可持续发展目标11议程中的核心指标，将定量观测与规范的城市可持续性理论联系起来。在讨论中，我们首先探讨了数据集一致性的空间异质性原因，然后讨论了限制LCRPGR作为LUE评估指标可靠性的不稳定性。随后，我们指出许多欧洲和美国国家的LUE表现不佳，这可能表明发展水平与LUE之间存在关联。

5.1 数据集一致性的空间异质性原因
我们的研究结果表明，数据集的一致性在不同地区存在显著差异，其中撒哈拉以南非洲和西亚地区的不一致性最高（图5和图7）。这些差异主要归因于全球地球观测产品固有的两个因素：样本分布偏差和景观异质性。首先，撒哈拉以南非洲的高不一致性突显了机器学习模型中样本分布偏差的挑战。大多数全球建成区数据集依赖于来自OpenStreetMap和Amap（在中国称为高德地图）或商业建筑轮廓等来源的训练样本。然而，这些参考数据集在全球北方的密度和准确性明显高于全球南方。正如GURS（Liu等人，2024年）和GHSL（Pesaresi等人，2024年）所指出的，模型通常是基于高收入国家的特征进行训练的。因此，它们在撒哈拉以南非洲的表现往往较差，因为该地区的居住形态（例如非正式定居点、分散的村庄）和建筑材料（例如茅草、泥土）与训练数据有很大不同。缺乏针对这些特定居住类型的代表性训练样本导致不同算法对建成区的解释出现分歧。其次，西亚观察到的两极分化反映了在干旱和半干旱地区绘制不透水面（例如混凝土、石头）的难度。在这些环境中，不透水面的光谱特征往往与周围的裸土和沙子难以区分。与欧洲或北美不同，那里的植被为建成区提供了明显的对比，而西亚缺乏光谱对比性，从而导致更高的混淆率。对GAIA（Gong等人，2020年）和GISA（Ren等人，2025年）等数据集的研究表明，传统光谱指数在干旱地区往往难以区分居住区和裸地，从而导致不同程度的气质误差和遗漏误差，这取决于每个产品使用的具体掩蔽策略（例如使用夜间光照数据或SAR）。此外，这些数据不一致不仅源于技术限制，还反映了定义城市空间时的深刻本体论和认识论模糊性。在地理学和城市研究中，城乡之间的界限并不是一条清晰的界限，而是一个连续的谱系。不同的地球观测产品隐含着对“城市居住区”不同理论定义的采纳。这种内在的模糊性呼应了可修改区域单位问题（MAUP）和空间分析中的尺度依赖性（Goodchild，2011年；Goodchild和Mark，1987年），提醒我们，全球可持续发展目标的监测不仅仅是一个计算挑战，也是一个关于我们如何概念化人类居住区的理论挑战。

5.2 LCRPGR的不稳定性和BpCR的可行性
LUE评估的不确定性不仅来自数据集之间的差异，还来自LCRPGR指标本身的数学不稳定性。该指标作为比率的形式使其对分母（例如PGR）极为敏感。当PGR接近零时，比率可能会被夸大到不现实的极端值。例如，在2015-2020年期间（GHS数据集），捷克的LCR为0.012（在176个国家中排名第112位），而PGR为0.0001（1.28e-3，排名第150位），但它们的LCRPGR却高达88.799，是该时期所有国家中最高的。为了找出这种波动的来源，我们的控制实验得出了一个关键但反直觉的发现（表6）。当建成区数据集固定（GHSL-S）而替换不同的人口数据集时，七个时间间隔内的ICC(2,1)非常弱（-0.221–0.277）。相反，当人口数据集固定（GHS-POP）并测试其他建成区数据集时，一致性显著提高（0.394–0.804）。这表明，尽管人口数据几乎一致，但它成为了最终LCRPGR计算中不稳定的主要驱动因素。图8a提供了一个更直观的结果，显示PGR和LCRPGR分别集中在0–0.02和0–1.5的范围内。然而，当PGR接近零时，即使人口数据的最小波动也会被放大成不成比例的比率变化。这些发现表明，尽管人口数据集总体上是一致的，但LCRPGR指标仍然对其高度敏感，尤其是在人口增长接近零的情况下。

5.3 LCRPGR的不稳定性和BpCR的可行性
不确定性的原因不仅在于数据集之间的差异，还在于LCRPGR指标本身的数学不稳定性。该指标以比率的形式表示，使其对分母（例如PGR）极为敏感。当PGR接近零时，比率可能会被夸大到不现实的极端值。例如，在2015–2020年期间（GHS数据集），捷克的LCR为0.012（在176个国家中排名第112位），而PGR为0.0001（1.28e-3，排名第150位），但其LCRPGR却高达88.799，是该时期所有国家中最高的。为了隔离这种波动的来源，我们的控制实验得出了一个关键但反直觉的发现（表6）。当建成区数据集固定（GHSL-S）而替换不同的人口数据集时，七个时间间隔内的ICC(2,1)非常弱（-0.221–0.277）。相反，当人口数据集固定（GHS-POP）并测试其他建成区数据集时，一致性显著提高（0.394–0.804）。这表明，尽管人口数据几乎一致，但它成为最终LCRPGR计算中不稳定的主要因素。图8a更直观地显示，PGR和LCRPGR分别集中在0–0.02和0–1.5的范围内。然而，当PGR接近零时，即使是非常微小的人口数据波动也会被放大成不成比例的比率变化。

此外，这些数据不一致性不仅源于技术限制，还反映了定义城市空间的深刻本体论和认识论模糊性。在地理学和城市研究中，城乡之间的界限不是一条清晰的线，而是一个连续的谱系。不同的地球观测产品隐含着对“城市居住区”不同理论定义的采纳。这种内在的模糊性呼应了可修改区域单位问题（MAUP）和空间分析中的尺度依赖性（Goodchild，2011年；Goodchild和Mark，1987年），提醒我们，全球可持续发展目标监测不仅仅是一个计算挑战，也是一个关于我们如何概念化人类居住区的理论挑战。

5.3.2 LCRPGR的不稳定性和BpCR的可行性
LUE评估的不确定性不仅源于数据集之间的差异，还源于LCRPGR指标本身的数学不稳定性。该指标作为比率的形式使其对分母（例如PGR）极为敏感。当PGR接近零时，比率可能会被夸大到不现实的极端值。例如，在2015–2020年期间（GHS数据集），捷克的LCR为0.012（在176个国家中排名第112位），而PGR为0.0001（1.28e-3，排名第150位），但其LCRPGR却高达88.799，是该时期所有国家中最高的。为了找出这种波动的来源，我们的控制实验得出了一个关键但反直觉的发现（表6）。当建成区数据集固定（GHSL-S）而替换不同的人口数据集时，七个时间间隔内的ICC(2,1)非常弱（-0.221–0.277）。相反，当人口数据集固定（GHS-POP）并测试其他建成区数据集时，一致性显著提高（0.394–0.804）。这表明，尽管人口数据几乎一致，但它成为最终LCRPGR计算中不稳定的主要驱动因素。图8a提供了更直观的说明结果，显示PGR和LCRPGR分别集中在0–0.02和0–1.5的范围内。然而，当PGR接近零时，即使是最微小的人口数据波动也会被放大成不成比例的比率变化。这些发现表明，尽管人口数据集通常是一致的，但LCRPGR指标仍然对其高度敏感，尤其是在人口增长接近零的情况下。

5.3.3 发展水平对LCRPGR评分的影响
图10显示了根据人类发展指数（HDI，数据来自联合国开发计划署，2023年）和收入群体（数据来自世界银行，2020年）分组的LCRPGR评分分布。具体来说，高HDI和收入水平的国家在基于LCRPGR的LUE状态和基于BpC的LUE趋势方面的评分普遍较低。这表明，在当前框架和选定的数据集下，许多高度发达的国家经常出现土地消费与人口变化之间的不平衡。图8b和c对此模式提供了可能的解释。在低HDI国家（L组和M组），主要挑战在于相对快速的人口增长而言，土地消费不成比例，反映了城市扩张的低效模式。相比之下，在高HDI国家（H组和VH组），较低的LCR评分通常与持续的土地扩张和人口停滞或减少并存。在这种情况下，LCRPGR的符号并不能提供评估土地使用效率的一致或可靠依据。

5.3.3 发展水平对LCRPGR评分的影响
图10显示了根据人类发展指数（HDI，数据来自联合国开发计划署，2023年）和收入群体（数据来自世界银行，2020年）分组的LCRPGR评分分布。具体来说，高HDI和收入水平的国家在基于LCRPGR的LUE状态和基于BpC的LUE趋势方面的评分普遍较低。这表明，在当前框架和选定的数据集下，许多高度发达的国家经常出现土地消费与人口变化之间的不平衡。图8b和c提供了对此模式的可能解释。在低HDI国家（L组和M组），主要挑战在于相对于快速的人口增长而言，土地消费不成比例，反映了城市扩张的低效模式。相比之下，在高HDI国家（H组和VH组），较低的LCR评分通常与持续的土地扩张和人口停滞或减少并存。在这种情况下，LCRPGR的符号并不能提供评估土地使用效率的一致或可靠依据。

最近，人均建成区面积（BpC）作为可持续发展目标11.3的次要指标受到了关注（Van Vliet等人，2024年；Zhong等人，2025年）。与LCRPGR不同，BpC表示为两个大状态值（总建成区和总人口）的比率，这防止了由于接近零的分母导致的极端波动。这使得BpC的ICC(2,1)值在24种数据集组合中的范围为0.495至0.593，ICC(3,1)值在0.614至0.734之间，显示出相对较好的一致性。此外，我们的控制实验表明，BpC对土地和人口输入的敏感性较为平衡，这意味着它不会不成比例地放大任何一个来源的噪声（表7）。从2000年至2020年BpC的LUE趋势来看，Fleiss’ Kappa系数在24种组合中的值为0.199，这表明其稳定性高于每五年间隔评估的LCRPGR。

5.3.3 发展水平对LCRPGR评分的影响
基于建成区面积（GHSL-S）或人口数据集（GHS-POP）分组的年均建成区面积（BpC）的一致性评估（ICC(2,1)）。年份：建成区面积：人口：2000：0.986；2005：0.983；2010：0.983；2015：0.990；2020：0.990。根据一致性（补充图3），我们将我们的集成评分方法应用于其趋势（图9）。全球有47.7%的国家的评分≤0.2，这意味着近一半的国家在不同的数据集中一致认为没有明显的LUE改善。相比之下，评分高于0.6的国家不超过10%，其中大多数数据集组合一致认为有所改善。从空间分布的角度来看，亚太地区的只有少数国家的评分高于0.8，而拉丁美洲和非洲的国家则表现出异质的结果。其余国家，如北美和欧洲，大多位于0–0.4的范围内。特别是，77.3%的国家的LUE趋势评分在0到0.2之间，表明大多数数据集组合一致认为这些国家在LUE方面没有改善。

5.3.3 发展水平对LCRPGR评分的影响
从可持续性科学中的解耦理论角度来看，可持续城市形态的最终目标是将人类活动与自然资源消耗解耦（Haberl等人，2020年；Newman，2006年；Programme and Panel，无日期）。我们的多数据集评估提供了实证证据，表明全球范围内，土地消耗与人口变化仍然紧密相关，甚至超过了人口变化的速度。LCR和PGR之间的持续分歧表明未能实现这种理论上的解耦。这表明，紧凑城市模型所承诺的集聚经济经常受到制度锁定、土地投机和低效空间治理的破坏，这反映在土地使用、住房和基础设施之间的复杂权衡中（Dewita等人，2018年；Efthymiou和Antoniou，2013年）。

5.3.3 发展水平对LCRPGR评分的影响
图10显示了根据人类发展指数（HDI，数据来自联合国开发计划署，2023年）和收入群体（数据来自世界银行，2020年）分组的LCRPGR评分分布。具体来说，高HDI和收入水平的国家在基于LCRPGR的LUE状态和基于BpC的LUE趋势方面的评分普遍较低。这表明，在当前框架和选定的数据集下，许多高度发达的国家经常出现土地消费与人口变化之间的不平衡。图8b和c提供了对此模式的可能解释。在低HDI国家（L组和M组），主要挑战在于相对于快速的人口增长而言，土地消费不成比例，反映了城市扩张的低效模式。相比之下，在高HDI国家（H组和VH组），较低的LCR评分通常与持续的土地扩张和人口停滞或减少并存。从这种意义上说，发展群体之间的对比不仅反映了城市发展过程本身的差异，还反映了当前可持续发展目标11.3.1指标框架对不同人口背景的响应方式。

5.3.3 发展水平对LCRPGR评分的影响
图10显示了根据人类发展指数（HDI，数据来自联合国开发计划署，2023年）和收入群体（数据来自世界银行，2020年）分组的土地使用效率（LUE）评分分布。a-c，根据HDI分组的LUE评分分布。d-f，根据收入群体分组的LUE评分分布。从左到右的子图分别是基于土地消费率与人口增长率（LCRPGR）比率的LUE状态评分、基于LCRPGR动态的LUE趋势评分（每十年间隔）和基于人均建成区面积（BpC）的LUE趋势评分（每五年间隔）。这种模式可以通过城市生命周期理论和关于城市收缩的新兴讨论进一步解释（Yagi和Garrod，2018年）。从理论上讲，LCRPGR（Land Use Efficiency for Population Growth and Rate of Change）植根于一种增长范式，假设城市土地扩张主要由人口流入驱动。然而，许多发达国家已经进入了反城市化或后工业阶段，其特点是人口停滞、老龄化以及家庭规模缩小（Connolly等人，2021年）。在这些情况下，即使没有显著的人口增长，城市扩张仍然可能持续发生，这主要是由于生活方式的改变和资本投资的影响。因此，高度发达国家的较低LUE（Land Use Efficiency）得分不应简单地被视为城市绩效普遍下降的证据，而应理解为当前指标框架下土地扩张与人口增长疲软之间的结构性不匹配。这也表明，评估城市规模缩小或稳定的情况可能需要更多符合去城市化和人口转型现实情况的补充性指标。

6. 结论

本研究对2000年至2020年间176个国家的LUE（可持续发展目标11.3.1）进行了全球评估，探讨了数据集一致性和主要不确定性来源两个研究问题。通过整合六个建成区数据集和四个人口数据集，我们开发了一个集成框架，用于量化效率状况和数据可靠性。分析发现，建成区数据集及其衍生的土地消耗率存在重大不一致性，这是导致指标不确定性的主要原因，这使得单一数据集的评估不可靠，从而突显了整合多种数据来源的必要性。因此，集成LUE得分在可持续性理论与实际观察之间提供了实用的桥梁，使得在不同尺度上进行评估更加透明和可比。此外，通过将LUE评估从传统的LCRPGR指标扩展到BpC（Building Per Capita），我们展示了LCRPGR作为LUE衡量标准的局限性（Schiavina等人，2022年；Zhong等人，2025年）。集成结果表明，全球LUE仍然存在不确定性，这既是因为数据集的持续不一致性，也是因为综合分析仅显示出朝着可持续发展目标11.3.1方向取得的有限进展。

本研究存在一些限制，这些限制指出了未来的研究方向。首先，评估是在国家层面（行政级别0）进行的。未来的分析应采用更精细的空间单位，特别是对于通常在次国家级别（例如行政级别1或2）校准的人口数据集。更详细的尺度可能会揭示国家平均值中掩盖的空间异质性。其次，我们的结果凸显了建成区数据集在时间上的不一致性，尤其是在增长率方面。因此，开发具有时间可比性的建成区数据至关重要。此外，许多数据集假设不透水表面的扩张是不可逆的，从而导致土地消耗率始终为正（Gong等人，2020年；Zhang等人，2022年）。然而，在城市规模不断缩小的背景下，这一假设已不再成立，新的数据生成方法应能够同时捕捉扩张和收缩过程（Dong等人，2021年；Jarzebski等人，2021年；Meng等人，2021年；Meng和Long，2022年）。最后，随着许多城市从水平扩张转向垂直发展（Che等人，2024年；Lin等人，2021年；Mahtta等人，2019年），仅通过二维建成区面积来评估土地利用效率是不够的。未来的研究应纳入反映建筑高度或体积的3D指标，以更准确地描述城市发展强度。

作者贡献

W.L.和Q.W.构思并设计了这项研究；W.L.分析了数据和结果，并负责绘制图表和编写初稿。Q.W.在多次修订过程中提供了详细的评论和反馈，以提高论文的质量，并为这项研究提供了资金和指导。两位作者共同参与了最终稿件的撰写和批准。

CRediT作者贡献声明

Qihao Weng：写作——审稿与编辑；写作——初稿；监督；软件开发；资源管理；项目管理；资金筹集；概念阐述。

LU WEIPENG：写作——审稿与编辑；写作——初稿；可视化；验证；方法论研究；数据分析；数据管理。

热点排行