基于随机森林聚类的中爪哇省水稻生产力区域分异及农企策略研究（1986-2023）

《Frontiers in Agronomy》：Modeling rice productivity clustering with random forest: implications of regency agribusiness in 1986–2023

【字体：大中小】 时间：2026年02月09日 来源：Frontiers in Agronomy 4.1

编辑推荐：

　　本研究采用随机森林（Random Forest）特征重要性指导K-means聚类，对印尼中爪哇省29个县市1986–2023年水稻生产力数据进行分区。结果表明，生产力可划分为高（均值6.8公担/公顷）、中（4.5公担/公顷）、低（2.9公担/公顷）三类集群，虽轮廓系数（Silhouette Score, 0.143–0.207）和邓恩指数（Dunn Index, 0.396）显示集群间存在重叠，但该数据驱动方法为靶向性农业干预和基于证据的农企策略优化提供了科学依据。

1 Introduction

水稻生产力在印尼受到环境条件、土地管理和资源可用性变化的强烈影响，导致高生产力与低生产力区域之间存在显著差异。中爪哇省作为国家粮仓，在保障国家粮食安全方面扮演战略角色，但面临收获面积和产量波动背景下维持稳定水稻生产的挑战。尽管在6月至8月扩大种植推动了9月至12月收获期34.23%的增长，但预计2024年收获面积将比2023年下降5.36%（至155万公顷），产量下降2.12%（至889万吨碾磨干谷）。这些动态反映了各地区环境条件、土地管理和资源利用的潜在差异，导致了持续的生产力差距。应对这些挑战需要综合的可持续策略，例如原位水稻残留物管理以增强土壤有机碳、稻麦系统中高效氮素利用、结合有机改良剂的交替湿润干燥以提高水分效率、保护性农业、作物多样化和机械化。数字工具如Nutrient Expert和Rice Advice能够实现特定地点的养分管理，以优化施肥并减少污染，而综合作物管理支持资源效率和土壤健康。此外，气候适应性实践对于提高雨养系统的产量至关重要。理解这些关键生产力驱动因素对于提高农业效率以及在中爪哇省在气候变化和粮食需求增长的背景下加强其国家粮食安全作用至关重要。

农业生产力受到农艺资源和实践异质性的影响，这带来了识别关键驱动因素并将复杂数据转化为可操作策略的挑战。先前的研究强调了数据驱动聚类在有效农业区划中的价值，例如在埃塞俄比亚使用环境和地形数据识别相似响应单元，以及在长期气候变率下表征雨养小麦区域。遥感，特别是结合随机森林算法的Sentinel卫星数据，能够以高精度（>90%）预测土壤性质如pH值、有机质和粘土含量，并支持基于季节性气候模式的聚类。在田间层面，肯尼亚的研究表明，粪肥施用塑造了锌溶解微生物群落，形成了与施肥实践相关的不同集群。区域分析也采用聚类：K-means和判别分析对斯里兰卡的家庭花园进行分类，而随机森林和结构方程模型阐明了中国旱地小麦生产力驱动因素。然而，许多现有研究依赖于单因素分析或忽略了变量相互依赖性的预测模型。本研究通过应用基于随机森林的聚类方法多维识别关键生产力因素来解决这一差距，为农企参与者设计精确的土地管理策略、提高生产效率并为可持续农业政策提供信息提供了新颖的科学见解和实用工具。

2 Method

本研究是一项描述性定量研究，采用基于随机森林聚类的聚类分析方法。目标是基于1986年至2023年可用的次级数据，对29个县市的水稻生产力（公担/公顷）进行分组。本研究旨在识别生产力模式并将其与农企因素联系起来。研究在印尼中爪哇省的29个县市进行，这些县市在印尼共和国农业部的水稻生产力数据中注册。本研究使用反映环境、土地管理和农民资源变化的真实条件下的水稻生产力数据。自变量是每个县市的年度水稻生产力数据（V₁₉₈₆, V₁₉₈₇, …., V₂₀₂₃）。因变量是生产力集群（C_k），显示生产力水平，分为高集群（C₁）、中集群（C₂）和低集群（C₃）。生产力数据来自印尼共和国农业部的官方出版物。该数据使用JASP分析软件进行预处理、聚类和结果可视化。年度数据经过归一化处理以避免大尺度主导分析过程。使用四分位距法识别和消除异常值。随机森林聚类模型用于确定生产力集群的模式。该模型使用基尼指数减少函数来形成集群：

G = 1 - ∑_j=1^kp_j²(1)

其中G是基尼指数；p_j是集群中类别j的数据比例；k是集群中类别总数。最佳集群数（K）基于BIC选择：

BIC = ln(n) · k - 2ln(L) (2)

其中n是数据总和；k是模型中参数总和；L是模型似然。然后使用三个主要指标评估模型，即轮廓系数（S），其中a是集群内平均距离，b是到另一个集群的最近距离，方程如下：

S = (b - a) / max(a, b) (3)

轮廓系数范围从–1到1。接近1的值表示分离良好且内聚的集群，而低于0.25的分数通常表明集群结构弱或组间存在显著重叠。其次，计算邓恩指数（D）：

D = min_i≠jδ(C_i, C_j) / max_1≤k≤KΔ(C_k) (4)

其中δ(C_i, C_j)是集群间最小距离，Δ(C_k)是集群最大直径。第三，使用Calinski–Harabasz指数（CH）：

CH = [BSS / (k - 1)] / [WSS / (n - k)] (5)

其中BSS是组间平方和，WSS是组内平方和。为了回应方法稳健性的关切，我们还探索了替代聚类方法，包括层次聚类和DBSCAN，以及在聚类前使用主成分分析（PCA）进行降维。然而，这些替代方法要么产生可解释性较差的集群——特别是PCA，它模糊了单个年度变量的政策相关意义——要么产生相似或更低的内部效度分数（轮廓系数：0.13–0.19；邓恩指数：0.32–0.38）。因此，由随机森林特征重要性指导的K-means方法因其稳定性、透明度和政策相关性的平衡而被保留。

P?_k= (1 / n_k) ∑_{i∈C_k}P_i,t(6)

其中P?_k是集群k的平均生产力；n_k是集群k中的县市数量；P_i,t是县市i在年份t的生产力。同时，为了完善结果，进行了可视化，用图1a显示初始质心的集群形成初始阶段，图1b显示聚类的最终结果，将区域划分为高、中、低生产力集群。通过这种方法，本研究方法有望为农企部门有关水稻生产力的决策提供更深入的见解。

3 Results

随机森林聚类模型的结果总结在表1中，重点关注集群特征和生产指标之间的关系。该模型使用BIC进行优化，并利用基于基尼指数平均减少量排名的特征来确定集群。

表1展示了水稻生产力的三集群分割。所有轮廓分数均低于0.25的常规阈值（Rousseeuw, 1987），表明生成的集群分离不佳且存在相当大的重叠——反映了各县市水稻生产力固有的连续性和空间异质性。集群2包含最多的县市（13个），表现出最高的异质性（46.2%）但最低的轮廓分数（0.144），表明内部凝聚力弱且集群内变异性高；集群1虽然更同质（异质性24.9%），但显示出最高的平均生产力，并与通过随机森林模型中基尼指数下降确定的最重要预测特征——V₁₉₉₅和V₁₉₈₈——有强关联；集群3尽管生产力低，但实现了最佳的内部凝聚力（轮廓分数=0.207），尽管该值仍仅表明边际集群凝聚力。总体而言，内部验证指标表明集群效度有限：轮廓分数范围从0.143到0.207，邓恩指数适中（0.396），与重叠或模糊的组边界一致。Calinski–Harabasz指数（10.088）进一步支持了这一解释，因为更高的值（>100）通常与分离良好的集群相关。尽管存在这些统计局限性，观察到的模式仍可为差异化政策策略提供信息。这种方法与最近的研究一致，这些研究使用聚类进行农业区划，尽管分离不完美——例如孟加拉国基于盐度和气候的聚类、中国使用空间机器学习绘制水稻生产力驱动因素、哥伦比亚使用集群信息模拟模型优化水和经济结果，以及通过基于排放的聚类评估生态效率的研究。基于基尼分数的特征重要性——在印尼广泛用于商品测绘、印度用于作物类型预测、中国用于稻田质量评估、农艺优化、泰国干旱早期预警和通过遥感检测啮齿动物土丘——为特定情境的农业干预提供了坚实基础。

图1a展示了使用肘部法的集群形成初始阶段，其中红点表示源自农业生产数据的集群质心，标志着基于生产力水平、投入使用和环境条件等共享属性对区域进行分组的第一步。

图1b通过t-SNE图显示了最终聚类结果，用颜色区分三个集群：蓝色（高生产力）、绿色（中等生产力）和粉色（低生产力）。尽管t-SNE图显示了视觉上的分离，但鉴于较低的轮廓系数和邓恩分数，应谨慎解释；明显的分组可能反映了局部密度模式而非统计上不同的集群。蓝色集群反映了有利的土地管理和支持性环境因素；绿色集群表明投入限制或次优农艺条件；粉色集群指向资源约束或不利的环境挑战。这些分组最好被视为捕捉主导生产力模式的分析细分，而非离散的、非重叠的类别。总之，这些可视化展示了模型按生产力模式有意义地分割区域的能力，为靶向的、特定集群的农业战略和政策干预提供了基础。

随机森林聚类结果将中爪哇省的29个县市根据1986年至2023年的发展模式分为三个集群（图2），集群1（粉色）包括表现最高的区域，如Klaten和Sukoharjo，这些区域往往位于城市区域或经济中心附近；集群2（蓝色）代表具有中等和波动特征的区域，广泛分布于从北海岸到中部高地；而集群3（绿色）表示发展水平相对较低的区域，主要位于该省南部和西部，通常与可达性和基础设施挑战相关。这种空间分布反映了显著的区域差异，并为制定靶向的、基于地方的发展政策提供了经验基础。

4 Discussion

结果表明，基于水稻生产数据的区域分组产生了三个主要集群（图1b），每个集群具有不同的生产力特征。蓝色集群反映了高生产力区域，得到最佳投入管理和良好农艺条件的支持。绿色集群代表中等生产力区域，其中环境或管理因素可能不是最优的。粉色集群表示低生产力区域，很可能受到资源限制（如灌溉、土壤质量或技术）的影响。然而，必须承认这些集群的统计效度有限。所有轮廓分数均低于广泛接受的0.25阈值（Rousseeuw, 1987），邓恩指数（0.396）仍然适中——表明组间存在相当大的重叠和弱分离。这可能反映了中爪哇省水稻生产力的连续性和空间渐进性，其中县市之间的“类型”界限不常见。这些集群不应被视为离散类别，而应被视为在异质景观中捕捉主导模式的分析细分。国际文献支持这种基于聚类的方法来理解生产力的空间变异。研究使用无监督机器学习和地球物理数据确定稻田中的特定管理区，这在灌溉优化中非常有用。在中国，采用基于网格的空间评估方法，利用侵蚀、养分平衡和有机碳等指标评估土壤质量的可持续性，这些指标与区域间的生产力差异相关。塑料覆盖下的滴灌（DIPM）等灌溉技术已被证明可以提高资源受限地区的水分效率和作物生产力。其他研究表明，高效灌溉在减少非点源污染同时支持可持续农业方面发挥着重要作用。在精准管理背景下，特定地点作物管理（SSCM）允许根据土地变异性应用农业投入，支持生产效率和可持续性，特别是在中等生产力地区。此外，哈萨克斯坦的农艺多样性评估表明，温度和降雨等环境变量是区域生产力的主要限制因素。研究使用基于无人机的叶面积指数（LAI）评估蒸散发的空间变异，这对苜蓿等饲料作物的分区灌溉实践具有直接意义，但其原理也适用于水稻。最后，对中国农业碳足迹的分析显示了农艺实践与排放之间的强空间关系，支持在设计低排放生产政策时采用聚类方法。这些发现表明，只要重点放在政策相关模式而非严格的统计离散性上，管理和环境因素的差异可以通过聚类分析来解释。

本研究通过应用随机森林聚类——一种扩展了识别时空生产力模式的数据分析文献的方法——推进了对异质农企因素如何影响水稻生产力的理论理解。尽管探索了替代聚类算法（如DBSCAN、层次聚类）和降维技术（如PCA），但它们并未产生 substantially 更好的内部验证指标，也未在政策背景下产生更大的可解释性。这强化了一种观点，即在高度异质的农业系统中，聚类的目标可能较少关于实现统计纯度，而更多关于浮现可操作的分类以用于决策。研究结果强化了在分析农业投入、环境条件和产出之间的相互作用时采用多维方法的必要性，从而加强了农业生产效率理论。最近的研究证实了这一点：研究表明结合随机森林与聚类能准确预测水稻种植季节，而研究确定随机森林和XGBoost是产量和土壤健康预测（高达99%准确率）最可靠的模型。在农业大数据领域，研究强调基于机器学习的数据挖掘对于数据驱动决策至关重要，而研究表明印度通过优化施肥和灌溉的特定情境、分析驱动的干预措施可以使水稻产量翻三倍。研究进一步通过GeaGrow——一种基于人工神经网络（ANN）的土壤养分预测工具——强调了微观农艺数据，而研究回顾了人工智能、无人机和传感器如何增强精准农业。在系统层面，研究将气候智能型、数据驱动的技术与农民韧性和妇女赋权联系起来，而研究揭示了机器学习绘制的臭氧污染如何显著降低中国农业的全要素生产率。总之，本研究肯定了随机森林聚类在精准农业中的科学相关性，并强调了投入、环境和产量数据的关键整合，以推进农企生产力的理论和实践。

在操作层面，本研究提供了针对特定集群的政策建议，以提升中爪哇省的水稻生产力。高生产力（蓝色）集群应作为复制最佳实践的国家试点，包括先进技术、高效灌溉和精准投入管理——这些方法在菲律宾得到验证，那里改善的灌溉渠道和农民培训提高了产量和空间效率。这些地区的可持续集约化还需要通过灌溉平衡等指标平衡水、能源和食物。中等生产力（绿色）集群最受益于能力建设和采用改良种子；莫桑比克的证据表明，基本的农艺培训本身就能将产量提高36%，而对人力资本和高价值部门的更广泛投资在亚洲和非洲被证明是有效的。低生产力（粉色）集群需要结构性的长期干预——例如基础设施修复、土壤恢复和投入支持——如灾后尼泊尔所示——以及像印尼村级基金分配这样的本地化政策，这些政策减少了饥饿并促进了包容性农业发展。关键的是，这些集群的价值不在于其统计稳健性，而在于其用于靶向干预的启发式效用。即使存在重叠边界，集群1与高绩效年份（V₁₉₉₅, V₁₉₈₈）的持续关联以及集群3与持续表现不佳的关联，为诊断系统性约束和优先分配资源提供了一个实用框架。关键的是，本研究倡导使用数据驱动技术来实现精确、可持续的决策。可视化工具（图1a, b）有助于确定干预优先次序，而卫星数据为亚洲精准水稻种植生成处方图。地理信息系统（GIS）和遥感提高了灌溉效率和土地适宜性制图，多光谱成像实现了非破坏性产量预测。高光谱-人工智能（AI）集成支持早期疾病检测，而数字孪生（Digital Twin）平台提供农场系统的实时模拟，基于人工智能-物联网（AI-IoT）的系统实现端到端的智能农场管理。克服系统性挑战需要跨空间和时间尺度的集成数据管理，例如使用叶色卡等简单工具进行实时氮素监测以优化肥料使用。总之，这些策略将数据分析与实地行动联系起来，以推进公平、高效和有韧性的水稻生产。

5 Conclusion

本研究成功使用随机森林聚类方法识别了印尼29个县市水稻生产力的三个主要集群。统计分析结果表明，高生产力集群的平均值P?₁= 6.8公担/公顷，轮廓系数为0.207，而中等集群的平均值P?₂= 4.5公担/公顷，轮廓系数为0.144。低集群的平均值P?₃= 2.9公担/公顷，轮廓系数为0.143。然而，需要注意的是，所有轮廓分数均低于0.25的常规阈值（Rousseeuw, 1987），表明内部凝聚力有限且集群间存在显著重叠。类似地，邓恩指数（0.396）和Calinski–Harabasz指数（10.088）表明集群分离程度适中。这些指标反映了中爪哇省水稻生产力的连续性和空间渐进性，离散分组可能无法完全捕捉潜在现实。该模型的效度中等，得到邓恩指数0.396和Calinski-Harabasz指数10.088的支持。农业投入的使用、土壤条件和灌溉渠道等因素已被证明对生产力水平有显著贡献。尽管存在统计局限性，识别出的集群为政策靶向提供了启发式价值——特别是因为高生产力集群持续与历史上表现强劲的年份（如V₁₉₉₅, V₁₉₈₈）相关联，而低生产力集群揭示了持续的系统性约束。

随机森林仅用于特征重要性排序，而非作为聚类算法；实际聚类是使用无监督方法K-means进行的。这一区别已在全文中阐明以避免概念模糊。关于验证，虽然田间实证验证超出了本研究范围，但我们已参考了关于灌溉基础设施、肥料分配和区域农业报告的次级行政数据来交叉验证集群分配，以评估表面效度。我们完全承认这是一个局限性，并强烈建议在未来的工作中进行实地验证。此外，为了满足对更深层次时间和因果洞察的需求，我们现在明确强调，像1995年和1988年这样的年份的突出地位可能反映了有利气候条件、全国性农业集约化计划（例如国家水稻自给计划）以及地方性灌溉投资的综合效应——这些因素值得在后续研究中进行靶向计量经济分析。

进一步的研究可以通过整合空间数据来开发模型，以丰富具有地理维度的聚类分析。此外，重要的是考察其他因素如气候变化、环境可持续性以及政府政策对水稻生产力的影响。还需要进行时间趋势分析以了解生产力模式随时间的变化。可以对聚类结果进行田间实证数据验证，以提高结果的准确性和相关性。未来的研究可能还会探索替代聚类框架——例如空间约束聚类、高斯混合模型或潜在剖面分析——这些框架能更好地适应连续的空间变异并减少对硬边界的依赖。这些发现为农企部门通过更精确的数据驱动方法优化水稻生产提供了重要见解。

热点排行

新闻专题