基于提炼语言模型（Distilled Language Models）和符合性可靠性控制（Conformal Reliability Control）的复杂性感知渐进式数据错误校正方法刘超（Chao Liu）穆宏（Hong Mu）周静静（Jingjing Zhou）王恩良（Enliang Wang）赵学健（Xuejian Zhao）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Mathematics》：Complexity-Aware Progressive Data Error Correction with Distilled Language Models and Conformal Reliability Control Chao Liu, Hong Mu, Jingjing Zhou, Enliang Wang and Xuejian Zhao

【字体：大中小】 时间：2026年05月10日 来源：Mathematics 2.2

编辑推荐：

　　摘要可靠的表格数据修复是企业信息系统中进行可信分析的前提。这类环境中的表格数据常常包含格式错误、语义冲突、缺失值以及跨字段不一致性，这些都会降低下游分析和机器学习的性能。基于规则的方法能够有效处理结构性错误，但会忽略依

摘要

可靠的表格数据修复是企业信息系统中进行可信分析的前提。这类环境中的表格数据常常包含格式错误、语义冲突、缺失值以及跨字段不一致性，这些都会降低下游分析和机器学习的性能。基于规则的方法能够有效处理结构性错误，但会忽略依赖于上下文的错误；而大规模语言模型（LLMs）虽然在推理成本较高，但在语义修复方面具有很强的能力，但无法适用于企业级部署。本文将数据错误修复视为一个渐进的决策过程，并提出了一个具有三个处理阶段的复杂性感知框架。第一阶段使用确定性规则来处理低复杂性的结构性错误；第二阶段采用专门针对特定任务的蒸馏语言模型来处理中等复杂性的语义错误；第三阶段则在因子图上执行神经概率逻辑推理来处理高复杂性的跨字段错误。一个可学习的路由机制根据轻量级的复杂性得分将每条记录分配到相应的阶段。此外，还引入了分层的一致性预测方法，在每个阶段构建保覆盖率的预测集，并加入了低置信度修正的拒绝机制。该框架在一个企业数据集和两个公共基准数据集（Hospital和Flights）上进行了评估。与最强大的基线模型（GPT-4o-Direct）相比，它将记录级别的完整修复率提高了2.1%到3.1%；与纯基于规则的修复方法相比，修复率提高了多达16.8%，同时相对于直接调用GPT-4o，平均推理延迟减少了约80%。消融研究证实了复杂性感知路由和规则触发特征的关键作用；可靠性分析显示，分层一致性校准在不同置信度要求下比单层替代方案具有更严密的覆盖率。这些结果表明，结合分层一致性校准的复杂性感知渐进路由为实现高吞吐量、可审计且可控的数据清洗提供了实用的方法，适用于企业级部署。

联系信箱：

粤ICP备09063491号

摘要

热点排行