基于提炼语言模型(Distilled Language Models)和符合性可靠性控制(Conformal Reliability Control)的复杂性感知渐进式数据错误校正方法
刘超(Chao Liu)
穆宏(Hong Mu)
周静静(Jingjing Zhou)
王恩良(Enliang Wang)
赵学健(Xuejian Zhao)
《Mathematics》:Complexity-Aware Progressive Data Error Correction with Distilled Language Models and Conformal Reliability Control
Chao Liu,
Hong Mu,
Jingjing Zhou,
Enliang Wang and
Xuejian Zhao
【字体:
大
中
小
】
时间:2026年05月10日
来源:Mathematics 2.2
编辑推荐:
摘要
可靠的表格数据修复是企业信息系统中进行可信分析的前提。这类环境中的表格数据常常包含格式错误、语义冲突、缺失值以及跨字段不一致性,这些都会降低下游分析和机器学习的性能。基于规则的方法能够有效处理结构性错误,但会忽略依
摘要
可靠的表格数据修复是企业信息系统中进行可信分析的前提。这类环境中的表格数据常常包含格式错误、语义冲突、缺失值以及跨字段不一致性,这些都会降低下游分析和机器学习的性能。基于规则的方法能够有效处理结构性错误,但会忽略依赖于上下文的错误;而大规模语言模型(LLMs)虽然在推理成本较高,但在语义修复方面具有很强的能力,但无法适用于企业级部署。本文将数据错误修复视为一个渐进的决策过程,并提出了一个具有三个处理阶段的复杂性感知框架。第一阶段使用确定性规则来处理低复杂性的结构性错误;第二阶段采用专门针对特定任务的蒸馏语言模型来处理中等复杂性的语义错误;第三阶段则在因子图上执行神经概率逻辑推理来处理高复杂性的跨字段错误。一个可学习的路由机制根据轻量级的复杂性得分将每条记录分配到相应的阶段。此外,还引入了分层的一致性预测方法,在每个阶段构建保覆盖率的预测集,并加入了低置信度修正的拒绝机制。该框架在一个企业数据集和两个公共基准数据集(Hospital和Flights)上进行了评估。与最强大的基线模型(GPT-4o-Direct)相比,它将记录级别的完整修复率提高了2.1%到3.1%;与纯基于规则的修复方法相比,修复率提高了多达16.8%,同时相对于直接调用GPT-4o,平均推理延迟减少了约80%。消融研究证实了复杂性感知路由和规则触发特征的关键作用;可靠性分析显示,分层一致性校准在不同置信度要求下比单层替代方案具有更严密的覆盖率。这些结果表明,结合分层一致性校准的复杂性感知渐进路由为实现高吞吐量、可审计且可控的 数据清洗提供了实用的方法,适用于企业级部署。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号