基于Transformer的框架用于分层企业数据分类,并进行了实证验证

《Expert Systems with Applications》:A Transformer Based Framework for Hierarchical Enterprise Data Classification with Empirical Validation

【字体: 时间:2026年05月11日 来源:Expert Systems with Applications 7.5

编辑推荐:

  程胜虎 | 周阳鹏 | 李建宁 | 安德烈亚斯·基米格 | 农戈 | 贾培元 | 吉夫卡·奥夫查罗娃 同济大学,上海200084,中华人民共和国 **摘要** 企业数据的自动分类和分级是支持访问控制、风险管理和资源分配的关键任务。一个主要挑战是缺乏语义层次一致性,即

  程胜虎 | 周阳鹏 | 李建宁 | 安德烈亚斯·基米格 | 农戈 | 贾培元 | 吉夫卡·奥夫查罗娃
同济大学,上海200084,中华人民共和国

**摘要**
企业数据的自动分类和分级是支持访问控制、风险管理和资源分配的关键任务。一个主要挑战是缺乏语义层次一致性,即模型在不同分类层次上产生矛盾的预测结果。例如,将文档归类为“贷款违约”子类别,同时却将其放在“人力资源”主要类别下。这种不一致性会削弱合规性,干扰下游系统,并降低对治理的信任。为了解决这个问题,我们提出了一种基于动态层次注意力机制的层次分类框架。该模型结合了预训练的语言模型、双向GRU上下文编码、共享特征提取器和条件子分类模块,能够在保持对异构数据源的可扩展性的同时捕捉层次间的依赖关系。在真实世界的企业数据集上的实验表明,我们的方法在层次精度上比现有最佳方法的基准性能提高了29%,同时在宏观和微观平均精度、召回率和F1分数上也取得了显著提升。除了定量结果外,我们还构建了一个原型企业系统,将模型嵌入到数据审计和目录管理的工作流程中,验证了其在实际治理场景中的有效性。因此,这项工作在方法论上推进了层次文本分类,并展示了其应用价值,突显了结构一致性和自适应学习如何增强预测性能和可持续的企业数据治理能力。

**引言**
在数据密集型企业中,有效的数据治理已成为安全、合规性和运营效率的核心前提(Liu, Liu, Chen, Zhang, & Li 2022; Liu, Liu, Yang, & Zhang 2023b)。结构化和半结构化数据资产的快速增长暴露了信息可访问性和数据保护之间的长期矛盾。一方面,传统的访问控制机制(如基于角色的访问控制)仅提供粗粒度的权限,难以反映企业数据资产之间的细微语义差异。因此,过度授权的现象仍然普遍存在。行业调查显示,83%的前员工在离开组织后仍可访问公司系统,其中50%的人承认窃取了公司数据,40%的人打算在后续工作中重新使用这些数据(Identity 2023)。这些做法大大增加了数据泄露、违规和内部误用的风险。另一方面,由于系统间缺乏连贯的语义组织,企业信息检索常常受到阻碍。数据资产通常分布在异构数据库、文档仓库和业务平台中,每个系统都遵循自己的本地模式。没有统一的结构化语义结构,员工需要手动导航多个孤立的系统来查找相关信息。最近的调查显示,超过35%的员工经常绕过内部安全政策以获取完成工作所需的工具或数据,而大约35%的企业IT支出发生在中央IT部门视线之外(Gartner 2023)。在几乎所有大型组织都采用的混合工作环境中,数据访问的碎片化进一步加剧了搜索效率和系统延迟(Teradici 2021)。这些问题凸显了准确且语义结构化企业数据分类作为治理和可用性基础的重要性。

早期的企业数据分类系统主要依赖于人工制定的规则或基于关键词的启发式方法,领域专家根据业务政策和模式语义明确编码分类逻辑(Silla & Freitas 2011)。由于这些方法的透明性和确定性行为,它们在早期的数据治理平台中被广泛采用(Silla & Freitas 2011)。然而,随着企业数据量的增加和业务规则的快速发展,基于规则的系统变得越来越难以维护和扩展。为了缓解这些限制,引入了基于机器学习的文本分类方法,可以从元数据和文本描述中自动分配标签(Allam, Makubvure, Gyamfi, Graham, & Akinwolere 2025)。虽然这些模型提高了效率并减少了人工工作量,但它们的扁平结构忽略了企业分类法的固有层次结构(如部门、业务线和数据类型),导致语义模糊性和下游治理任务中的可靠性降低。

后来提出了层次分类方法来明确建模标签之间的结构依赖关系。早期方法采用自上而下的预测策略,分类器首先确定父类别,然后沿着预定义的分类路径递归预测子类别(Xia, Weng, He, Liu, & Zhao 2023)。树形分类器和层次支持向量机通过在每个节点分解分类任务来加强父子约束。与扁平分类器相比,这些方法在构建上提高了逻辑一致性。然而,后来的实证研究揭示了刚性层次管道的一个根本缺陷:高层产生的预测错误不可避免地会传播到较低层次,导致级联故障(Mao, Tian, Han, & Ren 2019)。此外,大多数这些方法独立训练本地分类器,限制了它们在层次间共享语义信息的能力,并使它们对细粒度类别中的数据稀疏性敏感。

深度学习的最新进展,特别是变压器架构,通过引入动态和上下文感知的表示学习能力进一步增强了企业建模(Liu et al. 2023a)。通过自注意力机制,变压器能够捕捉长距离依赖关系,并选择性地关注复杂输入结构中的信息线索,使其非常适合结构和层次化数据建模。除了自然语言处理外,这种范式还通过在任务相关的上下文线索上进行显式建模,在不同的识别和分类任务中展示了强大的泛化能力。例如,通过变压器的定向线索感知面部关系表示已被提出,以在不同视图中动态聚合关系特征来改进头部姿态估计。类似地,TransIFC引入了不变线索感知的特征集中学习,用于细粒度鸟类图像分类,表明基于变压器的架构可以有效地强调在细微类别变化中的区分性且稳定的语义线索。在面部表情分析领域,MMATrans利用肌肉运动感知的表示学习来捕获使用变压器编码器的局部运动模式之间的结构化依赖关系。尽管这些研究针对不同的应用领域,但它们共享一个共同的方法论洞见:变压器架构可以适应性地整合异构的上下文信号,在复杂的结构约束下保持语义一致性。

受这些进展的启发,基于变压器的模型越来越多地应用于层次文本分类,通过引入辅助损失、层次正则化或受限解码策略(Yang et al. 2016)。这些方法通过将层次信息注入学习过程来提高性能。例如,Li等人(Li, Zhou, Wang, Li, & Yang 2022)证明了建模层次标签依赖关系可以提高语义一致性,但他们的方法主要依赖于事后应用于独立训练的分类器的约束。基于这项工作,Jiang等人(Jiang, He, Wang, Lu, & Liu 2024)系统地分析了层次依赖建模,并指出将层次层次视为松耦合任务仍是现有系统的一个主要限制。这些发现表明,要在层次间保持语义一致性,需要更深层次的架构集成,即在表示学习过程中动态学习层次间依赖关系,而不是外部强加。

尽管取得了这些进展,但在企业环境中仍有几个挑战尚未解决。首先,大多数现有模型缺乏动态协调层次间信息流的明确机制,导致父类别和子类别预测之间的矛盾。其次,企业数据集表现出严重的长尾分布,许多细粒度类别只有少量样本,降低了层次分类器的鲁棒性。第三,实际部署要求模型能够适应不断发展的分类法和新的业务领域,而许多现有方法未能充分解决这一需求。在这项工作中,我们提出了一种基于动态层次注意力机制的新企业数据分类框架。该框架不是为每个层次级别训练独立的分类器,而是在统一的Transformer架构中引入层次门控,允许在训练和推理过程中自适应地共享语义信号。这种设计减少了错误传播,提高了层次一致性,同时保持了对实际企业数据的灵活性。在一家大型商业银行的实际部署中,提出的框架将层次预测精度提高了29%。

**本文的主要贡献如下:**
- 我们引入了一种动态层次注意力机制,通过将层次门控集成到Transformer层中,明确建模企业分类法中的层次间语义依赖关系,提高了分类层次间的逻辑一致性。
- 为了解决企业数据集中的标签不平衡问题,我们提出了一种时间自适应的损失权重策略,该策略在保持整体稳定性的同时提升了少数类别的性能。
- 我们设计了一个参数效率高的迁移学习流程,能够在标签数据有限的情况下快速适应新的业务领域,支持可扩展的企业部署。

我们在具有多层分类法的大规模企业数据集上进行了广泛的实验,以评估所提出框架的有效性。评估涵盖了现实条件,包括噪声注释、异构模式和不断变化的类别结构。本文的其余部分组织如下:第2节回顾了层次分类和企业数据治理的相关工作;第3节介绍了所提出的方法论;第4节报告了实验结果和分析;第5节描述了系统实现和应用;第6节总结了本文。

**相关工作**
随着访问控制要求的复杂性增加、动态数据基础设施的扩展以及对语义一致治理的迫切需求,企业数据分类的格局发生了根本性变化。本节回顾了四个方法论维度上的现有文献:基于规则的访问控制框架和语义访问控制框架、监督分类策略、分类法指导的层次建模以及先进的深度学习范式。

**方法论**
为了有效应对现代企业数据生态系统中普遍存在的结构复杂性和语义模糊性,我们开发了动态层次注意力机制(DHAM)。该框架旨在系统地解决工业数据治理中遇到的三个主要瓶颈:(1)业务分类法的递归嵌套;(2)子类别标签中的严重长尾分布;(3)新兴业务领域中注释样本的极度稀缺。

**实验与分析**
本章首先详细介绍了设置和参数配置,然后描述了评估指标。随后进行了消融研究以隔离各个组件的影响,最后提供了全面的评估和讨论以解释整体性能。

**系统实现与应用**
本节阐明了SOLAR框架的架构实现,这是一个为自动化数据分类和复杂访问控制设计的强大企业级平台。通过结合以用户为中心的设计原则、实证案例研究和自适应微调策略,该框架为在复杂组织基础设施中实现安全、可扩展和有弹性的数据治理提供了全面的蓝图。

**结论**
本文通过提出一种平衡准确性和可解释性的层次模型,解决了企业数据分类和分级的问题。该方法结合了预训练的语言表示以及额外的轻量级模块(包括双向GRU和池化层)和共享特征提取器,以支持条件子类别预测。实验结果和消融研究表明,这些组件相互补充,共同...

**资助**
本项目得到了国家自然科学基金(项目编号62401334)的支持。研究还得到了欧盟H2020研究与创新计划(Marie Sk?odowska-Curie资助协议,项目编号101109045)、清华大学-中国移动通信集团有限公司联合研究所、中央高校基本科研业务费(FRF-NP-20-03)以及云南省重大科技计划的资助。

**利益冲突声明**
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号