通过嵌入物理信息来预测两相随机材料中的应力,并实现应力图像的超分辨率处理

《Engineering Applications of Artificial Intelligence》:Predicting stress in two-phase random materials and super-resolution method for stress images by embedding physical information

【字体: 时间:2026年02月10日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  中文分级阅读自动化与LLM4CGDS框架研究,提出基于HSK标准的四层代理架构实现多粒度文本简化,无需微调即可控制难度并保持语义,构建JWDS和MDDS两大数据集验证效果。

  
方登照|强继鹏|侯文杰|朱毅|高静通|赵向宇
中国扬州大学信息工程学院

摘要

分级阅读通过生成相同内容的多个版本来根据学习者的水平调整文本难度——这是一种在语言教育中长期采用的方法,但仍依赖于劳动密集型、专家驱动的改编过程。在本文中,我们提出了针对非母语学习者的中文分级文档简化(CGDS)任务,旨在根据既定的水平标准自动化创建多级阅读材料。我们以汉语水平考试(HSK)3.0框架的三个阶段(1-3级为高级,4-6级为中级,7-9级为初级)为指导,提出了基于大型语言模型(LLM)的CGDS框架LLM4CGDS,该框架结合了HSK级别的可读性要求和外部知识检索,无需监督微调即可控制文档级别的简化。为了促进进一步的研究,我们构建了两个互补的数据集:Journey to the West Document Simplification(JWDS)和Multi-domain Document Simplification(MDDS),涵盖了不同的类型和难度级别。在两个数据集上的实验评估表明,LLM4CGDS在可读性控制和意义保留方面显著优于直接使用现有LLM的方法。

引言

分级阅读是语言教育中的核心方法,它涉及阅读适合理解水平的文本,以匹配学习者的能力并提高阅读能力(Nation和Wang,1999;Albay,2017)。在实践中,这一概念已被广泛应用于出版领域,书籍被改编成不同难度的多个版本。例如,一些小说通常会重新出版成通俗版、青少年版和儿童版(图1(a)),每个版本都针对不同的认知和语言能力进行定制。
如今,创建分级材料仍然是一项劳动密集型且成本高昂的任务,需要专家手动改编文本(图1(b))。自动文本简化(Saggion和Hirst,2017)通过降低文本复杂性同时保留意义来解决这一问题,使内容对语言学习者和非母语者等不同受众更加易于理解(Paetzold和Specia,2016;Qiang等人,2023;Gooding,2022)。然而,现有方法主要集中在词汇和句子级别的简化上(Qiang等人,2020;Qiang等人,2021;Zhang和Lapata,2017;Martin等人,2020a;Sun等人,2021),忽略了分级阅读系统所需的整体、文档级别的调整。在中国语言环境中,由于缺乏类似Newsela的高质量平行语料库(Xu等人,2015),文档简化研究的进展受到了阻碍(Fang等人,2025b;Fang等人,2025a;Chong等人,2024)。因此,研究自动中文分级文档简化(CGDS)任务是一项非常重要的工作。
对于CGDS任务,我们面临的首要挑战是确定适当的简化级别数量以及如何定义每个级别的难度。我们引入了HSK(汉语水平考试)标准1作为指导框架,HSK是中国官方的中文水平测试,其最新版本HSK 3.0将学习者分为三个阶段:初级(1-3级)、中级(4-6级)和高级(7-9级)。基于这些阶段,我们为非母语学习者提出了一个三级的简化框架:高级学习者使用第1级,中级学习者使用第2级,初级学习者使用第3级。
大型语言模型(LLM)的最新进展,如ChatGPT(Brown等人,2020)和Qwen(Yang等人,2024),为文本生成任务提供了有希望的替代方案(Zhou等人,2022;Xun等人,2017)。然而,直接使用LLM进行CGDS通常会导致输出不一致、过度简化或简化不足,因为缺乏明确的控制机制(Sun等人,2023;Makhmutova等人,2024)。为了解决这些挑战,我们提出了一个基于HSK的LLM框架LLM4CGDS(图1(c))。LLM4CGDS采用了四个专门的代理——每个代理针对特定的语言粒度(字符、单词、句子、话语)——它们使用基于HSK的规则和外部知识检索自主做出简化决策。这种基于代理的架构不需要依赖微调或监督训练,即可实现对多粒度简化的明确控制,同时保持文档的连贯性。
本文的贡献如下:
(1) 我们首次提出了通过文本简化自动生成分级阅读材料的概念,解决了创建文档分级版本的挑战。根据官方HSK标准,我们采用了三级简化分级方案。
(2) 我们引入了LLM4CGDS,这是一个基于代理的框架,包含四个专门的代理,它们利用可读性约束和外部知识检索来提高分级简化的质量。
(3) 我们构建了两个互补的数据集:Journey to the West Document Simplification(JWDS)(包含38份人工制作的简化文档)和Multi-domain Document Simplification(MDDS)(包含733份来自学校、新闻、小说和维基等四个不同领域的文档),为未来的研究提供了宝贵的资源。在两个数据集上的实验结果表明,LLM4CGDS的表现优于直接使用现有LLM的方法,MDDS实验展示了该框架在多种领域的稳健性。代码和数据集已开源。

相关研究

可控简化:

最近在可控文本简化方面的研究集中在对操作和目标难度级别的明确控制上。Scarton和Specia(2018)通过在前缀添加标记来表示阅读级别或编辑操作,然后使用神经分类器来提高操作预测的准确性。ACCESS(Martin等人,2020b)允许使用源文本和参考文本的代理统计信息来控制压缩和句法复杂性等属性。

针对非母语学习者的分级文本简化

针对非母语学习者(例如学生)的不同水平,中文文档的分级简化对于提高其可访问性和理解能力至关重要。通过根据每个学习者现有的词汇和句法知识来定制内容,我们可以提供与其当前能力相匹配的文本,从而促进更有效的阅读练习和知识巩固。该框架专门针对中文的非母语学习者(青少年和成人)设计。

基于代理的架构

为了解决分级文档简化的多方面挑战,我们采用了基于代理的架构,其中每个代理都是一个具有特定角色、目标和工具集的专用LLM实例。根据最近在基于LLM的代理系统方面的进展(Xi等人,2023;Wang等人,2024;Zhang等人,2024b;Aksitov等人,2024),我们将代理定义为一种由LLM驱动的模块,它:(1) 具有与特定语言粒度级别相对应的具体简化目标;(2) 执行

实验设置

实验环境:我们的实验使用了基于API的推理方法进行所有LLM的推理,本地预处理和评估在以下配置下完成:Intel Core i9-10900K CPU @ 3.70 GHz(10核,20线程),64 GB DDR4 RAM,NVIDIA GeForce RTX 3090 GPU(24 GB VRAM),Ubuntu 20.04 LTS,Python 3.8.10,HanLP 2.1.0,transformers 4.30.2,NumPy 1.24.3,以及相应的API SDK(OpenAI Python SDK 1.3.0,Qwen API客户端,GLM API客户端)。GPU用于:

结论

我们提出了LLM4CGDS,这是第一个结合分级阅读和自动文本简化的基于代理的框架。通过协调四个专门的代理(字符、单词、句子和话语简化代理),每个代理都有独特的角色和工具增强型决策能力,它利用可读性约束和外部知识来提高简化质量,而无需额外训练。我们还展示了两个互补的中文文档简化

局限性

与MetaGPT(Hong等人,2024)等通用基于LLM的框架不同,LLM4CGDS是专门为CGDS设计的,可能不适用于其他语言或任务。一个关键的限制是,我们的评估数据集JWDS并非根据严格的HSK级别标准构建的。JWDS中的简化版本是由专业编辑为一般阅读受众创建的,而不是专门根据HSK标准进行校准的。虽然这使得JWDS具有代表性,

CRediT作者贡献声明

方登照:撰写——原始草稿,方法论,形式分析。强继鹏:撰写——审阅与编辑,撰写——原始草稿,调查,资金获取,数据管理,概念化。侯文杰:资源,数据管理。朱毅:调查,形式分析。高静通:方法论,调查。赵向宇:撰写——审阅与编辑,验证,监督。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:强继鹏报告获得了中国国家自然科学基金会的财务支持。强继鹏与扬州大学存在雇佣关系。其他作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了中国国家自然科学基金会(资助编号:62076217)和国家语言委员会(ZDI145-71)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号