一种基于弱监督的偏好对齐框架，用于实现鲁棒的古代汉语翻译

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Patient Education and Counseling》：A Weakly Supervised Preference Alignment Framework for Robust Ancient Chinese Translation

【字体：大中小】 时间：2026年03月26日 来源：Patient Education and Counseling 3.1

编辑推荐：

　　语义对齐框架与模型微调优化低资源古文翻译质量

毕晓军|李硕|邢俊瑶|孙毅文

中国民族大学教育部民族语言智能分析与安全治理重点实验室，北京，100081，中国

摘要

从古汉语到现代汉语的翻译对于大型语言模型（LLMs）来说仍然是一个重大挑战，这主要是由于缺乏高质量的平行数据以及历史语义的复杂性。尽管通用型LLMs在表达上较为流畅，但在没有专家监督的情况下，它们往往无法保持语义的准确性。为此，我们提出了一种弱监督偏好对齐框架，该框架无需人工注释。我们的方法通过使用COMET指标对由一组专用小型模型生成的多种候选翻译进行排序来合成偏好信号。通过将偏好对齐问题视为一个概率引导问题，我们采用排名目标来校准模型生成，以获得高保真度的输出。在Qwen2.5-7B、Llama-3-Chinese-7B和InternLM3-8B上的实验表明，我们的方法在语义准确性和领域适应性方面优于现有基线模型。数据和代码可在以下链接公开获取：https://github.com/thinklis/GuWen-Align。

引言

汉语是世界上最古老且使用最连续的书面语言之一[1]。作为古典文学、哲学和历史的语言，古汉语是东亚文化遗产的基石。历史文献的分析是模式识别领域中的一个具有挑战性的但已成熟的研究方向，最近的研究重点包括字符识别的持续学习[2]和精确字符检测[3]。然而，由于汉语经历了显著的语言演变，其古代形式与现代形式在句法和语义上存在巨大差异[4]，因此理解和翻译这些文本变得复杂。为了解决这个问题，领域特定的预训练语言模型已经奠定了坚实的基础[5]，[6]，而大型语言模型（LLMs）的迅速发展引入了一种更先进的生成范式，利用大规模预训练实现了前所未有的流畅性。然而，尽管具备了这种能力，通用型LLMs在资源有限的古汉语领域仍面临重大挑战。要实现高保真度的翻译，自动化系统仍需克服简单的字面准确性问题。

具体来说，将通用型LLMs应用于这一领域时，主要面临的问题是“语义不对齐”——即倾向于优先考虑现代表达方式而非历史准确性。正如Lv等人[7]所指出的，通用模型往往无法捕捉词汇边界和多义性，导致翻译结果虽然可读但功能上不准确。类似地，Cao等人[8]和Zhao等人[9]也指出，通用LLMs在知识密集型任务中容易产生错误。此外，在实际数字化场景中（例如OCR误差），这一挑战会更加严重[10]。在这种情况下，确保模型性能优势而不出现过度下降是可靠部署的必要条件。

为了解决这些问题，现有方法依赖于监督微调（SFT）或增量预训练来专门化LLMs[11]，[12]。然而，这些方法存在实际挑战。SFT方法的目标是最大化单一参考答案的概率，这通常不足以捕捉高保真度翻译的复杂特性。这在资源有限的场景中是一个公认的问题，模式识别领域的多种范式（如小样本学习[13]）试图解决这一问题。此外，简单的增量预训练可能会导致灾难性遗忘或覆盖不足[14]。因此，尽管该领域已转向偏好优化等对齐技术来弥合字面准确性和风格质量之间的差距[15]，但这引入了一个关键瓶颈：对大规模人工偏好数据的依赖。在古汉语等专业领域，专家注释的成本高昂且难以获得[8]。因此，建立一种无需依赖昂贵专家反馈即可提高语义准确性的有效对齐机制是一个紧迫的研究课题。

为了解决这一挑战，我们提出了一种用于古汉语到现代汉语翻译的弱监督偏好对齐框架，该框架能够在无需人工反馈的情况下，从基于指标排序的候选集合中构建可靠的偏好对。我们的观点是将对齐问题视为一个由指标诱导的偏好信号驱动的概率引导问题，并研究如何在人工反馈稀缺的弱监督环境下获取和评估这些信号。具体而言，我们利用一组专用小型模型生成多种翻译候选，从而构建候选集合。我们不是将任何特定弱模型的输出视为真实答案，而是使用基于COMET的指标来定量评估这些候选，并根据它们的质量差异构建基于偏好的监督信号。这种结构使我们的偏好学习任务与模式识别领域已建立的弱监督范式（如部分标签学习[16]、[17]和成对排名[18]）保持一致。关键的是，我们利用这些信号，采用基于排名的目标来校准LLM的概率分布。这种机制迫使模型为高分候选分配更高的概率，同时明确抑制低质量的生成方式。这一过程有效地减轻了次优候选的影响，使模型能够提炼出准确的翻译模式并提高语义准确性。本文的主要贡献如下：

•
我们提出了一种用于古汉语到现代汉语翻译的弱监督偏好对齐框架，该框架利用一组专用小型模型和指标诱导的偏好，减少了对稀缺专家注释的依赖。
•
我们将对齐过程视为一个由质量指标诱导的偏好驱动的概率引导问题，并使用偏好排名目标来校准模型的输出分布。
•
在Qwen2.5-7B、Llama-3-Chinese-7B和InternLM3-8B上的实验表明，我们的方法在某些评估设置中的性能优于现有基线模型，并且在输入扰动下表现出更稳定的趋势。

部分内容

古汉语翻译模型

古汉语的计算建模经历了显著发展，从早期依赖词级表示单元的统计机器翻译[19]，发展到深度神经表示。预训练语言模型（PLMs）的出现标志着向捕捉历史语言特征的转变。AnchiBERT[20]在单语古语料库上预训练，为语言理解任务建立了强大的基线。在此基础上，Guwen-UNILM[5]进一步发展了...

方法

我们提出了一种新颖的弱监督偏好对齐框架，旨在提高通用型LLMs在古汉语到现代汉语翻译这一专业领域的语义准确性。我们的方法通过利用一组专用弱模型来构建基于质量差异的自动化监督信号，从而避免了依赖昂贵的专家注释的需求。遵循Erya基准[6] established的数据划分标准，我们...

实验设置

为了严格评估我们框架的有效性，我们在Erya基准[6]上进行了广泛的实验。我们的目标是证明，我们的弱监督偏好对齐不仅能够使通用模型适应特定领域，还能显著提高语义准确性，超越标准的监督微调效果。

主要结果

表3展示了四种不同实验设置下的翻译性能的全面比较分析，揭示了模型对齐深度对性能的显著影响。在零样本设置中评估原始模型时，缺乏任务特定适应性的系统的局限性显而易见。尽管具有强大的通用推理能力，商业系统如GPT-5-Chat的平均BLEU分数仅为25.9，而领域特定的Xunzi-Qwen3-8B...

结论与未来工作

在这项研究中，我们提出了一种用于古汉语翻译的弱监督偏好对齐框架，将监督微调与基于偏好的对齐阶段相结合。我们的方法通过质量指标自动评分的候选集合来诱导偏好监督，从而避免了对外部大规模人类反馈的依赖。在Erya基准上的实验结果表明，基于InternLM3的模型在标准文本上表现出有竞争力的性能...

CRediT作者贡献声明

毕晓军：资金获取、方法论、监督、初稿撰写、审稿与编辑。李硕：方法论、软件开发、可视化、初稿撰写、审稿与编辑。邢俊瑶：软件开发、初稿撰写。孙毅文：方法论、监督、初稿撰写、审稿与编辑。

利益冲突声明

在准备这项工作时，作者仅在第5.6节（弱监督信号的有效性分析）中使用了ChatGPT（OpenAI），以帮助检查作者手动编写的统计分析Python脚本的正确性。具体来说，该工具仅用于辅助检查实现中可能存在的错误，并未用于生成手稿内容或做出科学判断。使用该工具后，作者独立完成了...

致谢

本工作得到了国家自然科学基金（项目编号62236011）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言