钢琴乐谱难度测量的双路径音乐结构感知方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Dual-Path Musical Structure Perception for Piano Score Difficulty Measurement

【字体：大中小】 时间：2026年03月16日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　钢琴得分难度评估需融合和弦结构、短语与节奏模式。本文提出双路径结构感知网络模型（MDRM），通过同步音符编码保留和弦结构，短语结构模块（PSR）和音高时序模块（PDR）分别捕捉旋律组织与节奏规律，结合双向GRU与注意力机制识别结构单元，实验在EN和AMBPT数据集上较现有方法提升2.65%-4.75%，验证音乐结构对难度评估的指导作用。

严涵涵|李强|关欣

天津大学微电子学院，中国天津市南开区魏进路92号，300072

摘要

钢琴乐谱难度测量（PSDM）对于曲目选择和练习策略至关重要。现有方法主要关注音符之间的统计分布和语义关系，但往往忽略了人类的认知特征，即人类如何通过感知和组织音乐结构来掌握音乐。为了解决这一局限，我们提出了一种基于双路径音乐结构感知网络的音乐难度识别模型（MDRM）。具体来说，我们首先设计了一种同时编码和弦中所有音符的方案，以保留原始的和声结构。然后，短语结构表示（PSR）模块用于学习短语结构，音高-时长结构表示（PDR）模块用于学习音高轮廓和节奏模式，这两个模块共同构成了一个双路径网络。这两个模块都通过双向门控循环单元（Bi-GRU）获取全局上下文，并分别对音符序列的所有属性以及音高和时长属性进行时间注意力处理来检测结构单元。最后，我们将这些主要的音乐结构融合起来以识别难度等级。在EN和AMBPT数据集上的广泛实验表明，我们提出的MDRM方法分别比最新的基于上下文的序列方法提高了2.65%和4.75%。此外，从PSR模块的时间注意力权重分布中可以看出，当给定乐谱中的相似短语结构增加时，重复相似短语结构的注意力权重会逐渐降低，这也证实了预期的听觉现象。多方面的音乐结构表示不仅可以区分钢琴乐谱的难度等级，还能提供对音乐作品的结构理解和把握，从而指导更精确的教学和练习策略。

引言

钢琴乐谱难度测量（PSDM）是一个复杂的元认知问题，涉及评估认知负荷、技术要求以及对音高轮廓、节奏模式和短语等潜在音乐结构的识别。即使对于教师和钢琴家来说，这也是一个非平凡的任务。对于任何给定的钢琴曲目，很少有相关的难度信息。因此，在智能钢琴学习和教育领域，自动PSDM是必不可少的。识别出钢琴乐谱的难度等级使学生能够更好地评估自己的学习过程，自我调节练习策略，并设定可实现的目标。此外，精确的难度评估还能为教师的教学方法提供信息，从而实现更加个性化和有针对性的指导。此外，对难度控制音乐生成的日益重视（Suzuki, 2023）进一步突显了PSDM任务的广泛重要性。

在这项研究中，选择钢琴乐谱作为难度测量的研究对象。其他键盘乐谱，从使用多五线谱的管风琴乐谱到带有注册标记和合奏（通奏低音）功能的羽管键琴乐谱，其结构复杂性各不相同。相比之下，钢琴乐谱具有高度标准化和分析透明性，并且有大量的语料库可供使用。这些特点使得钢琴乐谱成为PSDM任务最合适和最具代表性的数据媒介。

评估钢琴乐谱的难度等级涉及物理能力（手指灵活性、手部独立性、手部跨度等）和知识能力（音乐理论、乐谱阅读）之间的复杂相互作用（Ramoneda, Jeong, Eremenko, Tamer, Miron, Serra, 2024b, Sébastien, Ralambondrainy, Sébastien, Conruyt, 2012）。根据是否存在个体因素，难度概念可以分为相对难度和绝对难度（Wen & Egner, 2023）。相对难度取决于个体在身体和技能水平上的差异，而绝对难度是客观存在的，与个体因素无关，本研究侧重于绝对难度的测量。

以往的PSDM方法主要分为两类：基于统计的分布方法（Chiu, Chen, 2012, Sébastien, Ralambondrainy, Sébastien, Conruyt, 2012, Yan, Li, Tseng, Guan, 2023）和基于上下文的序列方法（Ramoneda, Jeong, Eremenko, Tamer, Miron, Serra, 2024b, Ramoneda, Tamer, Eremenko, Serra, Miron, 2022b）。基于统计的分布方法通过提取独立音符的手动特征来探索音乐乐谱对之间的整体相似性，然后将特征统计映射到一个共同的特征空间并测量它们的相似性。由于难度等级之间存在序数约束，Yan等人（2023）将PSDM视为一种序数分类，并采用了一种受生物启发的优化算法来同时优化特征选择和模型参数。为了进一步提高难度测量的可解释性，Ramoneda, Eremenko, D’Hooge, Parada-Cabaleiro, & Serra（2024a）提出了白盒模型RubricNet，该模型客观评估了特征统计对难度等级的贡献。与关注单个音符的基于统计的分布方法相比，基于上下文的序列方法强调序列内部音符之间的关系。这些方法（Ghatas, Fayek, Hadhoud, 2022, Ramoneda, Jeong, Nakamura, Serra, Miron, 2022a）将钢琴乐谱转换为连续向量空间，以学习语义上下文关系并测量音符序列之间的相似性。此外，Ramoneda等人（2024b）整合了钢琴指法的表现力表示，以捕捉钢琴演奏难度的不同方面。考虑到音频录制的日益普及，Ramoneda, Lee, Jeong, Valero-Mas, & Serra（2025）通过直接分析音频录制来使用CQT和钢琴卷表示进行音频驱动的难度测量。

尽管现有的基于上下文的序列方法能够捕捉音符之间的语义关系，从而隐含地指示相似的音乐内容，但它们仍然没有明确捕捉乐谱中的不同音乐结构。人类的感知（Krumhansl, Jusczyk, 1990, Stoffer, 1985）和钢琴学习（Sloboda, 1977, Vuust, Heggli, Friston, Kringelbach, 2022）主要关注短语结构。如图1(a)所示，当听众听到Twinkle Twinkle Little Star这个音乐片段时，他们倾向于感知到其中的短语结构，钢琴学习者也把短语视为完整的表演单元。因此，乐谱中的短语结构对于PSDM任务是必要的。短语结构是通过旋律和节奏的相互作用创建的（Jones, 1987），其中旋律的方向和运动可以通过音高轮廓来描述，但基于短语的单元的时间跨度可能与音高轮廓和节奏模式的单元不一致。如图1(b)所示，这个音乐片段可以分为四个相似的短语，前两个短语形成了一个具有清晰起伏旋律的独立音高轮廓，以令人满意的结尾结束。此外，这个片段还可以用八种节奏模式来表示，主要是两种节奏模式的重复：一种是均匀的四分音符模式，具有清晰稳定的节奏，便于跟随节拍；另一种是两个四分音符后跟一个二分音符的混合模式，通常用作结尾，因此我们需要进一步捕捉音高轮廓和节奏模式。

为了明确捕捉三个主要的音乐结构：短语、音高轮廓和节奏模式，并进一步探索音乐结构与难度等级识别之间的关系，我们提出了一种基于双路径音乐结构感知网络的新型音乐难度识别模型（MDRM）。首先，我们设计了一种同时编码和弦中所有音符的方案，以保留原始的和声结构。然后，使用两个平行的模块：短语结构表示（PSR）和音高-时长结构表示（PDR）模块来学习短语、音高轮廓和节奏模式的结构单元序列表示。每个模块都通过Bi-GRU获取全局上下文，并基于时间注意力来检测结构单元（Pei, Baltrusaitis, Tax, Morency, 2017, Rosin, & Radinsky）。因为时间注意力的权重分布与人类听觉神经活动在某种程度上是一致的（Denison, 2024, Li, Anumanchipalli, Mohamed, Chen, Carney, Lu, Wu, Chang, 2023），并且多项研究（Kn?sche, Neuhaus, Haueisen, Alter, Maess, Witte, Friederici, 2005, Zhang, Sun, Wu, Yang, 2022）显示了人类神经反应与短语边界之间的相关性，即人类的注意力从前一个短语转移到下一个短语。因此，我们识别时间注意力权重分布函数的局部最小值，并将其作为音乐结构边界。最后，我们将这些多方面的音乐结构融合起来以识别难度等级。我们提出方法的主要贡献总结如下：

•

我们提出了一种基于双路径音乐结构感知网络的MDRM方法，该方法明确捕捉了短语、音高轮廓和节奏结构的音乐结构，并进一步探索了音乐结构与难度等级之间的关系。

•

我们设计了两个音乐结构表示模块PSR和PDR，它们整合了人类对音乐结构的认知特征。这两个模块都使用Bi-GRU获取全局上下文，并基于时间注意力检测不同的结构单元。这有助于清晰地讨论音乐结构的条件知识如何影响识别难度等级这一复杂的元认知问题。

•

我们在EN和AMBPT数据集上进行了广泛的比较实验，实验结果证明了我们在难度等级识别性能上的改进。

其余部分的组织结构如下：第2节将介绍相关工作。第3节详细介绍了所提出方法的每个模块。第4节介绍了实验设置和比较实验。最后，我们在第5节总结了整个工作。

提出的方法

所提出的音乐难度识别模型（MDRM）旨在通过明确建模钢琴乐谱中的潜在音乐结构来评估音乐乐谱的难度等级。该方法受到人类认知神经活动与音乐结构边界之间显著相关性的启发（Kn?sche, Neuhaus, Haueisen, Alter, Maess, Witte, Friederici, 2005, Zhang, Sun, Wu, Yang, 2022），设计了一个双路径感知网络来捕捉短语、音高轮廓和节奏模式。

数据集

考虑到MKD和CIPI数据集（Ramoneda, Jeong, Eremenko, Tamer, Miron, Serra, 2024b, Ramoneda, Tamer, Eremenko, Serra, Miron, 2022b）主要关注古典音乐，而EN和AMBPT数据集（Yan等人，2023）主要包含结构和模式更可预测的流行音乐和摇滚音乐作品，我们在这些数据集上评估了所提出的MDRM方法，这些数据集来自流行的乐谱网站8notes¹和pianotabs²。

讨论

这些实验结果证实，所提出的音乐难度识别模型（MDRM）有效地捕捉了与人类感知难度相对应的结构表示。然而，像许多数据驱动模型一样，理解其适用范围和跨领域适应的潜力至关重要，我们进一步讨论了其通用性和局限性。

（1）通用性。无论乐器如何，音乐作品本质上都包含基本的结构

结论

在这项工作中，我们提出了一种基于双路径音乐结构感知网络的音乐难度识别模型（MDRM）。与现有的基于音符间语义关系的序列模型不同，我们的方法侧重于明确捕捉三个主要的音乐结构：短语、音高轮廓和节奏模式。具体来说，我们设计了一种同时编码和弦中所有音符的方案，该方案能够很好地保留原始的和声结构并匹配后续的结构

利益冲突声明

———————————————————————– 关欣报告称获得了中国国家自然科学基金会的财政支持。报告与以下人员存在关系：有待申请的专利。如果有其他作者，他们声明没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

———————————————————————– 关欣报告称获得了中国国家自然科学基金会的支持。李强

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

提出的方法

数据集

讨论

结论

利益冲突声明

热点排行

新闻专题