钢琴乐谱难度测量(PSDM)是一个复杂的元认知问题,涉及评估认知负荷、技术要求以及对音高轮廓、节奏模式和短语等潜在音乐结构的识别。即使对于教师和钢琴家来说,这也是一个非平凡的任务。对于任何给定的钢琴曲目,很少有相关的难度信息。因此,在智能钢琴学习和教育领域,自动PSDM是必不可少的。识别出钢琴乐谱的难度等级使学生能够更好地评估自己的学习过程,自我调节练习策略,并设定可实现的目标。此外,精确的难度评估还能为教师的教学方法提供信息,从而实现更加个性化和有针对性的指导。此外,对难度控制音乐生成的日益重视(Suzuki, 2023)进一步突显了PSDM任务的广泛重要性。
在这项研究中,选择钢琴乐谱作为难度测量的研究对象。其他键盘乐谱,从使用多五线谱的管风琴乐谱到带有注册标记和合奏(通奏低音)功能的羽管键琴乐谱,其结构复杂性各不相同。相比之下,钢琴乐谱具有高度标准化和分析透明性,并且有大量的语料库可供使用。这些特点使得钢琴乐谱成为PSDM任务最合适和最具代表性的数据媒介。
评估钢琴乐谱的难度等级涉及物理能力(手指灵活性、手部独立性、手部跨度等)和知识能力(音乐理论、乐谱阅读)之间的复杂相互作用(Ramoneda, Jeong, Eremenko, Tamer, Miron, Serra, 2024b, Sébastien, Ralambondrainy, Sébastien, Conruyt, 2012)。根据是否存在个体因素,难度概念可以分为相对难度和绝对难度(Wen & Egner, 2023)。相对难度取决于个体在身体和技能水平上的差异,而绝对难度是客观存在的,与个体因素无关,本研究侧重于绝对难度的测量。
以往的PSDM方法主要分为两类:基于统计的分布方法(Chiu, Chen, 2012, Sébastien, Ralambondrainy, Sébastien, Conruyt, 2012, Yan, Li, Tseng, Guan, 2023)和基于上下文的序列方法(Ramoneda, Jeong, Eremenko, Tamer, Miron, Serra, 2024b, Ramoneda, Tamer, Eremenko, Serra, Miron, 2022b)。基于统计的分布方法通过提取独立音符的手动特征来探索音乐乐谱对之间的整体相似性,然后将特征统计映射到一个共同的特征空间并测量它们的相似性。由于难度等级之间存在序数约束,Yan等人(2023)将PSDM视为一种序数分类,并采用了一种受生物启发的优化算法来同时优化特征选择和模型参数。为了进一步提高难度测量的可解释性,Ramoneda, Eremenko, D’Hooge, Parada-Cabaleiro, & Serra(2024a)提出了白盒模型RubricNet,该模型客观评估了特征统计对难度等级的贡献。与关注单个音符的基于统计的分布方法相比,基于上下文的序列方法强调序列内部音符之间的关系。这些方法(Ghatas, Fayek, Hadhoud, 2022, Ramoneda, Jeong, Nakamura, Serra, Miron, 2022a)将钢琴乐谱转换为连续向量空间,以学习语义上下文关系并测量音符序列之间的相似性。此外,Ramoneda等人(2024b)整合了钢琴指法的表现力表示,以捕捉钢琴演奏难度的不同方面。考虑到音频录制的日益普及,Ramoneda, Lee, Jeong, Valero-Mas, & Serra(2025)通过直接分析音频录制来使用CQT和钢琴卷表示进行音频驱动的难度测量。
尽管现有的基于上下文的序列方法能够捕捉音符之间的语义关系,从而隐含地指示相似的音乐内容,但它们仍然没有明确捕捉乐谱中的不同音乐结构。人类的感知(Krumhansl, Jusczyk, 1990, Stoffer, 1985)和钢琴学习(Sloboda, 1977, Vuust, Heggli, Friston, Kringelbach, 2022)主要关注短语结构。如图1(a)所示,当听众听到Twinkle Twinkle Little Star这个音乐片段时,他们倾向于感知到其中的短语结构,钢琴学习者也把短语视为完整的表演单元。因此,乐谱中的短语结构对于PSDM任务是必要的。短语结构是通过旋律和节奏的相互作用创建的(Jones, 1987),其中旋律的方向和运动可以通过音高轮廓来描述,但基于短语的单元的时间跨度可能与音高轮廓和节奏模式的单元不一致。如图1(b)所示,这个音乐片段可以分为四个相似的短语,前两个短语形成了一个具有清晰起伏旋律的独立音高轮廓,以令人满意的结尾结束。此外,这个片段还可以用八种节奏模式来表示,主要是两种节奏模式的重复:一种是均匀的四分音符模式,具有清晰稳定的节奏,便于跟随节拍;另一种是两个四分音符后跟一个二分音符的混合模式,通常用作结尾,因此我们需要进一步捕捉音高轮廓和节奏模式。
为了明确捕捉三个主要的音乐结构:短语、音高轮廓和节奏模式,并进一步探索音乐结构与难度等级识别之间的关系,我们提出了一种基于双路径音乐结构感知网络的新型音乐难度识别模型(MDRM)。首先,我们设计了一种同时编码和弦中所有音符的方案,以保留原始的和声结构。然后,使用两个平行的模块:短语结构表示(PSR)和音高-时长结构表示(PDR)模块来学习短语、音高轮廓和节奏模式的结构单元序列表示。每个模块都通过Bi-GRU获取全局上下文,并基于时间注意力来检测结构单元(Pei, Baltrusaitis, Tax, Morency, 2017, Rosin, & Radinsky)。因为时间注意力的权重分布与人类听觉神经活动在某种程度上是一致的(Denison, 2024, Li, Anumanchipalli, Mohamed, Chen, Carney, Lu, Wu, Chang, 2023),并且多项研究(Kn?sche, Neuhaus, Haueisen, Alter, Maess, Witte, Friederici, 2005, Zhang, Sun, Wu, Yang, 2022)显示了人类神经反应与短语边界之间的相关性,即人类的注意力从前一个短语转移到下一个短语。因此,我们识别时间注意力权重分布函数的局部最小值,并将其作为音乐结构边界。最后,我们将这些多方面的音乐结构融合起来以识别难度等级。我们提出方法的主要贡献总结如下:
•我们提出了一种基于双路径音乐结构感知网络的MDRM方法,该方法明确捕捉了短语、音高轮廓和节奏结构的音乐结构,并进一步探索了音乐结构与难度等级之间的关系。
•我们设计了两个音乐结构表示模块PSR和PDR,它们整合了人类对音乐结构的认知特征。这两个模块都使用Bi-GRU获取全局上下文,并基于时间注意力检测不同的结构单元。这有助于清晰地讨论音乐结构的条件知识如何影响识别难度等级这一复杂的元认知问题。
•我们在EN和AMBPT数据集上进行了广泛的比较实验,实验结果证明了我们在难度等级识别性能上的改进。