苹果M架构的比较性能与效率分析：以GEMM案例研究为例

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Generation Computer Systems》：A Comparative Performance and Efficiency Analysis of Apple’s M Architectures: A GEMM Case Study

【字体：大中小】 时间：2026年01月25日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　Apple M系列异构处理器在GEMM基准下的性能与能效分析，重点评估CPU、GPU、AMX矩阵加速器和ANE专用神经引擎的协同效率，揭示AMX在浮点运算中的68% GPU性能/42%功耗优势及ANE的700+ GFLOPs/W能效表现。

Sandra Catalán | Rafael Rodríguez-Sánchez | Carlos García Sánchez | Luis Pi?uel Moreno

西班牙海梅一世大学

摘要

本文评估了苹果处理器在多个基于ARM的M系列世代和型号（标准版和Pro版）中的性能和能效。这项研究的动机在于苹果SoC架构的日益多样化，这些架构集成了多种计算引擎，从而引发了这样一个科学问题：哪些硬件组件最适合执行通用计算和特定领域计算，例如通用矩阵乘法（GEMM）。分析重点关注四个关键组件：中央处理单元（CPU）、图形处理单元（GPU）、矩阵计算加速器（AMX）和苹果神经引擎（ANE）。

评估使用GEMM作为基准，来衡量CPU和GPU的性能，并对专门用于处理大规模数学运算的AMX进行测试，同时对专为深度学习设计的ANE也进行了测试。此外，还收集了能耗数据以分析上述资源的能效。结果表明，随着世代的更迭，计算能力和能效都有显著提升。一方面，AMX在FP32和FP64工作负载方面表现最为高效，大幅提升了整体系统性能。在集成两个矩阵加速器的M4 Pro中，其FP32性能达到了GPU的68%，但功耗仅为其42%。另一方面，尽管ANE的精度限制在FP16，但在低精度任务中表现出色，在批量工作负载下其能效超过了其他加速器，超过了700 GFLOPs/Watt。

这项分析清晰地展示了苹果定制的ARM设计如何优化性能和能源使用，特别是在多核处理和专用加速单元的背景下。此外，本研究的一个重要贡献是对苹果加速器的全面比较分析，这些加速器此前记录较少且研究不足。分析涵盖了不同世代，并将加速器与CPU和GPU的性能进行了对比。

引言

计算系统的演变一直致力于追求更高的性能、效率以及处理日益多样化的应用程序和工作负载的能力。几十年前，系统主要由同构架构主导，其中一种类型的处理器执行所有任务。然而，随着处理需求的增加，尤其是图形、多媒体和人工智能应用的兴起，人们意识到通用方法无法最佳地满足所有需求。这一认识促使人们开发和采用了异构架构，多种类型的处理单元协同工作以优化性能和能效。

异构架构在一个系统中集成了不同类型的处理器，如CPU（中央处理单元）、GPU（图形处理单元）、TPU（张量处理单元）和其他专用加速器。这种方法使每种类型的处理器能够处理其最擅长的任务。例如，GPU在大规模并行计算操作中极其高效，而CPU则更加通用，适用于具有中等并行度的控制任务。这些元素的组合使异构系统能够在广泛的应用中提供卓越的性能。

这一趋势的一个显著例子是苹果M架构的演变，始于2020年M1芯片的发布[1]。M1通过在一个系统芯片（SoC）中集成高性能和高效率的CPU、多核GPU、矩阵乘法协处理器、专用的机器学习任务神经引擎（ANE）以及其他各种专用组件，标志着一个重要的里程碑。这种集成使得配备该芯片的设备能够提供高性能，同时保持良好的能效，并优化从日常任务到密集图形处理和人工智能应用的多种工作负载的执行。

M1芯片的成功之后，M2、M3和M4（也有Pro和Max版本）相继发布[2]。这些芯片通过增加核心数量和显著提升的内存带宽进一步扩展了异构能力。这些芯片不仅在专业和高需求任务中提升了性能，还展示了如何在单个芯片中集成多种类型处理单元来有效应对现代应用的挑战。

苹果向其M芯片过渡到异构架构，是计算行业更广泛趋势的一个例子。随着应用的不断发展和处理需求的多样化，预计异构架构将在各种设备和平台上得到更广泛的应用。这一趋势不仅有望提高计算系统的性能和效率，还为计算机架构领域的研究和发展带来了新的挑战和机遇。

半导体行业的其他主要参与者也探索了异构计算架构。ARM的big.LITTLE架构结合了高性能和节能的CPU核心，这是一种在移动和嵌入式系统中平衡性能和功耗的类似方法[3]。同样，NVIDIA的Jetson系统芯片（SoC）平台[4]集成了ARM CPU、NVIDIA GPU和专用深度学习加速器（DLA），采用统一内存架构，在边缘端利用了异构设计。在服务器领域，AMD在加速处理单元（APU）中集成了CPU和GPU，并通过AMD MI300A系列实现了HPC和人工智能（AI）的融合[5]。英特尔在第12代Alder Lake处理器中引入的混合架构也集成了性能核心（P-core）和效率核心（E-core），以提高多线程性能，同时保持能效[6]。然而，苹果的M系列芯片因其统一的架构、CPU、GPU和AI加速器的无缝集成以及与macOS和iOS软件的紧密耦合而脱颖而出。

尽管异构SoC的采用率不断增长，但对于它们在不同计算单元在现实条件下执行常见计算内核时的表现仍了解有限。对于苹果的M系列芯片，尽管其架构因其性能和效率而受到广泛赞誉，但关于每个内部组件（CPU、GPU、AMX和ANE）如何贡献于整体计算效率的科学文献却很少。为了在苹果M系列系统的异构计算引擎之间进行有控制的、以架构为中心的比较，我们使用GEMM作为案例研究。GEMM是一个基本的、经过广泛优化的核心，在CPU、GPU和ML加速器中得到统一支持，使其成为跨引擎评估的可靠基准。其可调的维度、精度和并行性使我们能够隔离架构特性（例如计算吞吐量和效率），而不会引入框架或应用程序层面的变异性。此外，由于GEMM是许多科学计算和机器学习工作负载的基础，它提供的见解超越了单个内核的范围，同时足够精确以揭示异构单元之间的架构差异。

这提出了一个基本问题：对于像GEMM这样的代表性且广泛使用的计算任务，这些异构组件中哪一个在性能和能耗之间提供了最佳的平衡？解决这个问题不仅有助于描述苹果的硬件，也有助于我们更深入地理解现代异构架构中的设计权衡。为此，本研究对苹果M系列处理器的几代产品进行了系统的性能和能效评估，比较了其主要计算引擎的能力和局限性。

在这项工作中，第2节首先介绍了一些相关工作，第3节介绍了目标平台。第4节详细介绍了用于表征系统性能和能耗的软件。第5节展示了获得的结果。最后，第6节得出了某些结论。

硬件特性

本研究针对一组苹果处理器分析了它们的特性和行为。我们的测试是在M1、M2、M2 Pro、M3、M3 Pro和M4 Pro处理器上进行的，这些处理器在以下小节中有详细描述。

基准测试

在这项研究中，我们选择了GEMM核心作为基准，因为它在高性能计算中具有广泛的相关性，并且能够有效评估现代处理器的性能和效率，包括能耗，原因有以下几点：

•

定制实现：我们选择关注GEMM，因为它提供了一个使用单一、一致的应用程序来评估SoC多个组件的独特机会。对于每个组件，都有高度优化的实现

评估

实验是在第3节中概述的架构上进行的，使用了第4节中描述的基准测试。关于操作系统，所有平台都运行不同版本的Darwin内核：22.3.0（M1）、22.6.0（M2）、22.6.0（M2 Pro）、23.2.0（M3）、24.0.0（M3 Pro 11核）、23.6.0（M3 Pro 12核）和24.2.0（M4 Pro）。

为了确保比较尽可能公平，所有基准测试都是使用相同的编译器（Clang 15.0）和默认优化标志编译的

结论

这项工作对苹果M系列处理器的性能进行了全面的比较研究，特别关注了一些加速器，包括GPU、AMX和ANE。据作者所知，这是同类研究中的首例。

结果支持了最初对AMX协处理器的逆向工程工作中提出的假设，即每个核心集群中有一个AMX，且它们的设计和能力有所不同

CRediT作者贡献声明

Sandra Catalán：撰写 – 审阅与编辑，撰写 – 原始草稿，可视化，验证，调查，资金获取，形式分析。Rafael Rodríguez-Sánchez：撰写 – 审阅与编辑，撰写 – 原始草稿，调查，形式分析，概念化。Carlos García Sánchez：撰写 – 审阅与编辑，撰写 – 原始草稿，验证，调查，形式分析，概念化。Luis Pi?uel Moreno：撰写 – 审阅与编辑，撰写 – 原始草稿，

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号