神经网絡驅動低比特 CUTLASS GEMM 自動調優：大規模數據的高效優化

《IEEE Transactions on Big Data》：Leveraging Large-Scale Data for Efficient Low-Bit CUTLASS GEMM Optimization via Neural Networks

【字体：大中小】 时间：2026年02月22日 来源：IEEE Transactions on Big Data 5.7

编辑推荐：

　　本研究針對深度學習中低精度矩陣乘法（GEMM）在 GPU 平台上的優化難題，提出一種基於神經網路的自動調優框架。該研究構建了包含多種 GPU 架構的大規模數據集，並訓練神經網路模型預測最優的 GEMM 模板參數（Tile形狀與Pipeline階段）。實驗驗證該方法能實現高達 95.11% 的預測準確率，在 A100 GPU 上相比默認模板獲得了 GEMM 運算最高 1.99 倍的加速，為低比特神經網路的高效部署提供了有力工具。

隨著人工智慧浪潮的席捲，從自然語言處理到電腦視覺，神經網路（Neural Networks）已經滲透到我們數字生活的方方面面。然而，支撐這些智慧應用的巨量計算背後，是對硬體算力近乎無止境的需求。尤其是在大規模數據和複雜模型的場景下，神經網路的訓練與推理帶來了巨大的計算與資源開銷。為了在有限的資源下跑得更快、更省，研究人員將目光投向了「低比特神經網路」——通過降低模型中權重和啟用的數值精度（例如使用 1-bit、4-bit、8-bit 來代替傳統的 32-bit 浮點數），可以在基本保持模型精度的同時，顯著降低計算複雜度、存儲需求和能耗。這項技術對於將大模型部署到手機、嵌入式設備等資源受限的邊緣環境尤為關鍵。

然而，一個新的挑戰隨之浮現：如何高效地執行這些低精度數據的基礎運算？通用矩陣乘法（General Matrix Multiplication， GEMM）是神經網路中全連接層和卷積層的核心操作，可以說是其計算負擔的主要來源。雖然針對高精度（如 FP32、FP16）GEMM 的優化已經取得了長足進步，但低比特 GEMM 的高效優化仍然是一個懸而未決的開放性難題。

NVIDIA 的 CUTLASS 庫為基於 Tensor Core 的低比特 GEMM 計算提供了強大的支持。其 GEMM 模板使用了複雜的分塊（Tiling）策略，將大矩陣分解成小塊進行計算。其中，分塊的大小（Tile Shape）和計算管線的階段數（Pipeline Stage）是兩個至關重要的超參數。分塊大小決定了計算資源的分配和塊之間的並行度，而管線計算能提升塊執行的並行性，但過多的管線階段又可能限制每個塊可用的資源。對於不同的矩陣大小和 GPU 架構，如何在這兩個參數之間找到最佳平衡點，成為提升性能的關鍵。現有的解決方案要麼只關注高精度數據類型，要麼僅優化單一參數，未能系統性地解決低比特 GEMM 在複雜參數空間中的自動調優問題。

為此，一篇發表在《IEEE Transactions on Big Data》上的研究提出了一個新穎的低比特 CUTLASS GEMM 自動調優框架。該研究的核心思路是：將尋找最優 GEMM 模板參數的過程，重新構建為一個基於神經網路的分類問題。研究人員不再依賴耗時的手動試錯或有限的啟發式規則，而是利用大規模合成數據集訓練一個神經網路模型，讓它學習從輸入的矩陣維度、GPU硬體特徵到最優模板配置之間的複雜映射關係。

為了開展這項研究，作者團隊主要運用了以下幾個關鍵技術方法：首先，他們基於 CUTLASS 庫設計並構建了一個大規模的低比特 GEMM 分類數據集。該數據集涵蓋了 1-bit、4-bit、8-bit 三種數據類型，在包括 RTX 3080、RTX 3090 和 A100 在內的多款 NVIDIA Ampere 架構 GPU 上，採集了總計高達 116,100 個獨特的 GEMM 執行時間樣本，每個樣本記錄了在特定矩陣維度下九種不同模板的執行時間。其次，他們設計了一個輕量級的多層前饋神經網路模型，其輸入特徵包括矩陣維度（M, N, K）和 GPU 的流式多處理器（Streaming Multiprocessors， SM）數量，輸出則是對九種候選模板的預測分類。最後，他們使用該神經網路模型在真實的 GPU 硬體平台上進行了推斷驗證，動態選擇並應用預測出的最優模板來執行低比特 GEMM 計算。

研究結果

1. 可定制的 CUTLASS GEMM 模板與優化空間

研究首先闡明了 CUTLASS GEMM 模板的工作原理。在矩陣乘法 A × B = C 中，輸出矩陣 C 被劃分為多個統一大小的線程塊（ThreadBlock， TB）分塊。每個 TB 分塊負責計算 C 的一個子矩陣，這需要沿著 K 維度進行循環訪問以讀取輸入矩陣 A 和 B 的對應部分。分塊形狀（Tile Shape）參數（如 TB_M, TB_N, TB_K）決定了計算粒度，而管線階段（Pipeline Stage）參數則用於重疊數據加載與計算，以隱藏內存訪問延遲。研究表明，對於小矩陣，較小的分塊形狀能分配更多線程以增強並行性，但可能犧牲數據重用；對於大矩陣，較大的分塊形狀則能減少線程數量和排隊開銷。同樣，增加管線階段數有助於隱藏延遲，但也會消耗更多共享內存等資源。因此，GEMM 的優化空間非常複雜，需要在分塊形狀和管線階段之間取得最佳平衡。

2. 基於神經網路的自動調優方法論

研究提出了一個完整的方法框架。該框架的核心是將超參數調優轉化為分類問題。研究設計了一個包含三種分塊大小（大、中、小）和三種管線階段（2、3、4）的搜索空間，共組成 9 種關鍵的模板配置。通過 CUTLASS 庫模擬，收集了這些配置在廣泛矩陣維度（M, N, K）和不同 Ampere GPU 上的執行時間數據，並構建成標註了最優模板索引的數據集。數據分析揭示，低比特 GEMM 的最優模板選擇呈現出清晰的模式，例如對於較小的 M×N，較高的管線階段能提供更好的加速。視覺化結果（如圖 4 所示）進一步證實了這種模式的存在，為神經網路的學習提供了基礎。

3. 神經網路模型設計與優化

研究團隊設計了一個包含輸入層、三個隱藏層和輸出層的前饋神經網路。通過系統的消融實驗，他們確定了最佳的模型超參數：批次大小（Batch Size）為 32，隱藏層維度為 128×128，隱藏層深度為 3，學習率（Learning Rate）為 0.001。在輸入特徵重要性分析中，他們發現 GPU 的流式多處理器（SM）數量是區分不同 GPU 計算能力並影響模型預測的最關鍵硬體特徵。因此，最終模型的輸入特徵為矩陣維度（M, N, K）和 SM 數量。模型採用交叉熵損失函數（Cross-Entropy Loss）和 Adam 優化器進行訓練，並以 Top-2 準確率作為評估指標，這是因為排名第一和第二的模板在執行性能上非常接近。

4. 實驗驗證與性能提升

訓練好的模型在驗證數據集上取得了高達 95.11% 的 Top-2 準確率。更重要的實時性能評估顯示，該方法在真實的 GPU 硬體上帶來了顯著的加速效果。在 RTX 3080 GPU 上，相比默認的 CUTLASS 模板，GEMM 操作獲得了最高 1.35 倍的加速，線性層（Linear Layer）獲得了 1.13 倍的加速。在 RTX 3090 GPU 上，加速比分別達到 1.41 倍（GEMM）和 1.14 倍（線性層）。在數據中心級的 A100 GPU 上，性能提升最為突出，GEMM 操作實現了最高 1.99 倍的加速，線性層實現了 1.28 倍的加速。這些結果有力地證明了該神經網路驅動的自動調優框架的有效性。

研究結論與重要意義

本研究成功提出並驗證了一個基於神經網路的低比特 CUTLASS GEMM 自動調優框架。該工作的主要貢獻體現在三個方面：首先，它創新性地將低比特 GEMM 超參數調優過程重新表述為一個基於神經網路的分類框架，通過統一的數據驅動方式，實現了跨不同 GPU 平台的最優分塊與管線配置預測。其次，研究開源了一個涵蓋三種比特類型（1-bit, 4-bit, 8-bit）的大規模低比特 GEMM 分類數據集，為後續相關研究提供了寶貴的資源。最後，實驗全面驗證了該方法在準確預測最優配置方面的效力，並在真實硬體上展示了可觀的性能提升。

這項研究的重要意義在於，它為低比特神經網路的高效部署提供了關鍵的底層運算優化方案。隨著模型量化（Quantization）技術的發展和大型語言模型（Large Language Models， LLMs）向低比特方向的演進，對低比特 GEMM 計算效率的需求日益迫切。該研究提出的自動化方法，能夠有效解決手動調優不切實際、傳統啟發式方法泛化能力不足的問題，使開發者能夠更便捷地為特定的硬體和任務選擇最高效的計算核心。這不僅能加速低比特神經網路的推理過程，降低部署門檻，也為未來面向新興硬體架構的自適應性能優化開闢了新的思路。總之，這項工作通過巧妙結合大規模數據與神經網路學習能力，在系統優化與深度學習的交叉領域，實現了從“手工藝”到“自動化”的躍進，對推動高效能計算與邊緣智能的發展具有積極的促進作用。

热点排行

新闻专题