基于申威众核架构的层归一化加速与优化
DOI:
CSTR:
作者:
作者单位:

江南大学

作者简介:

通讯作者:

中图分类号:

TP391.9??????

基金项目:

高等学校学科创新引智计划项目(B23008)


Acceleration and optimization of Layer Normalization based on Sunway many-core architecture
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对层归一化在高性能计算中面临的访存密集性问题,提出以申威众核处理器为平台的并行层归一化计算方案。该方案的核心思想是高效利用SW26010P众核处理器的计算资源和传输带宽,通过采用两种不同的分核策略对数据进行划分,结合双缓冲机制、DMA技术和SIMD向量化等优化手段,来实现计算任务的并行化处理。实验测试结果表明,与主核串行算法相比,使用并行层归一化可以获得55.48的最高加速比。与使用SIMD指令优化前的并行层归一化相比,经过SIMD指令对并行层归一化进行数据并行优化的最大有效算力为28.25 GFLOPS。

    Abstract:

    Addressing the memory access-intensive issues of layer normalization in high-performance computing, this paper proposes parallel layer normalization computing schemes on the Sunway multi-core processor platform. The core idea of the proposed solution is to efficiently utilize the computational resources and bandwidth of the SW26010P multi-core processor. By employing two different core distribution strategies to partition the data, and leveraging optimization techniques such as double buffering, DMA technology, and SIMD vectorization, the parallel processing of computational tasks is effectively realized. Experimental results demonstrate that, compared to the serial algorithm on the main core, this parallel approach achieves a maximum speedup of 55.48. Compared to the parallel layer normalization without SIMD instruction optimization, the maximum effective computing power after SIMD optimization reaches 28.25 GFLOPS.

    参考文献
    相似文献
    引证文献
引用本文

王鑫,姚柄彤.基于申威众核架构的层归一化加速与优化计算机测量与控制[J].,2026,34(2):174-181.

复制
分享
相关视频

文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-02-05
  • 最后修改日期:2025-03-12
  • 录用日期:2025-03-13
  • 在线发布日期: 2026-02-09
  • 出版日期:
文章二维码