kaiyun sports 摩尔线程开源TileLang-MUSA: 高效GPU算子开导 代码精简90%

发布日期:2026-02-12 23:34    点击次数:60


kaiyun sports 摩尔线程开源TileLang-MUSA: 高效GPU算子开导 代码精简90%

该方式已见效在摩尔线程多代全功能GPU上完见着力考证与特点开导,旨在通过高层轮廓与编译器优化,大幅镌汰开导门槛,为国产算力平台提供更高效的AI与高性能筹备开导体验。

▼ TileLang-MUSA开源地址:

https://github.com/MooreThreads/tilelang_musa

TileLang是一款基于张量分块(Tiling)轮廓的高性能AI算子编程谈话,属于边界特定谈话(DSL)。

它接纳声明式语法与类Python前端,使开导者不祥以接近数学公式的体式形色筹备意图,并由编译器自动完成轮回优化、内存调度与代码生成,在保执底层性能的同期大幅镌汰GPU及异构筹备平台的编程复杂度。

在实质应用中,TileLang通过三大中枢作用权贵普及GPU筹备的开导成果:

- 通过高级轮廓镌汰开导门槛,开导者无需深刻底层硬件学问即可生成高性能代码;

- 具备跨平台身手,兑现“一次编写、多架构动手”,灵验处分多元算力生态的适配贫乏;

- 编译器自动履行Layout推导、线程映射、Warp特化、活水线排布、内存优化等复杂优化,在保险性能的同期普及开导成果。

TileLang已平方应用于多个要害边界,举例:

在AI与机器学习中,商议东说念主员可用其快速界说新式算子(如瞩眼力机制);

在科学筹备中,可通俗移植大型数值模拟关节至不同硬件平台;

对硬件厂商而言,TileLang可动作构建芯片软件生态的基础器具链。

在产业践诺中,DeepSeek-V3的研发已接纳TileLang进行算子快速原型蓄意与性能考证,讲解了其在大限度模子老练中的实战价值。

摩尔线程这次开源的 TileLang-MUSA方式,旨在充分开释摩尔线程全功能GPU的性能后劲。它提供了一种介于底层汇编与高层DSL之间的“中间层”轮廓,在保留硬件截止力的同期,权贵镌汰了编程复杂度。

具体特点如下:

▼ 平方的硬件架构覆盖:

TileLang-MUSA已在摩尔线程多代全功能GPU上完见着力考证与买通,包括训推一体全功能智算卡 MTT S5000和MTT S4000,展现了细腻的硬件兼容性。

▼ 中枢筹备特点的深度映射:

方式团队兑现了TileLang高层语义到摩尔线程GPU底层MUSA架构的精确映射。

- Tensor Core 加快:

编译器不祥自动调用MUSA的MMA(矩阵乘累加)辅导,充分推崇硬件张量中枢的峰值筹备身手;

- Tile-Level Pipeline:

自动处理从全局内存(Global Memory)到分享内存(Shared Memory)再到寄存器(Registers)的多级数据搬运,附近MUSA异步拷贝辅导袒护访存延迟;

- Warp级并行优化:

竣工补助Warp Specialization特点。

当今,基于MUSA架构的TileLang原生算子单位测试覆盖率已向上80%,为大限度应用提供了可靠保险。

开导者在完成环境建设后,可保留原有的import tilelang民风,开云sports通过Cython编译后端平直在MUSA环境中动手TileLang代码。

以下是一个基于TileLang-MUSA的高性能矩阵乘法兑现示例:通过纯粹明了的语法形色筹备逻辑,编译器不祥自动生成高度优化的MUSA内核代码。依托TileLang丰富且经过深度调优的原语算子库(primitives),开导者借助TileLang-MUSA不仅不祥权贵普及编码成果,更能平直调用底层硬件的筹备后劲,兑现比好意思手工优化性能的矩阵运算。

import tilelang

import tilelang.language as T

import torch

from tilelang.primitives.gemm.base import GemmWarpPolicy

def matmul(M, N, K, block_M, block_N, block_K, dtype="float16", accum_dtype="float"):

@T.prim_func

def matmul_kernel(

A: T.Tensor((M, K), dtype),

B: T.Tensor((K, N), dtype),

C: T.Tensor((M, N), dtype),

):

with T.Kernel(T.ceildiv(N, block_N), T.ceildiv(M, block_M), threads=512) as (bx, by):

T.use_swizzle(panel_size=4, order='col')

A_shared = T.alloc_shared((block_M, block_K), dtype)

B_shared = T.alloc_shared((block_K, block_N), dtype)

C_local = T.alloc_fragment((block_M, block_N), accum_dtype)

T.clear(C_local)

for k in T.Pipelined(T.ceildiv(K, block_K), num_stages=3):

T.copy(A[by * block_M, k * block_K], A_shared)

T.copy(B[k * block_K, bx * block_N], B_shared)

T.gemm(A_shared, B_shared, C_local, policy=T.GemmWarpPolicy.Square)

T.copy(C_local, C[by * block_M, bx * block_N])

return matmul_kernel

def main:

M, N, K, BLOCK_M, BLOCK_N, BLOCK_K = 8192, 7168, 16384, 256, 256, 64

device = "musa"

A = torch.randn((M, K), dtype=torch.float16, device=device)

B = torch.randn((K, N), dtype=torch.float16, device=device)

program = matmul(M, N, K, BLOCK_M, BLOCK_N, BLOCK_K, dtype="float16", accum_dtype="float32")

kernel = tilelang.compile(

program,

out_idx=-1,

target="musa",

execution_backend="cython",

verbose=True,

)

ref_out = torch.mm(A, B)

C = kernel(A, B)

torch.testing.assert_close(ref_out.to(torch.float16), C.to(torch.float16), rtol=1.25e-1, atol=1.25e-1)

if __name__ == "__main__":

main

TileLang-MUSA的蓄意理念是让路发者“写得快”且“跑得快”。在实质算子开导践诺中,这一指标已取得考证。

以大谈话模子中至关迫切的FlashAttention-3和GEMM(通用矩阵乘)算子为例,在摩尔线程MTT S5000上的测试终局知道:

▼ 开导成果倍增:

相较手写MUSA C++代码,使用TileLang-MUSA的代码量减少了约90%,且代码逻辑愈加明晰,极大镌汰了开导与调遣老本。

▼ 性能比好意思手写:

收成于TileLang-MUSA优秀的编译器优化,生成的算子性能在典型建设下,Gemm最高可达胜利写优化版块的95%, FlashAttention-3不错达胜利写优化版块的85%。

▼ 自动化调优:

借助TileLang-MUSA的Auto-tuning机制,开导者不错在MUSA架构的全功能GPU上快速搜索最优的分块计策(Tile Size)和活水线级数,自便越过未经深度优化的基准兑现。

TileLang-MUSA的推出,为开导者带来了三大中枢价值:

▼ 无缝搬动:

TileLang用户不错近乎零老土产货将算子逻辑搬动至摩尔线程GPU;

▼ 镌汰门槛:

“分析人士认为,美方很可能将此次演习视为蓄意挑衅。”《澳大利亚人报》称,美方可能对此次演习感到不满,因为参加演习的包括被华盛顿视为其全球竞争对手国家的军舰。据《华尔街日报》报道,美国非洲司令部副司令、陆军中将约翰·布伦南宣称:“非洲周边的全球水域是战略竞争对手的主要目标,这些对手试图通过增强自身经济实力、制造混乱和破坏秩序来获取宝贵的海洋资源和全球贸易通道。”

TileLang-MUSA为不熟悉MUSA辅导集的AI工程师提供了高级次的开导进口,大幅镌汰了国产GPU的应用门槛;

▼ 赋能大模子:

TileLang-MUSA通过补助FlashAttention等要害算子的高效开导,将有劲加快大谈话模子等前沿AI应用在国产算力平台上的部署与落地。

TileLang-MUSA的开源是摩尔线程构开国产算力生态的要害一步。

以此为起初,摩尔线程将执续推动平台与生态诞生,艰难于打造一个覆盖从单算子到竣工大模子的国产算力调解加快平台:

执续进行性能优化,开导更多MUSA架构定制彭胀,使生成代码性能踏实达胜利写优化版块的90%以上;

深度集成SGLang等主流AI框架,兑现老练与推理场景的端到端无缝加快;

从单算子优化蔓延至Transformer、MoE等复杂模子架构的跨算子调度与全局优化;

完善调试和性能分析器具链kaiyun sports,为开导者提供全经由补助。






Copyright © 1998-2026 开云体育官方网站 - KAIYUN™版权所有

gslz-kaiyun.com 备案号 备案号: 

技术支持:®开云体育  RSS地图 HTML地图

开云体育官方网站 - KAIYUN

热点资讯

推荐资讯