
Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o 小模型大能量

Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o 小模型大能量!在AI领域,参数规模曾被视为性能的上限。然而,Meta最新发布的KernelLLM却以8B参数的小模型,在GPU内核生成任务中超越了200B参数的GPT-4o。这款基于Llama 3.1 Instruct微调的8B参数模型,旨在将PyTorch模块自动转换为高效的Triton GPU内核。
KernelLLM不仅用更少的参数实现了更强的性能,还简化了GPU内核开发过程。它在KernelBench-Triton Level 1的单次推理性能超过了GPT-4o和DeepSeek V3,并且通过多次推理,其表现优于DeepSeek R1。这些成就来自一个比竞争对手小两个数量级的模型。
Denis Kanonik对此表示质疑:“这又是用测试集训练的吗?”但不可否认的是,KernelLLM让内核开发变得更加容易上手。它专门针对用Triton编写GPU内核的任务进行了训练,能够实现高性能GPU内核生成的自动化。随着工作负载增加及加速器架构多样化,定制化内核解决方案的需求显著上升。现有工具往往只能优化特定场景,而KernelLLM是首个在外部代码数据上进行微调的大规模语言模型。
使用KernelLLM时,只需输入PyTorch代码,就能生成Triton内核候选代码。随后,通过单元测试验证这些代码,确保输出正确。如果生成多个候选代码,还可以比较选择最优解。为了训练这个模型,团队收集了超过25000对(PyTorch, Triton)代码示例及合成样本,部分来自TheStack过滤后的代码,另一部分则是通过torch.compile()和提示技术生成的。
尽管KernelLLM规模较小,但在KernelBench-Triton测试中的表现令人印象深刻。单次推理得分为20.2,高于671B参数的DeepSeek V3(16分)和200B参数的GPT-4o(15分)。如果生成更多候选代码,得分还能进一步提升。所有测试均在NVIDIA H100 GPU上完成。
Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o 小模型大能量。