
好人,AI产生的核比人类专家特别优化的细胞核还要好!斯坦福大学最近提出了一系列新发现,结果真的很棒。通过AI优化的原子核通过共同的深度学习操作重复了向天然Pytorch的进步,并且其性能可以提高到400%-MATMUL(FP32):性能达到Pytorch.matmul Torch的101.3%。二维卷积(Conv2d):性能达到Torch.nn.conv2d的179.9%。 SoftMax:性能达到了Torch.softmax的111.8%。层的标准化:性能达到Antorch.nn.layernorm的484.4%。 Conv2D+Relu+MaxPool的操作组合:绩效达到Pytorch参考实现的290.1%,占Antorch.com的189.0%。 (参考点,NVIDIA L40S GPU的性能率定义为ETHE参考时间除以时间kernel_size生成的时间)更令人惊讶的是,所有这些都是出乎意料的。研究人员的最初目的是训练生成合成数据的细胞核的生成模型。我们发现,仅在测试阶段生成的合成数据才能产生具有非常好的性能的核心。 OnGloker:我不希望AI替换内核工程师。一些人发现,除了显着改进绩效外,研究团队使用的方法非常有趣。我们添加了每次迭代之间的语言推论步骤,而不是简单的操作优化(类似于攀岩算法),我们鼓励搜索过程的多样化。换句话说,它使他们以类似的方式产生更多的想法,以每次改进系统改进时“思考”,从而找到更好的解决方案。 Seeamos如何实施它。在更改代码之前,我形成了自然语言优化的想法。解释斯坦福茶的博客根据这种类型的核心生成想法,考虑到火炬的代码,它非常简单,告诉所有人您可以编写个性化的核来替换火炬操作员。这些核是用纯Cuda-C编写的,而无需使用Cutlass,Triton和DSL(特定的域语言,特殊域语言)等库。与传统方法不同,一旦发布代码,模型就不会直接变化,但是首先生成了自然语言优化的想法,然后将这些想法变成新的代码变体。这样做的原因是,优化的概念“按顺序变化”没有多样性,落入局部最低限度,从而反复访问相同类型的转换或无限优化的Trnon -trnon -trandipation tickipationationatientialatization trnon tickationate tickationate atigated ayectories。为了进一步提高思想的多样性,斯坦福大学的团队还使用了多个花束勘探模型。具体而言,他的方法不仅可以在每个步骤中优化候选人。而是扩展每个想法都会得出多个实现,并使用最佳性能核心作为下一轮的种子。该团队在Operai O3和Gemini 2.5 Pro的Kernelbench级别的1级问题上挑战了10个问题,在执行多个回合之后,最好的核开始出现。这些最佳结果中的大多数将出现在后轮比赛中(总共5轮),主要是4或5个。核心银行是斯坦福队本身提出的一代核心的一组参考点。参考点的任务分为三个级别。 1级是指一个单个原始操作,其中包括AI的基本组件(卷积,Matriz的原始,矩阵矩阵增长,损耗函数,激活功能,层标准化等)。这一发现以及一系列事件,包括以前的深思熟虑以及O3的Linux 0天脆弱性,认为Gemini 2.5pro和O3技能水平已经达到了新的水平。返回在斯坦福项目中,我们看到,在生成过程中,生成模型的想法开始显示与人类经验的相似之处:优化访问记忆力:可以看出,以提高不同内存层之间数据流动的效率(全球内存,共享内存,记录,记录,记录),最大化bandwidth并最大程度地减少包含的数据,可以确保对数据的访问确保。异步和隐藏的延迟:“隐藏”延迟操作中延迟操作的延迟操作(例如访问全局存储器)与未置换或其他内存传输。数据类型和精度优化:使用低精度数据类型(例如FP16和BF16)来降低内存带宽要求并提高缓存效率。计算机和说明优化:提高算术计算本身的效率,减少说明数量或使用特殊的硬件说明。改进的并行性和职业:最大化的数量流多处理器(SMS)中的活动线程更好地隐藏潜伏期并提高一般性能。控制流量和循环优化:减少与循环计算,分支和索引相关的过载。此外,斯坦福大学的团队还展示了一系列特定的优化轨迹。这表明,并非所有优化步骤肯定会提高速度,但是在多个步骤组合之后,它可以提高核心的速度,并最终克服Pytorch。从特定的实现角度来看,有人问他是否可以在相应的代码实现中生成CUDA核时进行优化AI的建议,或者他是否会激活随机搜索。作者回答说,尽管没有其他严格的系统验证,但在手动检查的情况下,产生的CUDA外观或多或少与拟议的建议一致。然后,AI不是完全随机地优化的,但实际上是试图实施自己的策略。中国创意团队意外发现该研究有三位作者。 Anne Oyyan,Azalia Mirhoseni和Percy Lean。 Ouyang目前是斯坦福大学扩展情报学院的博士生。他从麻省理工学院毕业,并为Nvidia Cudnn团队工作。珀西·莱恩(Percy Lean)是斯坦福大学计算科学的教师和统计助理教授。目前,它在模型的基础研究中震惊。它是福特中心的主任。他与Li Feifei启动并宣传了许多研究工作。 Azalia Mirhoseini是斯坦福大学计算机科学助理教授,也是斯坦福大学扩张研究所的创始人。她为DeepMind,Google Brain和Anthrope工作。您以前的研究包括Moe,芯片设计算法中的Alfa芯片等。这项研究最初想生成数据以训练核心生成模型。但是,该过程显示出意外的结果。同步仅在测试阶段生成的数据可以产生核,其性能非常好。这些核利用了以前被认为难以实现的高级优化和硬件特性的优势,因此团队决定在博客格式中分享结果。但是,尽管研究团队目前无法公开某些数据,但也很容易提及此设计概念。最重要的事情显示出巨大的潜力。此外,研究人员还认为,发现反映了一些最近的趋势:不再需要大规模的怨恨。有时,智能搜索和分支策略可以解锁科学创新,解决复杂的问题,并可以通过验证者进行广泛的搜索来获得。强大的推理技能与探索多个假设的结合可以同时带来更好的结果。像Alphaevolve,Alphaevolution,Gemini 2.5 Pro深思熟虑。最后,茶M说,这项研究仍然有优化的空间。例如,两个维度仍然优化:FP16 MatMul:52%Torch.matmulfp16flash注意:9%torch.nn.scaled_dot_product_attention与FP16或BF16相比并不常见,如果FP32不常见,并且FP32是常见的,FP32是正常启动的,fp32是FP32,fp32,FP32是优化的。 Pytorch。他们拯救了他们对未来仍然乐观,尽管有很多限制。毕竟,首先,我什至无法生成一个可以成功执行的核心,但是不断优化我的搜索方法已将闪光注意力的性能提高到了一个良好的水平。值得一提的是,搜索使用的资源很少,只有300万个令牌门票和400万个令牌郊游。另一件事是尝试开发不仅是团队的核心模型。 5月,德文认知开发了开源Kevin-32b,这是您可以通过增强学习编写CUDA核的第一个主要模型。在Kern中使用GPOEL银行数据集基于QWQ-32B,以比O3和O4-Mini更好地增强了增强的学习回合。参考链接:[1] https://crfm.stanford.edu/2025/05/28/fast-kernels.html [2]