我们在KernelBench上使用o3-mini和一个进化示例带取得了一个未经验证的SOTA结果:声称实现了208/250的加速,包括3个Level 4(之前未触及)的加速。 如果有人能帮助审查优化后的KernelBench内核,我们将不胜感激。 感谢@anneouyang和斯坦福大学的@ScalingIntelLab同意审查这些内核。
wordgrammer
wordgrammer2025年4月30日
优秀的GPT封装器已经被构建出来了,而ChatGPT在编写原始Cuda代码时显得力不从心。现在是怪物登场的时候了。
10.67K