Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
я опубликовал autokernel с открытым исходным кодом -- автоисследование для GPU ядер
вы даете ему любую модель pytorch. он профилирует модель, находит узкие места в ядрах, пишет замены на triton и проводит эксперименты за ночь. редактируйте один файл, проводите бенчмаркинг, сохраняйте или откатывайте, повторяйте вечно.
тот же цикл, что и у @karpathy в автоисследовании, примененный к оптимизации ядер
95 экспериментов. 18 TFLOPS → 187 TFLOPS. 1.31x по сравнению с cuBLAS. все автономно
9 типов ядер (умножение матриц, быстрая внимательность, объединенный mlp, нормализация по слоям, rmsnorm, softmax, rope, кросс-энтропия, редукция). закон Амдала решает, что оптимизировать дальше. 5 этапов проверок корректности перед тем, как любой прирост скорости будет засчитан
агент читает program.md ("код исследовательской организации"), редактирует, запускает и либо сохраняет, либо откатывает. ~40 экспериментов в час. ~320 за ночь
поставляется с самодостаточными определениями GPT-2, LLaMA и BERT, так что вам не нужна библиотека transformers, чтобы начать

Топ
Рейтинг
Избранное
