トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
私はAutokernelをオープンソース化しました -- GPUカーネルのためのAutoResearchです
どのPytorchモデルでも使えます。モデルのプロファイリング、ボトルネックのカーネルを見つけ、トリトン置換を書き、一晩中実験を実行します。ファイルを1つ編集し、ベンチマークし、保持するか戻し、これを繰り返すだけです。
カーネル最適化に応用されたautoresearchと同じループ@karpathy
95件の実験。18 TFLOPS → 187 TFLOPS。1.31倍とCuBLASの違い。すべて自律的
9種類のカーネルタイプ(matmul、flash attention、fused mlp、layernorm、rmsnorm、softmax、rope、cross entropy、reduce)。アムダールの法則が次に何を最適化するかを決定します。スピードアップがカウントされる前に5段階の正確性チェックを行います
エージェントは program.md(「研究機関コード」)を読み、編集し実行し、保持または戻します。~1時間あたり40回の実験。~320
GPT-2、LLaMA、BERTの定義が自己完結型で付属しているので、Transformersライブラリなしで始められます

トップ
ランキング
お気に入り
