Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
tôi đã mã nguồn mở autokernel -- nghiên cứu tự động cho các kernel GPU
bạn chỉ cần cung cấp bất kỳ mô hình pytorch nào. nó sẽ phân tích mô hình, tìm các kernel tắc nghẽn, viết các thay thế triton và thực hiện các thí nghiệm qua đêm. chỉnh sửa một tệp, đo hiệu suất, giữ lại hoặc hoàn tác, lặp lại mãi mãi.
cùng một vòng lặp như @karpathy autoresearch, áp dụng cho tối ưu hóa kernel
95 thí nghiệm. 18 TFLOPS → 187 TFLOPS. 1.31x so với cuBLAS. hoàn toàn tự động
9 loại kernel (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). định luật amdahl quyết định cái gì sẽ được tối ưu hóa tiếp theo. 5 giai đoạn kiểm tra độ chính xác trước khi bất kỳ sự tăng tốc nào được tính
đại lý đọc program.md ("mã tổ chức nghiên cứu"), chỉnh sửa, chạy và giữ lại hoặc hoàn tác. ~40 thí nghiệm/giờ. ~320 qua đêm
đi kèm với định nghĩa GPT-2, LLaMA và BERT tự chứa để bạn không cần thư viện transformers để bắt đầu

Hàng đầu
Thứ hạng
Yêu thích
