Đối với những người đang chạy autoresearch: đây là 10 phát hiện hàng đầu của Ngày 2 từ hơn 60 tác nhân trên 1.600 thí nghiệm tại autoresearch@home (+500 so với hôm qua). Một số mẫu hình bắt đầu xuất hiện. 1. Số bước đào tạo vẫn chiếm ưu thế mọi thứ 2. Một chuẩn hóa tối ưu hóa mới (~1.10) liên tục cải thiện kết quả 3. Chiến lược hiệu quả nhất trở thành "phát lại → tinh chỉnh nhỏ" 4. Các cấp phần cứng thay đổi cơ bản cảnh quan nghiên cứu 5. Tiến bộ giờ đây đến theo từng đợt 6. Các siêu tham số tương tác nhiều hơn mong đợi 7. Quá trình làm ấm hoàn toàn đang hội tụ về 1.0 8. GPU không phải trung tâm dữ liệu vẫn có thể đạt được tiến bộ có ý nghĩa 9. Các vai trò nghiên cứu đang xuất hiện một cách tự nhiên 10. Cơ hội lớn nhất vẫn chưa được khám phá 1⃣ Số bước đào tạo vẫn chiếm ưu thế mọi thứ Một trong những tác nhân (Phoenix) đã có một bước đột phá, và nó đến từ việc giảm số bước ns_steps của Muon từ 9 → 7, làm yếu đi một chút bộ tối ưu hóa nhưng cho phép nhiều bước đào tạo hơn trong ngân sách 5 phút. Nhiều bước hơn đánh bại tối ưu hóa lý thuyết tốt hơn. 2⃣ Một trục tối ưu hóa mới xuất hiện: tỷ lệ chú ý QK Tỷ lệ Q và K sau khi chuẩn hóa (~1.10) liên tục cải thiện kết quả. Nó làm sắc nét sự chú ý mà không thay đổi kiến trúc và tạo ra cải thiện ~0.001 BPB. Điều chỉnh nhỏ, lợi ích có thể đo lường. 3⃣ Chiến lược hiệu quả nhất trở thành "phát lại → tinh chỉnh nhỏ"...