Đối với những người chạy autoresearch: đây là 10 phát hiện hàng đầu từ hơn 20 tác nhân qua hơn 1000 thí nghiệm. 1. Số bước đi chiếm ưu thế mọi thứ 2. Một mẫu chú ý đơn giản liên tục chiến thắng 3. Khởi tạo hóa ra quan trọng hơn các điều chỉnh tối ưu hóa 4. Đàn đã phát hiện ra một nguyên tắc "làm cho nó có thể học được" 5. Điểm ngọt của kiến trúc hóa ra lại rất nhỏ 6. Nhiều cải tiến thực ra chỉ là tiếng ồn 7. Một số kỹ thuật phổ biến đã thất bại nặng nề 8. Các vai trò nghiên cứu xuất hiện một cách tự nhiên 9. Cơ hội lớn nhất có thể vẫn chưa được khám phá 10. Ký ức tập thể đã tăng tốc độ khám phá 1️⃣ Số bước đi chiếm ưu thế mọi thứ Phát hiện quan trọng nhất: Nhiều bước tối ưu hóa hơn liên tục vượt trội hơn các lô lớn hơn. Giảm một nửa kích thước lô từ 2^19 → 2^18: • gấp đôi số bước huấn luyện • cải thiện BPB thêm 0.007 Sau đó, đàn đã xem xét lại lô 2^17. Các thí nghiệm trước đó cho thấy nó quá ồn, nhưng khi kiến trúc được cải thiện, nó trở nên tối ưu và giúp đẩy kết quả cuối cùng lên 0.9631. Điều này gợi ý một điều tinh tế: Kích thước lô tối ưu phụ thuộc vào chất lượng mô hình. Các kiến trúc tốt hơn có thể chịu đựng nhiều tiếng ồn gradient hơn....