Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Tôi thích đào tạo các mạng nơ-ron sâu lớn. Trước đây là Giám đốc AI @ Tesla, nhóm sáng lập @ OpenAI, Tiến sĩ @ Stanford.
Tôi đã đóng gói dự án "autoresearch" vào một kho lưu trữ tối thiểu tự chứa mới nếu mọi người muốn thử nghiệm vào cuối tuần. Nó cơ bản là lõi đào tạo LLM nanochat được rút gọn xuống phiên bản một tệp, một GPU với khoảng 630 dòng mã, sau đó:
- con người lặp lại trên prompt (.md)
- tác nhân AI lặp lại trên mã đào tạo (.py)
Mục tiêu là thiết kế các tác nhân của bạn để đạt được tiến bộ nghiên cứu nhanh nhất vô hạn mà không cần sự tham gia của bạn. Trong hình, mỗi chấm là một lần chạy đào tạo LLM hoàn chỉnh kéo dài đúng 5 phút. Tác nhân làm việc trong một vòng lặp tự động trên một nhánh tính năng git và tích lũy các cam kết git vào kịch bản đào tạo khi nó tìm thấy các cài đặt tốt hơn (có độ mất mát xác thực thấp hơn vào cuối) của kiến trúc mạng nơ-ron, bộ tối ưu hóa, tất cả các siêu tham số, v.v. Bạn có thể tưởng tượng so sánh tiến bộ nghiên cứu của các prompt khác nhau, các tác nhân khác nhau, v.v.
Một phần mã, một phần khoa học viễn tưởng, và một chút tâm thần :)

899
Tôi đã có cùng một suy nghĩ nên tôi đã chơi với nó trong nanochat. Ví dụ, đây là 8 tác nhân (4 claude, 4 codex), mỗi cái có 1 GPU chạy các thí nghiệm nanochat (cố gắng xóa logit softcap mà không bị hồi quy). Tóm lại là nó không hoạt động và thật lộn xộn... nhưng vẫn rất đẹp để nhìn :)
Tôi đã thử một vài thiết lập: 8 nhà nghiên cứu độc lập, 1 nhà khoa học trưởng giao việc cho 8 nhà nghiên cứu trẻ, v.v. Mỗi chương trình nghiên cứu là một nhánh git, mỗi nhà khoa học phân nhánh nó thành một nhánh tính năng, git worktrees để cách ly, các tệp đơn giản cho giao tiếp, bỏ qua Docker/VMs để đơn giản hóa tạm thời (tôi thấy rằng hướng dẫn là đủ để ngăn chặn sự can thiệp). Tổ chức nghiên cứu chạy trong các cửa sổ tmux của các phiên tương tác (như Teams) để nó đẹp mắt, thấy được công việc cá nhân của họ, và "tiếp quản" nếu cần, tức là không có -p.
Nhưng lý do mà nó không hoạt động cho đến nay là ý tưởng của các tác nhân thực sự rất tệ ngay từ đầu, ngay cả khi có trí tuệ cao nhất. Họ không suy nghĩ cẩn thận về thiết kế thí nghiệm, họ chạy một số biến thể không hợp lý, họ không tạo ra các cơ sở mạnh mẽ và không loại bỏ các yếu tố một cách hợp lý, họ không kiểm soát cẩn thận thời gian chạy hoặc flops. (chỉ là một ví dụ, một tác nhân hôm qua "khám phá" rằng việc tăng kích thước ẩn của mạng cải thiện tổn thất xác thực, điều này là một kết quả hoàn toàn giả tạo vì một mạng lớn hơn sẽ có tổn thất xác thực thấp hơn trong chế độ dữ liệu vô hạn, nhưng sau đó nó cũng đào tạo lâu hơn, không rõ tại sao tôi phải vào để chỉ ra điều đó). Họ rất giỏi trong việc thực hiện bất kỳ ý tưởng nào được xác định rõ ràng và mô tả nhưng họ không sáng tạo để tạo ra chúng.
Nhưng mục tiêu là bạn đang lập trình một tổ chức (ví dụ, một "tổ chức nghiên cứu") và các tác nhân cá nhân của nó, vì vậy "mã nguồn" là tập hợp các lời nhắc, kỹ năng, công cụ, v.v. và các quy trình tạo nên nó. Ví dụ, một cuộc họp hàng ngày vào buổi sáng giờ đây là một phần của "mã tổ chức". Và tối ưu hóa việc tiền huấn luyện nanochat chỉ là một trong nhiều nhiệm vụ (gần như như một đánh giá). Sau đó - với một nhiệm vụ tùy ý, tổ chức nghiên cứu của bạn tạo ra tiến bộ trên đó nhanh như thế nào?

Thomas Wolf28 thg 2, 2026
Tại sao thử thách speedrun NanoGPT vẫn chưa được tự động hóa hoàn toàn bằng AI đến bây giờ?
1,29K
Hàng đầu
Thứ hạng
Yêu thích
