Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
nghiên cứu @meta @cornell // mô hình ngôn ngữ, lý thuyết thông tin, khoa học AI
thật tuyệt vời! truyền cảm hứng
và là một lời nhắc nhở tuyệt vời rằng hầu hết các nhà nghiên cứu AI hàng đầu thực sự không có mặt trên twitter. hầu hết không tweet, nhiều người không có tài khoản
những người ồn ào nhất ở đây, những người thường xuyên đăng về AI, thường chỉ là những gã công nghệ vô danh ngẫu nhiên.
13,35K
không ai đơn giản "giải quyết" một vấn đề nghiên cứu
thay vào đó, người ta phát triển một khung tư duy mới từ những nguyên tắc cơ bản.
hỏi và trả lời các câu hỏi và câu hỏi phụ, có thể kéo dài trong vài tháng
cuối cùng, khi xem xét lại vấn đề ban đầu, người ta nhận ra rằng nó là điều tầm thường
5,14K
đây là một số thông tin miễn phí:
nếu chúng ta thực hiện RL quá lâu sau khi huấn luyện trước, chúng ta chắc chắn sẽ ghi đè các tham số và bắt đầu quên đi những điều đã học
trong bài báo gốc về instructGPT, mô hình tốt nhất của họ đã kết hợp RLHF với các gradient huấn luyện trước để tránh chính vấn đề trôi mô hình này
nhưng không ai làm điều này nữa. chắc chắn, đó là một cách cụ thể (trộn gradient) của một ý tưởng rộng hơn (tránh quên) nhưng có vẻ như đây là một dòng suy nghĩ bị bỏ qua rất nhiều khi chúng ta thực hiện ngày càng nhiều bước RL
ví dụ, xem bài báo ProRL gần đây. họ đang thực hiện hơn 1000 bước GRPO bây giờ với một tỷ lệ học không tầm thường và không có hình phạt cho việc lệch khỏi mô hình gốc. các mạch được xây dựng bên trong mô hình trong quá trình huấn luyện trước chắc chắn đang bắt đầu suy giảm. và nếu không, chúng sẽ suy giảm sau 10k hoặc 100k bước RL
tôi nghi ngờ rằng ý tưởng này sẽ quay trở lại vào một lúc nào đó; họ có lẽ đã thực hiện điều này tại các phòng thí nghiệm lớn.



54,81K
điều này có vẻ rất quan trọng:
hoàn toàn có khả năng rằng một mô hình có thể đạt được IMO gold mà không cần *bất kỳ* học tăng cường nào, với một prompt được thiết kế hoàn hảo
chúng ta chỉ không biết, và thiếu công cụ để tìm kiếm hiệu quả trong không gian prompt. Rất vui khi thấy ít nhất có ai đó đang cố gắng

Lakshya A Agrawal29 thg 7, 2025
Tối ưu hóa prompt so với các thuật toán RL như GRPO thì như thế nào?
GRPO cần hàng nghìn lần chạy thử, nhưng con người có thể học từ một vài lần thử—bằng cách suy ngẫm về những gì đã hiệu quả & những gì không.
Gặp gỡ GEPA: một trình tối ưu hóa prompt phản chiếu có thể vượt trội hơn GRPO tới 20% với 35 lần chạy thử ít hơn!🧵

38,47K
tình huống giả định -
tôi là một công ty AI đã giảm chi phí chuyển giao và lưu trữ các mô hình xuống bằng không. tôi có thể phục vụ mỗi người dùng mô hình riêng của họ mà không có chi phí phụ
tôi nên làm gì? trực tiếp SFT các mô hình cụ thể cho người dùng trên dữ liệu của họ? hay RLHF dựa trên đánh giá của cuộc trò chuyện? hay một cái gì đó khác?
16,6K
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất