đây là một trong những bài viết blog hay nhất năm 2025 của nhà nghiên cứu openai @ShunyuYao12. "chúng ta đang ở giữa hiệp một của AI," đây là một cuốn sách hướng dẫn về những gì sẽ quan trọng nhất trong nghiên cứu AI và hệ sinh thái khởi nghiệp, và cách chuẩn bị tốt nhất cho điều đó. trong nhiều thập kỷ, nghiên cứu AI tập trung vào các thuật toán và mô hình mới để vượt qua các tiêu chuẩn. nhưng một điều quan trọng đã thay đổi cuộc chơi: "RL cuối cùng đã tổng quát hóa." công thức làm việc: huấn luyện ngôn ngữ quy mô lớn (priors) + quy mô + lý luận như hành động trong một vòng lặp RL. kết quả của việc leo lên tiêu chuẩn này. cuộc chơi chuyển đổi: từ việc giải quyết vấn đề sang định nghĩa các vấn đề đúng. việc đánh giá trở thành trung tâm. tiêu chuẩn cốt lõi bây giờ là "vấn đề tiện ích". các tiêu chuẩn thực sự không chuyển giao tốt cho các nhiệm vụ trong thế giới thực. vì vậy đây là cuốn sách hướng dẫn cho hiệp hai: phát minh ra các thiết lập đánh giá gắn liền với tiện ích thực; sau đó áp dụng công thức để chiến thắng theo những quy tắc mới đó. trong RL, bộ ba chính là môi trường, thuật toán và priors. chúng ta đã dành quá nhiều thời gian cho các thuật toán tốt nhất nhưng các thuật toán lại quá khớp với môi trường mà chúng được sinh ra. đối với "hiệp hai", đánh giá = thiết kế môi trường: xây dựng các thiết lập gần gũi với thực tế (con người trong vòng lặp, không IID, tuần tự/có bộ nhớ) để thúc đẩy tiện ích thực, không chỉ là chiến thắng tiêu chuẩn.