Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Xây dựng @EurekaLabsAI. Trước đây là Giám đốc AI @ Tesla, nhóm sáng lập @ OpenAI, CS231n / PhD @ Stanford. Tôi thích đào tạo các mạng nơ-ron sâu lớn.
Có vẻ ngớ ngẩn nhưng tôi vẫn xem livestream sự kiện Apple để xem iPhone mới, mỗi năm kể từ lần đầu tiên vào năm 2007. Điều này không có lý nhưng cũng không sao. Livestream hôm nay lúc 10 giờ sáng (trong 1.5 giờ nữa). Năm nay, tôi lại cầu nguyện cho một chiếc iPhone mini mà tôi biết sẽ không ra mắt. rip.
477,83K
Tôi nghĩ chúc mừng một lần nữa đến OpenAI vì đã phát triển GPT-5 Pro. Đây là lần thứ ba tôi gặp khó khăn với một vấn đề phức tạp/khó khăn trong một giờ đồng hồ với CC, sau đó 5 Pro tắt trong 10 phút và quay lại với mã hoạt động ngay lập tức. Tôi đã cho CC đọc phiên bản 5 Pro và nó đã viết 2 đoạn văn khen ngợi nó (rất ấm áp). Nếu bạn không đưa cho nó những vấn đề khó khăn nhất của mình, có lẽ bạn đang bỏ lỡ.
2,42M
Trong thời đại tiền huấn luyện, điều quan trọng là văn bản trên internet. Bạn chủ yếu muốn có một bộ tài liệu internet lớn, đa dạng và chất lượng cao để học hỏi.
Trong thời đại tinh chỉnh có giám sát, đó là các cuộc trò chuyện. Những người lao động hợp đồng được thuê để tạo ra câu trả lời cho các câu hỏi, giống như những gì bạn thấy trên Stack Overflow / Quora, hoặc v.v., nhưng hướng tới các trường hợp sử dụng LLM.
Cả hai điều trên đều không biến mất (theo ý kiến của tôi), nhưng trong thời đại học tăng cường này, giờ đây là các môi trường. Khác với những điều trên, chúng cho LLM cơ hội thực sự tương tác - thực hiện hành động, xem kết quả, v.v. Điều này có nghĩa là bạn có thể hy vọng làm tốt hơn nhiều so với việc bắt chước chuyên gia thống kê. Và chúng có thể được sử dụng cho cả huấn luyện và đánh giá mô hình. Nhưng cũng giống như trước đây, vấn đề cốt lõi bây giờ là cần một bộ môi trường lớn, đa dạng và chất lượng cao, như các bài tập cho LLM thực hành.
Theo một cách nào đó, tôi nhớ đến dự án đầu tiên của OpenAI (gym), đó chính là một khung làm việc hy vọng xây dựng một bộ sưu tập lớn các môi trường theo cùng một sơ đồ, nhưng điều này diễn ra trước khi có LLM. Vì vậy, các môi trường đó là những nhiệm vụ kiểm soát học thuật đơn giản của thời đó, như cartpole, ATARI, v.v. Trung tâm môi trường @PrimeIntellect (và kho `verifiers` trên GitHub) xây dựng phiên bản hiện đại hóa nhắm đến LLM, và đó là một nỗ lực/ý tưởng tuyệt vời. Tôi đã đề xuất rằng ai đó xây dựng một cái gì đó giống như vậy vào đầu năm nay:
Các môi trường có đặc điểm là một khi khung xương của nó đã được thiết lập, về nguyên tắc, cộng đồng/ngành công nghiệp có thể song song hóa trên nhiều lĩnh vực khác nhau, điều này thật thú vị.
Suy nghĩ cuối cùng - cá nhân và lâu dài, tôi lạc quan về các môi trường và tương tác tác nhân nhưng tôi bi quan về học tăng cường cụ thể. Tôi nghĩ rằng các hàm thưởng là rất đáng ngờ, và tôi nghĩ rằng con người không sử dụng RL để học (có thể họ làm cho một số nhiệm vụ vận động, v.v., nhưng không phải cho các nhiệm vụ giải quyết vấn đề trí tuệ). Con người sử dụng các mô hình học khác nhau mà mạnh mẽ hơn và hiệu quả hơn trong việc lấy mẫu và chưa được phát minh và mở rộng đúng cách, mặc dù đã có những phác thảo và ý tưởng ban đầu (chỉ là một ví dụ, ý tưởng "học hỏi từ hệ thống nhắc nhở", chuyển việc cập nhật sang các token/ngữ cảnh chứ không phải trọng số và tùy chọn tinh chế thành trọng số như một quá trình riêng biệt giống như giấc ngủ).

Prime Intellect28 thg 8, 2025
Giới thiệu về Environments Hub
Các môi trường RL là nút thắt chính cho làn sóng tiến bộ AI tiếp theo, nhưng các phòng thí nghiệm lớn đang khóa chúng lại
Chúng tôi đã xây dựng một nền tảng cộng đồng để crowdsourcing các môi trường mở, để bất kỳ ai cũng có thể đóng góp cho AGI mã nguồn mở
800,32K
Hàng đầu
Thứ hạng
Yêu thích