Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Câu hỏi lớn nhất trong nghiên cứu RL luôn là - bạn đang đào tạo trong môi trường nào?
Trước đây, đó là các trò chơi video (Atari) và trò chơi bàn (Go / Cờ vua).
Nhưng bây giờ khi RL hoạt động với LLMs, chỉ có một môi trường quan trọng. Và đó chính là sản phẩm của bạn.

00:01 10 thg 7
Tại sao bạn nên ngừng làm nghiên cứu RL và thay vào đó làm việc với sản phẩm //
Công nghệ đã mở ra sự chuyển mình lớn trong AI chính là internet, không phải transformers
Tôi nghĩ rằng điều này đã được biết đến rộng rãi rằng dữ liệu là điều quan trọng nhất trong AI, và cũng rằng các nhà nghiên cứu chọn không làm việc với nó. ... Điều đó có nghĩa là gì khi làm việc với dữ liệu (một cách có thể mở rộng)?
Internet đã cung cấp một nguồn dữ liệu phong phú, dồi dào, đa dạng, cung cấp một chương trình học tự nhiên, đại diện cho các năng lực mà mọi người thực sự quan tâm, và là một công nghệ khả thi về mặt kinh tế để triển khai ở quy mô lớn -- nó đã trở thành sự bổ sung hoàn hảo cho dự đoán token tiếp theo và là bể nguyên thủy cho AI phát triển.
Nếu không có transformers, bất kỳ số lượng phương pháp nào cũng có thể đã phát triển, chúng ta có thể có CNNs hoặc các mô hình không gian trạng thái ở cấp độ của GPT-4.5. Nhưng không có sự cải thiện đáng kể nào trong các mô hình cơ bản kể từ GPT-4. Các mô hình lý luận rất tuyệt vời trong các lĩnh vực hẹp, nhưng không phải là một bước nhảy vọt lớn như GPT-4 đã làm vào tháng 3 năm 2023 (hơn 2 năm trước...)
Chúng ta có điều gì đó tuyệt vời với học tăng cường, nhưng nỗi sợ sâu sắc của tôi là chúng ta sẽ lặp lại những sai lầm của quá khứ (thời kỳ RL 2015-2020) và thực hiện nghiên cứu RL không có ý nghĩa.
Theo cách mà internet là đối ngẫu của việc huấn luyện trước có giám sát, điều gì sẽ là đối ngẫu của RL dẫn đến một sự tiến bộ lớn như GPT-1 -> GPT-4? Tôi nghĩ rằng nó giống như thiết kế đồng nghiên cứu-sản phẩm.

10,61K
Hàng đầu
Thứ hạng
Yêu thích