Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bài viết blog mới về sự bất đối xứng của việc xác minh và "luật của người xác minh":
Sự bất đối xứng của việc xác minh – ý tưởng rằng một số nhiệm vụ dễ xác minh hơn là giải quyết – đang trở thành một ý tưởng quan trọng khi chúng ta có RL cuối cùng hoạt động một cách tổng quát.
Những ví dụ tuyệt vời về sự bất đối xứng của việc xác minh là những thứ như câu đố sudoku, viết mã cho một trang web như instagram, và các vấn đề BrowseComp (mất khoảng 100 trang web để tìm câu trả lời, nhưng dễ xác minh khi bạn có câu trả lời).
Các nhiệm vụ khác có sự gần như đối xứng của việc xác minh, như cộng hai số 900 chữ số hoặc một số kịch bản xử lý dữ liệu. Tuy nhiên, một số nhiệm vụ dễ đề xuất các giải pháp khả thi hơn là xác minh chúng (ví dụ, kiểm tra sự thật của một bài luận dài hoặc nêu một chế độ ăn mới như "chỉ ăn thịt bò bison").
Một điều quan trọng cần hiểu về sự bất đối xứng của việc xác minh là bạn có thể cải thiện sự bất đối xứng bằng cách làm một số công việc trước. Ví dụ, nếu bạn có đáp án cho một bài toán toán học hoặc nếu bạn có các trường hợp kiểm tra cho một bài toán Leetcode. Điều này làm tăng đáng kể tập hợp các vấn đề có sự bất đối xứng xác minh mong muốn.
"Luật của người xác minh" tuyên bố rằng độ dễ dàng trong việc đào tạo AI để giải quyết một nhiệm vụ tỷ lệ thuận với mức độ có thể xác minh của nhiệm vụ đó. Tất cả các nhiệm vụ có thể giải quyết và dễ xác minh sẽ được AI giải quyết. Khả năng đào tạo AI để giải quyết một nhiệm vụ tỷ lệ thuận với việc nhiệm vụ đó có các thuộc tính sau:
1. Sự thật khách quan: mọi người đều đồng ý về những gì là giải pháp tốt
2. Dễ xác minh: bất kỳ giải pháp nào cũng có thể được xác minh trong vài giây
3. Có thể mở rộng để xác minh: nhiều giải pháp có thể được xác minh đồng thời
4. Ít tiếng ồn: việc xác minh có tương quan chặt chẽ với chất lượng giải pháp càng nhiều càng tốt
5. Phần thưởng liên tục: dễ dàng xếp hạng độ tốt của nhiều giải pháp cho một vấn đề duy nhất
Một ví dụ rõ ràng về luật của người xác minh là thực tế rằng hầu hết các tiêu chuẩn được đề xuất trong AI đều dễ xác minh và cho đến nay đã được giải quyết. Lưu ý rằng gần như tất cả các tiêu chuẩn phổ biến trong mười năm qua đều phù hợp với tiêu chí #1-4; các tiêu chuẩn không đáp ứng tiêu chí #1-4 sẽ gặp khó khăn để trở nên phổ biến.
Tại sao khả năng xác minh lại quan trọng đến vậy? Số lượng học tập trong AI xảy ra được tối đa hóa khi các tiêu chí trên được thỏa mãn; bạn có thể thực hiện rất nhiều bước gradient mà mỗi bước có nhiều tín hiệu. Tốc độ lặp lại là rất quan trọng – đó là lý do mà tiến bộ trong thế giới kỹ thuật số nhanh hơn rất nhiều so với tiến bộ trong thế giới vật lý.
AlphaEvolve từ Google là một trong những ví dụ vĩ đại nhất về việc tận dụng sự bất đối xứng của việc xác minh. Nó tập trung vào các thiết lập phù hợp với tất cả các tiêu chí trên, và đã dẫn đến một số tiến bộ trong toán học và các lĩnh vực khác. Khác với những gì chúng ta đã làm trong AI trong hai thập kỷ qua, đây là một mô hình mới ở chỗ tất cả các vấn đề đều được tối ưu hóa trong một môi trường mà tập huấn luyện tương đương với tập kiểm tra.
Sự bất đối xứng của việc xác minh có mặt ở khắp mọi nơi và thật thú vị khi tưởng tượng về một thế giới trí tuệ gồ ghề nơi bất cứ điều gì chúng ta có thể đo lường sẽ được giải quyết.

298,82K
Hàng đầu
Thứ hạng
Yêu thích