Hôm nay, chúng tôi thông báo về một bản xem trước của ARC-AGI-3, Thang đo Lý luận Tương tác với khoảng cách lớn nhất giữa dễ cho con người và khó cho AI Chúng tôi sẽ phát hành: * 3 trò chơi (môi trường) * Cuộc thi đại lý trị giá 10.000 đô la * API đại lý AI Điểm khởi đầu - AI Biên giới: 0%, Con người: 100%
o3 (bên trái) và Grok 4 (bên phải) phát lại bên dưới spoiler: cả hai đều không hoàn thành một cấp độ nào
Các trò chơi ARC-AGI-3 Preview cần được kiểm tra áp lực. Chúng tôi đang tổ chức một cuộc thi đại lý kéo dài 30 ngày hợp tác với @huggingface Chúng tôi kêu gọi cộng đồng xây dựng các đại lý (và kiếm tiền!)
296,84K