Làm rõ hiệu suất ARC-AGI của o3 OpenAI đã xác nhận: * Mô hình o3 được phát hành khác với mô hình mà chúng tôi đã thử nghiệm vào tháng 12 năm 2024 * Tất cả các cấp độ tính toán của o3 được phát hành đều nhỏ hơn phiên bản mà chúng tôi đã thử nghiệm * Mô hình o3 được phát hành không được huấn luyện trên dữ liệu ARC-AGI, thậm chí không phải tập huấn luyện * Mô hình o3 được phát hành được tối ưu hóa cho việc sử dụng trò chuyện/sản phẩm, điều này mang lại cả điểm mạnh và điểm yếu đối với ARC-AGI Những gì ARC Prize sẽ làm: * Chúng tôi sẽ thử nghiệm lại o3 được phát hành (tất cả các cấp độ tính toán) và công bố kết quả cập nhật. Điểm số trước đó sẽ được gắn nhãn "xem trước" * Chúng tôi sẽ thử nghiệm và công bố kết quả của o4-mini càng sớm càng tốt * Chúng tôi sẽ thử nghiệm o3-pro khi có sẵn
127,37K