Bài báo "Mô hình Lập luận Hệ thống" gần đây đã thu hút sự chú ý, nhận được hàng chục nghìn lượt thích trên Twitter qua hàng chục chủ đề bán lan truyền, điều này khá bất thường đối với một bài báo nghiên cứu. Bài báo tuyên bố đạt độ chính xác 40,3% trên ARC-AGI-1 với một mô hình nhỏ (27 triệu tham số) được đào tạo từ đầu mà không có bất kỳ dữ liệu đào tạo bên ngoài nào -- nếu đúng, điều này sẽ đại diện cho một bước đột phá lớn trong lập luận. Tôi vừa thực hiện một cuộc khảo sát sâu về bài báo và mã nguồn... Đó là một bài đọc tốt, chi tiết nhưng dễ theo dõi. Tôi nghĩ rằng những ý tưởng được trình bày là khá thú vị và kiến trúc có khả năng có giá trị. Khái niệm này khiến tôi nhớ đến nhiều ý tưởng khác nhau mà tôi đã gặp trong "thời kỳ vàng son" của nghiên cứu kiến trúc DL, khoảng năm 2016-2018. Loại nghiên cứu này đã không phổ biến trong một thời gian, vì vậy thật tốt khi thấy sự quan tâm trở lại đối với các kiến trúc thay thế. Tuy nhiên, thiết lập thí nghiệm dường như có những sai sót nghiêm trọng, điều này có nghĩa là hiện tại chúng ta không có tín hiệu thực nghiệm (ít nhất từ ARC-AGI) về việc liệu kiến trúc có thực sự hữu ích hay không. Thí nghiệm ARC-AGI-1 đang thực hiện các bước sau, dựa trên cách tôi đọc mã chuẩn bị dữ liệu: 1. Đào tạo trên 876.404 nhiệm vụ, là các biến thể được tạo ra từ 960 nhiệm vụ gốc: ... 400 từ ARC-AGI-1/train ... 400 từ ARC-AGI-1/eval ... 160 từ ConceptARC 2. Kiểm tra trên 400 nhiệm vụ (ARC-AGI-1/eval), bằng cách tăng cường mỗi nhiệm vụ thành ~1000 biến thể (trên thực tế chỉ có 368.151 tổng cộng do những đặc điểm riêng của quá trình tăng cường), tạo ra một dự đoán cho mỗi biến thể, và giảm dự đoán xuống N=2 thông qua bỏ phiếu đa số. Tóm lại: họ đang đào tạo trên dữ liệu kiểm tra. Bạn có thể hỏi, chờ đã, tại sao độ chính xác lại là 40% chứ không phải 100%? Mô hình có bị thiếu nghiêm trọng không? Đó là vì dữ liệu đào tạo và dữ liệu kiểm tra đại diện cho cùng một nhiệm vụ gốc *trong các biến thể khác nhau*. Tăng cường dữ liệu được áp dụng độc lập cho các nhiệm vụ đánh giá trong dữ liệu đào tạo và các nhiệm vụ đánh giá trong dữ liệu kiểm tra. Vì vậy, những gì thí nghiệm đang đo lường, đại khái, là cách mà mô hình quản lý để tổng quát hóa các biến thể được tạo ra theo quy trình của cùng một nhiệm vụ (tức là liệu mô hình có thể học cách đảo ngược một tập hợp tĩnh các biến đổi lưới hay không). Vì vậy -- đừng quá phấn khích ngay bây giờ. Nhưng tôi nghĩ rằng loại nghiên cứu kiến trúc này là có giá trị (khi đi kèm với một tín hiệu xác thực thực nghiệm thích hợp) và ý tưởng HRM là rất thú vị. Ngoài ra, để rõ ràng, tôi không nghĩ rằng các tác giả có ý định gây hiểu lầm và che giấu vấn đề thí nghiệm -- họ có thể không nhận ra ý nghĩa thực sự của thiết lập đào tạo của họ.
19,87K