Sapient lanzó su Modelo de Razonamiento Jerárquico (HRM) y los resultados son bastante interesantes. Este es un modelo de 27 millones de parámetros que supera a Claude 3.5 y o3-mini en benchmarks de razonamiento como ARC-AGI-2, rompecabezas de Sudoku complejos y búsqueda de caminos en laberintos grandes. Lo que hace que esto sea notable: El aspecto de eficiencia es sorprendente. HRM fue entrenado con aproximadamente 1000 ejemplos sin preentrenamiento ni indicaciones de Cadena de Pensamiento, sin embargo, maneja tareas de razonamiento complejas que típicamente requieren modelos mucho más grandes. Esto lo hace práctico para su implementación en dispositivos de borde y accesible para equipos sin grandes presupuestos de computación. La arquitectura inspirada en el cerebro es más que solo terminología. HRM utiliza un diseño de sistema dual con dos módulos: uno para la planificación abstracta de alto nivel y otro para la ejecución detallada rápida, operando a diferentes escalas de tiempo. Esto refleja cómo funciona la cognición humana con un procesamiento intuitivo rápido y un razonamiento deliberado más lento. El bajo requerimiento de recursos cambia la ecuación de accesibilidad. Mientras que la mayoría de las IA avanzadas requieren una infraestructura significativa, HRM puede ejecutarse en hardware regular, abriendo capacidades de razonamiento sofisticadas a startups e investigadores que no pueden permitirse computación a gran escala. Enfoque técnico: En lugar de procesar tokens secuencialmente como los Transformers, HRM utiliza bucles recurrentes jerárquicos que operan en un espacio continuo en lugar de tokens discretos. El modelo resuelve tareas directamente sin necesidad de verbalizar su proceso de pensamiento a través de cadenas explícitas paso a paso. La eficiencia de parámetros proviene de aprender patrones de razonamiento que se generalizan a partir de ejemplos mínimos en lugar de memorizar grandes cantidades de datos de entrenamiento. El entrenamiento utiliza aproximación de gradiente de un solo paso para mantener el uso de memoria constante, haciéndolo práctico en hardware estándar. HRM también adapta su computación: gastando más ciclos en problemas más difíciles y menos en los más simples, utilizando aprendizaje por refuerzo para determinar cuándo detener el razonamiento. El proceso de razonamiento es interpretable, especialmente en tareas visuales donde se puede observar cómo resuelve problemas paso a paso. Esto sugiere que el razonamiento avanzado podría ser más sobre diseño arquitectónico que sobre escala, lo que podría cambiar nuestra forma de pensar sobre la construcción de sistemas de IA capaces.
60.05K