¿Qué es $CODEC? ¿Robótica, Operadores, Juegos? Todo lo anterior y más. La visión-lenguaje-acción (VLA) de Codec es un modelo independiente del marco, que permite docenas de casos de uso debido a su capacidad única para visualizar errores en comparación con los LLM. En los últimos 12 meses, hemos visto que los LLM funcionan principalmente como mecanismos de bucle, impulsados por datos y patrones de respuesta predefinidos. Debido a que están construidos sobre el habla y el texto, los LLM tienen una capacidad limitada para evolucionar más allá de la ventana de contexto lingüístico en la que fueron entrenados. No pueden interpretar entradas sensoriales, como expresiones faciales o señales emocionales en tiempo real, ya que su razonamiento está limitado al lenguaje, no a la percepción. La mayoría de los agentes hoy en día combinan LLM basados en transformadores con codificadores visuales. "Ven" la interfaz a través de capturas de pantalla, interpretan lo que hay en la pantalla y generan secuencias de acciones, clics, pulsaciones de teclas, desplazamientos para seguir instrucciones y completar tareas. Por eso la IA aún no ha reemplazado grandes categorías de trabajos: los LLM ven capturas de pantalla, no píxeles. No entienden la semántica visual dinámica del entorno, solo lo que es legible a través de marcos estáticos. Su flujo de trabajo típico es repetitivo: capturar una captura de pantalla, razonar sobre la siguiente acción, ejecutarla, luego capturar otro marco y repetir. Este bucle de percibir-pensar continúa hasta que se completa la tarea o el agente falla. Para generalizar verdaderamente, la IA debe percibir su entorno, razonar sobre su estado y actuar apropiadamente para lograr objetivos, no solo interpretar instantáneas. Ya tenemos macros, bots RPA y scripts de automatización, pero son débiles e inestables. Un ligero cambio de píxel o de diseño rompe el flujo y requiere parches manuales. No pueden adaptarse cuando algo cambia en el flujo de trabajo. Ese es el cuello de botella. Visión-Lenguaje-Acción (VLA) Los agentes VLA de Codec funcionan en un bucle intuitivo pero poderoso: percibir, pensar, actuar. En lugar de simplemente escupir texto como la mayoría de los LLM, estos agentes ven su entorno, deciden qué hacer y luego ejecutan. Todo está empaquetado en un único pipeline unificado, que puedes visualizar en tres capas centrales: Visión El agente primero percibe su entorno a través de la visión. Para un agente de escritorio, esto significa capturar una captura de pantalla o entrada visual del estado actual (por ejemplo, una ventana de aplicación o un cuadro de texto). El componente de visión del modelo VLA interpreta esta entrada, leyendo el texto en pantalla y reconociendo elementos de la interfaz u objetos. Es decir, los ojos del agente. Lenguaje Luego viene el pensamiento. Dado el contexto visual (y cualquier instrucción u objetivo), el modelo analiza qué acción se requiere. Esencialmente, la IA "piensa" sobre la respuesta apropiada, al igual que lo haría una persona. La arquitectura VLA fusiona visión y lenguaje internamente, por lo que el agente puede, por ejemplo, entender que un cuadro de diálogo emergente está haciendo una pregunta de sí/no. Luego decidirá sobre la acción correcta (por ejemplo, hacer clic en "Aceptar") según el objetivo o la indicación. Sirviendo como el cerebro del agente, mapeando las entradas percibidas a una acción. Acción Finalmente, el agente actúa emitiendo un comando de control al entorno. En lugar de texto, el modelo VLA genera una acción (como un clic del mouse, pulsación de tecla o llamada a la API) que interactúa directamente con el sistema. En el ejemplo del cuadro de diálogo, el agente ejecutaría el clic en el botón "Aceptar". Esto cierra el bucle: después de actuar, el agente puede verificar visualmente el resultado y continuar el ciclo de percibir–pensar–actuar. Las acciones son el separador clave que los convierte de cuadros de chat a operadores reales. Casos de Uso Como mencioné, debido a la arquitectura, Codec es agnóstico a la narrativa. Así como los LLM no están confinados por los resultados textuales que pueden producir, los VLA no están confinados por las tareas que pueden completar. Robótica En lugar de depender de scripts antiguos o automatización imperfecta, los agentes VLA toman entradas visuales (transmisión de cámara o sensores), las pasan a través de un modelo de lenguaje para la planificación, y luego emiten comandos de control reales para mover o interactuar con el mundo. Básicamente, el robot ve lo que tiene delante, procesa instrucciones como "mueve la lata de Pepsi junto a la naranja", averigua dónde está todo, cómo moverse sin derribar nada, y lo hace sin necesidad de codificación dura. Este es el mismo tipo de sistema que el RT-2 de Google o PaLM-E. Grandes modelos que fusionan visión y lenguaje para crear acciones en el mundo real. El trabajo VLA de CogAct es un buen ejemplo, el robot escanea una mesa desordenada, recibe un aviso natural y ejecuta un bucle completo: identificación de objeto, planificación de ruta, ejecución de movimiento. Operadores En el entorno de escritorio y web, los agentes VLA funcionan básicamente como trabajadores digitales. "Ven" la pantalla a través de una captura de pantalla o transmisión en vivo, ejecutan eso a través de una capa de razonamiento construida sobre un modelo de lenguaje para entender tanto la interfaz de usuario como la indicación de tarea, y luego ejecutan las acciones con control real del mouse y teclado, como lo haría un humano. Este bucle completo, percibir, pensar, actuar, se ejecuta continuamente. Así que el agente no solo reacciona una vez, está navegando activamente por la interfaz, manejando flujos de múltiples pasos sin necesidad de scripts codificados. La arquitectura es una mezcla de visión estilo OCR para leer texto/botones/iconos, razonamiento semántico para decidir qué hacer, y una capa de control que puede hacer clic, desplazarse, escribir, etc. Donde esto se vuelve realmente interesante es en el manejo de errores. Estos agentes pueden reflexionar después de las acciones y replantear si algo no sale como se esperaba. A diferencia de los scripts RPA que se rompen si la interfaz cambia ligeramente, como un botón que cambia de posición o una etiqueta que se renombra, un agente VLA puede adaptarse al nuevo diseño utilizando señales visuales y comprensión del lenguaje. Lo hace mucho más resistente para la automatización en el mundo real donde las interfaces cambian constantemente. Algo con lo que he luchado personalmente al codificar mis propios bots de investigación a través de herramientas como playwright. Juegos Los juegos son uno de los casos de uso más claros donde los agentes VLA pueden brillar, piénsalo menos como bots y más como jugadores de IA inmersivos. Todo el flujo es el mismo, el agente ve la pantalla del juego (fotogramas, menús, indicaciones de texto), razona sobre lo que se supone que debe hacer, y luego juega utilizando entradas de mouse, teclado o control. No se centra en la fuerza bruta, esta es la IA aprendiendo a jugar como lo haría un humano. Percepción + pensamiento + control, todo unido. El proyecto SIMA de DeepMind ha desbloqueado esto al combinar un modelo de visión-lenguaje con una capa predictiva y lo ha implementado en juegos como No Man’s Sky y Minecraft. Al observar la pantalla y seguir instrucciones, el agente podría completar tareas abstractas como "construir una fogata" encadenando los pasos correctos, recolectar madera, encontrar fósforos y usar el inventario. Y no se limitó a un solo juego. Transfería ese conocimiento entre diferentes entornos. Los agentes de juegos VLA no están bloqueados en un solo conjunto de reglas. El mismo agente puede adaptarse a mecánicas completamente diferentes, solo a partir de la base de visión y lenguaje. Y dado que está construido sobre la infraestructura de LLM, puede explicar lo que está haciendo, seguir instrucciones en lenguaje natural durante el juego, o colaborar con los jugadores en tiempo real. No estamos lejos de tener compañeros de IA que se adapten a tu estilo de juego y personalizaciones, todo gracias a Codec.
9,25K