¿Cuál es el papel de la memoria LLM/RAG a corto y medio plazo, dado que en un contexto a largo plazo las ventanas pueden ser extremadamente grandes? Obtuve algunas ideas al discutir las ventanas de contexto de LLM con alguien del equipo de DeepMind. Al trabajar en Gemma, descubrieron que podían estirar la longitud del contexto, pero se topaban con problemas de calidad: los tokens al principio y al final se recuperan bien, pero los del medio se pierden en el mecanismo de atención. Su opinión interesante: inicialmente pensaron que un contexto más largo resolvería todo, pero un análisis más profundo mostró que con un recuento de parámetros fijo, la calidad no es gratuita. A pesar de empujar más allá de la longitud del contexto, todavía ven los enfoques de GAR como necesarios para el futuro cercano (6-12 meses) debido a estos desafíos de calidad de la atención. Por ahora, el problema de la recuperación no se resuelve por completo simplemente haciendo que los contextos sean más largos. Además, completar toda la ventana de contexto para modelos de contexto largo de alta calidad cuesta ~ $ 1 por llamada hoy.
286