Qual é o papel da memória LLM / RAG no curto a médio prazo dado no contexto de longo prazo janelas podem ser extremamente grandes? Obteve alguns insights discutindo janelas de contexto LLM com alguém da equipe DeepMind. Trabalhando em Gemma, eles descobriram que poderiam esticar o comprimento do contexto, mas acertar problemas de qualidade - tokens no início e no final são recuperados bem, mas os do meio se perdem no mecanismo de atenção. Sua visão interessante: eles inicialmente pensaram que um contexto mais longo resolveria tudo, mas uma análise mais profunda mostrou que, com a contagem fixa de parâmetros, a qualidade não vem de graça. Apesar de aumentarem ainda mais o contexto, eles ainda veem as abordagens RAG como necessárias para o futuro próximo (6-12 meses) devido a esses desafios de qualidade de atenção. Por enquanto, o problema da recuperação não é totalmente resolvido apenas tornando os contextos mais longos. Além disso, preencher toda a janela de contexto para modelos de contexto longo de alta qualidade é ~$1 por chamada hoje.
257