Какова роль памяти LLM/RAG в краткосрочной и среднесрочной перспективе, учитывая, что в долгосрочной перспективе окна контекста могут быть чрезвычайно большими? Получил некоторые инсайты от обсуждения окон контекста LLM с кем-то из команды DeepMind. Работая над Gemma, они обнаружили, что могут растянуть длину контекста, но столкнулись с проблемами качества - токены в начале и конце извлекаются хорошо, но средние теряются в механизме внимания. Их интересный взгляд: они первоначально думали, что более длинный контекст просто решит все, но более глубокий анализ показал, что при фиксированном количестве параметров качество не приходит бесплатно. Несмотря на дальнейшее увеличение длины контекста, они все еще считают подходы RAG необходимыми в ближайшем будущем (6-12 месяцев) из-за этих проблем с качеством внимания. На данный момент проблема извлечения не решается полностью просто за счет увеличения длины контекста. Кроме того, заполнение всего окна контекста для высококачественных моделей с длинным контекстом стоит ~$1 за вызов сегодня.
288