在长期上下文窗口可能非常大的情况下,LLM内存/RAG在短期到中期的角色是什么? 从与DeepMind团队的某人讨论LLM上下文窗口中获得了一些见解。在研究Gemma时,他们发现可以延长上下文长度,但会遇到质量问题——开头和结尾的tokens可以很好地检索到,但中间的tokens在注意力机制中会丢失。他们的有趣观点是:他们最初认为更长的上下文可以解决所有问题,但更深入的分析表明,在参数数量固定的情况下,质量并不是免费的。尽管进一步延长了上下文长度,他们仍然认为由于这些注意力质量挑战,RAG方法在未来6-12个月内是必要的。目前,仅通过延长上下文并不能完全解决检索问题。此外,今天为高质量、长上下文模型填充整个上下文窗口的成本约为每次调用1美元。
285