LLM 記憶體/RAG 在短期到中期的作用是什麼,因為長期上下文視窗可能非常大? 通過與 DeepMind 團隊的某人討論 LLM 上下文窗口獲得了一些見解。在 Gemma 上工作時,他們發現他們可以延長上下文長度,但會遇到質量問題 - 開頭和結尾的令牌可以很好地檢索,但中間的令牌會丟失在注意力機制中。他們的看法很有趣:他們最初認為更長的上下文可以解決所有問題,但更深入的分析表明,在固定參數計數的情況下,品質並不是免費的。儘管進一步推動了上下文長度,但由於這些注意力品質挑戰,他們仍然認為RAG方法在不久的將來(6-12個月)是必要的。目前,僅通過延長上下文並不能完全解決檢索問題。此外,今天為高品質、長上下文模型填充整個上下文視窗每次調用的費用為 ~1 USD。
284