短期から中期的には、ウィンドウが非常に大きくなる可能性がある場合、LLMメモリ/RAGの役割は何ですか? LLMコンテキストウィンドウについてDeepMindチームの誰かと話し合うことで、いくつかの洞察を得ました。Gemmaに取り組んでいると、コンテキストの長さを伸ばすことができるが、品質の問題にぶつかることを発見しました - 最初と最後のトークンはうまく取得されますが、中間のトークンはアテンションメカニズムで失われます。彼らの興味深い見解は、当初、より長いコンテキストですべてが解決すると考えていましたが、より深い分析により、固定されたパラメーター数では品質は無料で得られるわけではないことが示されました。コンテクストの長さをさらに押し上げているにもかかわらず、これらの注目度の課題があるため、近い将来(6〜12か月)にはRAGアプローチが必要だと考えています。今のところ、検索の問題は、コンテキストを長くするだけでは完全には解決されません。さらに、高品質で長いコンテキストモデルのコンテキストウィンドウ全体を埋めるには、今日では1回の通話あたり~1ドルかかります。
253