Jaká je role LLM paměti/RAG v krátkodobém až střednědobém horizontu vzhledem k tomu, že v dlouhodobém horizontu mohou být okna extrémně velká? Získal jsem nějaké postřehy z diskuse o kontextových oknech LLM s někým z týmu DeepMind. Při práci na Gemmě zjistili, že mohou natáhnout délku kontextu, ale narazit na problémy s kvalitou - tokeny na začátku a na konci se načítají dobře, ale prostřední se ztrácejí v mechanismu pozornosti. Jejich zajímavý pohled: zpočátku si mysleli, že delší kontext prostě vyřeší vše, ale hlubší analýza ukázala, že s pevným počtem parametrů není kvalita zadarmo. Navzdory tomu, že posouvají kontextové délky, stále vidí přístupy RAG jako nezbytné pro blízkou budoucnost (6-12 měsíců) kvůli těmto výzvám v oblasti kvality pozornosti. Prozatím není problém s načítáním zcela vyřešen pouhým prodlužováním kontextů. Kromě toho, vyplnění celého kontextového okna pro vysoce kvalitní modely s dlouhým kontextem je dnes ~1 $ za hovor.
251