RAG är trasigt och ingen pratar om det 🤯 Stanford släppte precis en artikel om "Semantic Collapse," som bevisar att när din kunskapsbas når ~10 000 dokument blir semantisk sökning ett bokstavligt myntkast. Här är varför din RAG misslyckas: Efter 10 000 dokument blir din avancerade AI-sökning i princip ett myntkast. Varje dokument du lägger till blir en högdimensionell inbäddning. I liten skala grupperar liknande dokument sig perfekt. Men lägg till tillräckligt med data fylls utrymmet. Avstånd komprimeras. Allt ser "relevant" ut. Det är dimensionens förbannelse. I 1000D-utrymme ligger 99,9 % av din data på det yttre skalet, nästan lika långt från vilken sökning som helst. Stanford fann en 87% precisionsminskning vid 50 000 dokument. Att lägga till mer kontext gör faktiskt hallucinationerna värre, inte bättre. Vi trodde att RAG löste hallucinationer... Det gömde dem bara bakom matematik. Lösningen är inte omrankning eller bättre chunking. Det är hierarkisk återvinning och grafdatabaser.