Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RAG är trasigt och ingen pratar om det 🤯
Stanford släppte precis en artikel om "Semantic Collapse," som bevisar att när din kunskapsbas når ~10 000 dokument blir semantisk sökning ett bokstavligt myntkast.
Här är varför din RAG misslyckas:
Efter 10 000 dokument blir din avancerade AI-sökning i princip ett myntkast.
Varje dokument du lägger till blir en högdimensionell inbäddning. I liten skala grupperar liknande dokument sig perfekt. Men lägg till tillräckligt med data fylls utrymmet. Avstånd komprimeras. Allt ser "relevant" ut.
Det är dimensionens förbannelse. I 1000D-utrymme ligger 99,9 % av din data på det yttre skalet, nästan lika långt från vilken sökning som helst.
Stanford fann en 87% precisionsminskning vid 50 000 dokument. Att lägga till mer kontext gör faktiskt hallucinationerna värre, inte bättre. Vi trodde att RAG löste hallucinationer... Det gömde dem bara bakom matematik.
Lösningen är inte omrankning eller bättre chunking. Det är hierarkisk återvinning och grafdatabaser.

Topp
Rankning
Favoriter
