Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RAG este stricat și nimeni nu vorbește despre el 🤯
Stanford tocmai a publicat un articol despre "Colapsul semantic", demonstrând că odată ce baza ta de cunoștințe ajunge la ~10.000 de documente, căutarea semantică devine literalmente o aruncare de monedă.
Iată de ce RAG-ul tău eșuează:
După 10.000 de documente, căutarea ta sofisticată AI devine practic o aruncare de monedă.
Fiecare document pe care îl adaugi este transformat într-o încorporare de dimensiuni înalte. La scară mică, documentele similare se grupează perfect. Dar adaugă suficiente date și spațiul se umple. Distanțele se comprimă. Totul pare "relevant".
Este blestemul dimensionalității. În spațiul 1000D, 99,9% din datele tale trăiesc pe carcasa exterioară, aproape la distanță egală față de orice interogare.
Stanford a găsit o scădere de precizie de 87% la 50.000 de documente. Adăugarea mai multor contexte de fapt face halucinațiile mai rele, nu mai bune. Credeam că RAG rezolvă halucinațiile... doar îi ascundea în spatele matematicii.
Soluția nu este re-rangarea sau mai bună scăpare. Este vorba de recuperare ierarhică și baze de date cu grafuri.

Limită superioară
Clasament
Favorite
