Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RAG jest zepsuty i nikt o tym nie mówi 🤯
Stanford właśnie opublikował artykuł na temat "Semantycznego Zapaści", udowadniając, że gdy twoja baza wiedzy osiągnie ~10 000 dokumentów, wyszukiwanie semantyczne staje się dosłownym rzutem monetą.
Oto dlaczego twój RAG zawodzi:
Po 10 000 dokumentów, twoje eleganckie wyszukiwanie AI zasadniczo staje się rzutem monetą.
Każdy dodany dokument zamienia się w wysokowymiarowe osadzenie. Na małą skalę podobne dokumenty idealnie się grupują. Ale dodaj wystarczająco dużo danych, a przestrzeń się zapełnia. Odległości się kompresują. Wszystko wygląda na "istotne."
To przekleństwo wymiarowości. W przestrzeni 1000D, 99,9% twoich danych znajduje się na zewnętrznej powłoce, prawie w równych odległościach od każdego zapytania.
Stanford odkrył spadek precyzji o 87% przy 50k dokumentach. Dodawanie większego kontekstu w rzeczywistości pogarsza halucynacje, a nie poprawia. Myśleliśmy, że RAG rozwiązał problem halucynacji… po prostu ukrył je za matematyką.
Rozwiązanie nie polega na ponownym klasyfikowaniu ani lepszym dzieleniu. To hierarchiczne wyszukiwanie i bazy danych grafowe.

Najlepsze
Ranking
Ulubione
