RAG jest zepsuty i nikt o tym nie mówi 🤯 Stanford właśnie opublikował artykuł na temat "Semantycznego Zapaści", udowadniając, że gdy twoja baza wiedzy osiągnie ~10 000 dokumentów, wyszukiwanie semantyczne staje się dosłownym rzutem monetą. Oto dlaczego twój RAG zawodzi: Po 10 000 dokumentów, twoje eleganckie wyszukiwanie AI zasadniczo staje się rzutem monetą. Każdy dodany dokument zamienia się w wysokowymiarowe osadzenie. Na małą skalę podobne dokumenty idealnie się grupują. Ale dodaj wystarczająco dużo danych, a przestrzeń się zapełnia. Odległości się kompresują. Wszystko wygląda na "istotne." To przekleństwo wymiarowości. W przestrzeni 1000D, 99,9% twoich danych znajduje się na zewnętrznej powłoce, prawie w równych odległościach od każdego zapytania. Stanford odkrył spadek precyzji o 87% przy 50k dokumentach. Dodawanie większego kontekstu w rzeczywistości pogarsza halucynacje, a nie poprawia. Myśleliśmy, że RAG rozwiązał problem halucynacji… po prostu ukrył je za matematyką. Rozwiązanie nie polega na ponownym klasyfikowaniu ani lepszym dzieleniu. To hierarchiczne wyszukiwanie i bazy danych grafowe.