Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RAG сломан, и никто об этом не говорит 🤯
Стэнфорд только что выпустил статью о "Семантическом коллапсе", доказывающую, что как только ваша база знаний достигает ~10,000 документов, семантический поиск становится настоящим броском монеты.
Вот почему ваш RAG терпит неудачу:
После 10,000 документов ваш модный AI поиск в основном становится броском монеты.
Каждый добавленный документ превращается в высокоразмерное встраивание. На небольшом масштабе похожие документы идеально группируются вместе. Но добавьте достаточно данных, и пространство заполняется. Расстояния сжимаются. Всё выглядит "релевантным."
Это проклятие размерности. В 1000D пространстве 99.9% ваших данных находится на внешней оболочке, почти на равном расстоянии от любого запроса.
Стэнфорд обнаружил падение точности на 87% при 50k документах. Добавление большего контекста на самом деле ухудшает галлюцинации, а не улучшает. Мы думали, что RAG решает проблему галлюцинаций… он просто скрывал их за математикой.
Решение не в переоценке или лучшем разбиении. Это иерархический поиск и графовые базы данных.

Топ
Рейтинг
Избранное
