Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RAG зламаний, і ніхто про 🤯 це не говорить
Стенфорд щойно опублікував статтю на тему «Семантичний колапс», довівши, що коли ваша база знань досягає ~10 000 документів, семантичний пошук перетворюється на справжній підкид монети.
Ось чому ваш RAG не працює:
Після 10 000 документів ваш складний пошук штучного інтелекту фактично перетворюється на підкидання монети.
Кожен доданий вами документ перетворюється на високовимірне вбудовування. У невеликому масштабі схожі документи ідеально згруповуються. Але якщо додати достатньо даних, простір заповниться. Відстані стискаються. Все виглядає «релевантним».
Це прокляття вимірності. У просторі 1000D 99,9% ваших даних знаходяться на зовнішній оболонці, майже на однаковій відстані від будь-якого запиту.
Стенфорд виявив зниження точності на 87% при 50 тисячах документів. Додавання більше контексту насправді погіршує галюцинації, а не покращує. Ми думали, що RAG вирішує галюцинації... Вони просто приховували їх за математикою.
Виправлення — це не переоцінка чи краще розділення частин. Це ієрархічний пошук і графові бази даних.

Найкращі
Рейтинг
Вибране
