Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O RAG está quebrado e ninguém está a falar sobre isso 🤯
Stanford acaba de publicar um artigo sobre "Colapso Semântico", provando que uma vez que a sua base de conhecimento atinge ~10.000 documentos, a pesquisa semântica torna-se um verdadeiro lançamento de moeda.
Aqui está o porquê de o seu RAG estar a falhar:
Após 10.000 documentos, a sua pesquisa AI sofisticada basicamente torna-se um lançamento de moeda.
Cada documento que você adiciona é transformado em uma incorporação de alta dimensão. Em uma escala pequena, documentos semelhantes se agrupam perfeitamente. Mas adicione dados suficientes, e o espaço se preenche. As distâncias se comprimem. Tudo parece "relevante."
É a maldição da dimensionalidade. Em um espaço de 1000D, 99,9% dos seus dados vivem na casca externa, quase equidistante de qualquer consulta.
Stanford encontrou uma queda de precisão de 87% em 50k docs. Adicionar mais contexto na verdade piora as alucinações, não melhora. Pensávamos que o RAG resolvia as alucinações… ele apenas as escondeu atrás da matemática.
A solução não é reclassificar ou melhor fragmentar. É recuperação hierárquica e bancos de dados em grafo.

Top
Classificação
Favoritos
