O RAG está quebrado e ninguém está a falar sobre isso 🤯 Stanford acaba de publicar um artigo sobre "Colapso Semântico", provando que uma vez que a sua base de conhecimento atinge ~10.000 documentos, a pesquisa semântica torna-se um verdadeiro lançamento de moeda. Aqui está o porquê de o seu RAG estar a falhar: Após 10.000 documentos, a sua pesquisa AI sofisticada basicamente torna-se um lançamento de moeda. Cada documento que você adiciona é transformado em uma incorporação de alta dimensão. Em uma escala pequena, documentos semelhantes se agrupam perfeitamente. Mas adicione dados suficientes, e o espaço se preenche. As distâncias se comprimem. Tudo parece "relevante." É a maldição da dimensionalidade. Em um espaço de 1000D, 99,9% dos seus dados vivem na casca externa, quase equidistante de qualquer consulta. Stanford encontrou uma queda de precisão de 87% em 50k docs. Adicionar mais contexto na verdade piora as alucinações, não melhora. Pensávamos que o RAG resolvia as alucinações… ele apenas as escondeu atrás da matemática. A solução não é reclassificar ou melhor fragmentar. É recuperação hierárquica e bancos de dados em grafo.