O RAG está quebrado e ninguém fala sobre ele 🤯 Stanford acabou de publicar um artigo sobre o "Colapso Semântico", provando que, uma vez que sua base de conhecimento atinge ~10.000 documentos, a busca semântica vira literalmente um cara ou coroa. Veja por que seu RAG está falhando: Depois de 10.000 documentos, sua busca sofisticada por IA basicamente vira cara ou coroa. Todo documento que você adiciona é transformado em uma incorporação de alta dimensão. Em pequena escala, documentos semelhantes se agrupam perfeitamente. Mas se adicione dados suficientes, o espaço se preenche. As distâncias se comprimem. Tudo parece "relevante". É a maldição da dimensionalidade. No espaço 1000D, 99,9% dos seus dados vivem na camada externa, quase equidistante de qualquer consulta. Stanford encontrou uma queda de precisão de 87% em 50 mil documentos. Adicionar mais contexto na verdade piora as alucinações, não melhora. Achávamos que o RAG resolvia alucinações... Só os escondia atrás da matemática. A solução não é reposicionar ou melhorar o chunking. É recuperação hierárquica e bancos de dados de grafos.