Honestamente, a maioria dos desenvolvedores de IA ainda está presa no século passado. Fico impressionado com o quão poucas pessoas estão cientes da Análise de Erros. Esta é *literalmente* a maneira mais rápida e eficaz de avaliar aplicativos de IA, e a maioria das equipes ainda está presa perseguindo fantasmas. Pare de rastrear métricas genéricas e siga estas etapas: 1. Colete amostras de falha Comece a revisar as respostas geradas por sua inscrição. Escreva notas sobre cada resposta, especialmente aquelas que foram erros. Você não precisa formatar suas anotações de nenhuma maneira específica. Concentre-se em descrever o que deu errado com a resposta. 2. Categorize suas anotações Depois de revisar um bom conjunto de respostas, faça um LLM e peça para encontrar padrões comuns em suas anotações. Peça-lhe para classificar cada nota com base nesses padrões. Você acabará com categorias que cobrem todos os tipos de erros cometidos por sua inscrição. 3. Diagnostique os erros mais frequentes Comece concentrando-se no tipo mais comum de erro. Você não quer perder tempo trabalhando com erros raros. Aprofunde-se nas conversas, entradas e registros que levam a essas amostras incorretas. Tente entender o que pode estar causando os problemas. 4. Projete correções direcionadas Neste ponto, você deseja determinar como eliminar os erros diagnosticados na etapa anterior da maneira mais rápida e barata possível. Por exemplo, você pode ajustar seus prompts, adicionar regras de validação extras, encontrar mais dados de treinamento ou modificar o modelo. 5. Automatize o processo de avaliação Você precisa implementar um processo simples para executar novamente um conjunto de avaliação por meio de seu aplicativo e avaliar se suas correções foram eficazes. Minha recomendação é usar um LLM-as-a-Judge para executar amostras por meio do aplicativo, pontuá-las com uma tag PASS/FAIL e calcular os resultados. 6. Fique de olho em suas métricas Cada categoria identificada durante a análise de erros é uma métrica que você deseja acompanhar ao longo do tempo. Você não chegará a lugar nenhum obcecado com "relevância", "correção", "integridade", "coerência" e quaisquer outras métricas prontas para uso. Esqueça isso e concentre-se nos problemas reais que você encontrou.
49,3K