Estou a reiniciar as minhas avaliações de LLM. O meu foco será em tarefas de pesquisa financeira. Ideias iniciais: 1 • análise de sentimento de notícias 2 • cálculos financeiros 3 • análise de 10-K, etc. Todo o código será partilhado - pois o objetivo é aprender. Vou testar tanto modelos pequenos como grandes. Também vou ajustar modelos pequenos de código aberto e ver como se comparam com os grandes em tarefas específicas! Ideias para experimentos são bem-vindas.
A imagem acima mostra os LLMs de fronteira. É impressionante quanta performance obtemos do Kimi K2 e do DeepSeek R1, dado o preço. O custo total é a soma dos custos de tokens de entrada e saída. A performance é a pontuação ELO na arena LLM. Vou definir minhas próprias pontuações ELO à medida que experimento.
6,33K