Jeg starter LLM-evalueringene mine på nytt. Mitt fokus vil være på finansielle forskningsoppgaver. Innledende ideer: 1 • Analyse av nyhetssentiment 2 • økonomiske beregninger 3 • 10-K-analyse osv All kode vil bli delt - som mål er å lære. Vil teste både små og store modeller. Jeg vil også finjustere små åpen kildekode-modeller og se hvordan de sammenlignes med store på spesifikke oppgaver! Eksperimentideer er velkomne.
Bildet over viser grense-LLM-er. Det er imponerende hvor mye ytelse vi får fra Kimi K2 og DeepSeek R1, gitt pris. Total kostnad er input + output token-kostnader. Ytelse er LLM arena ELO-poeng. Jeg definerer mine egne ELO-poeng mens jeg eksperimenterer.
6,32K