Jag startar om mina LLM-utvärderingar. Mitt fokus kommer att ligga på finansiell analys. Inledande idéer: 1 • Analys av nyhetssentiment 2 • Ekonomiska kalkyler 3 • 10-K-analys m.m. All kod kommer att delas - eftersom målet är att lära sig. Kommer att testa både små och stora modeller. Jag kommer också att finjustera små modeller med öppen källkod och se hur de står sig jämfört med stora på specifika uppgifter! Experimentidéer är välkomna.
Bilden ovan visar frontier LLM:er. Det är imponerande hur mycket prestanda vi får från Kimi K2 och DeepSeek R1, med tanke på priset. Den totala kostnaden är kostnader för indata + utdatatoken. Prestanda är LLM arena ELO-poäng. Jag kommer att definiera mina egna ELO-poäng när jag experimenterar.
6,35K