Îmi reîncep evaluările LLM. Mă voi concentra pe sarcinile de cercetare financiară. Idei inițiale: 1 • Analiza sentimentului de știri 2 • Calcule financiare 3 • Analiza 10-K etc Tot codul va fi partajat - deoarece scopul este de a învăța. Va testa atât modele mici, cât și mari. De asemenea, voi ajusta modelele mici open source și voi vedea cum se compară cu cele mari pe sarcini specifice! Ideile de experimente sunt binevenite.
Imaginea de mai sus arată LLM-urile de frontieră. Este impresionant cât de multă performanță obținem de la Kimi K2 și DeepSeek R1, având în vedere prețul. Costul total este costurile jetoanelor de intrare + ieșire. Performanța este scorul ELO al arenei LLM. Îmi voi defini propriile scoruri ELO pe măsură ce experimentez.
6,34K