Sto riavviando le mie valutazioni LLM. Il mio focus sarà sui compiti di ricerca finanziaria. Idee iniziali: 1 • analisi del sentiment delle notizie 2 • calcoli finanziari 3 • analisi 10-K, ecc. Tutto il codice sarà condiviso - poiché l'obiettivo è imparare. Testerò sia modelli piccoli che grandi. Inoltre, affinerò modelli open source piccoli e vedrò come si confrontano con quelli grandi su compiti specifici! Sono benvenute idee per esperimenti.
L'immagine sopra mostra i LLM di frontiera. È impressionante quanto rendimento otteniamo da Kimi K2 e DeepSeek R1, considerando il prezzo. Il costo totale è dato dai costi dei token di input + output. Le prestazioni sono il punteggio ELO nell'arena LLM. Definirò i miei punteggi ELO mentre sperimento.
6,34K