Ik begin opnieuw met mijn LLM-evaluaties. Mijn focus zal liggen op financiële onderzoekstaken. Initiële ideeën: 1 • nieuws sentimentanalyse 2 • financiële berekeningen 3 • 10-K analyse, enz. Alle code zal worden gedeeld - het doel is om te leren. Ik zal zowel kleine als grote modellen testen. Ik zal ook kleine open source modellen finetunen en kijken hoe ze zich verhouden tot grote modellen op specifieke taken! Experimentideeën zijn welkom.
De afbeelding hierboven toont frontier LLM's. Het is indrukwekkend hoeveel prestaties we krijgen van Kimi K2 en DeepSeek R1, gezien de prijs. Totale kosten zijn de kosten van input + output tokens. Prestaties zijn de ELO-score in de LLM-arena. Ik zal mijn eigen ELO-scores definiëren terwijl ik experimenteer.
6,33K