Ich starte meine LLM-Bewertungen neu. Mein Fokus wird auf finanziellen Forschungsaufgaben liegen. Erste Ideen: 1 • Nachrichtenstimmungsanalyse 2 • Finanzberechnungen 3 • 10-K-Analyse usw. Der gesamte Code wird geteilt - das Ziel ist es zu lernen. Ich werde sowohl kleine als auch große Modelle testen. Ich werde auch kleine Open-Source-Modelle feinabstimmen und sehen, wie sie sich bei spezifischen Aufgaben im Vergleich zu großen Modellen schlagen! Experimentideen sind willkommen.
Das obige Bild zeigt die Frontier-LLMs. Es ist beeindruckend, wie viel Leistung wir von Kimi K2 und DeepSeek R1 erhalten, angesichts des Preises. Die Gesamtkosten sind die Kosten für Eingabe- und Ausgabetoken. Die Leistung ist der ELO-Score im LLM-Bereich. Ich werde meine eigenen ELO-Scores definieren, während ich experimentiere.
6,33K