Znovu začínám s hodnocením LLM. Zaměřím se na úkoly finančního výzkumu. Počáteční nápady: 1 • analýza sentimentu ve zprávách 2 • finanční kalkulace 3 • 10-K analýza atd Veškerý kód bude sdílen - protože cílem je učit se. Otestuje malé i velké modely. Doladím také malé open source modely a uvidím, jak se srovnávají s velkými modely na konkrétních úkolech! Nápady na experimenty jsou vítány.
Obrázek výše ukazuje hraniční LLM. Je působivé, kolik výkonu dostaneme z Kimi K2 a DeepSeek R1, vzhledem k ceně. Celkové náklady jsou náklady na vstupní + výstupní token. Výkon je skóre LLM arena ELO. Při experimentování si definuji své vlastní ELO skóre.
6,32K