Я перезапускаю свои оценки LLM. Мой фокус будет на задачах финансовых исследований. Первоначальные идеи: 1 • анализ новостного настроения 2 • финансовые расчеты 3 • анализ 10-K и т.д. Весь код будет опубликован - цель состоит в том, чтобы учиться. Я протестирую как маленькие, так и большие модели. Я также дообучу небольшие открытые модели и посмотрю, как они сравнятся с большими по конкретным задачам! Идеи для экспериментов приветствуются.
Изображение выше показывает передовые LLM. Впечатляет, сколько производительности мы получаем от Kimi K2 и DeepSeek R1, учитывая цену. Общая стоимость - это затраты на входные и выходные токены. Производительность - это ELO-оценка в арене LLM. Я определю свои собственные ELO-оценки по мере экспериментов.
6,33K