Я перезапускаю свої оцінювання LLM. Моя увага буде зосереджена на фінансових дослідницьких завданнях. Початкові ідеї: 1 • Аналіз настроїв у новинах 2 • фінансові розрахунки 3 • 10-К аналіз і т.д Весь код буде спільним - так як мета полягає в навчанні. Тестувати будуть як маленькі, так і великі моделі. Я також доопрацюю маленькі моделі з відкритим вихідним кодом і подивлюся, як вони порівнюються з великими в конкретних завданнях! Вітаються ідеї для експериментів.
На зображенні вище показані прикордонні LLM. Вражає, наскільки продуктивність ми отримуємо від Kimi K2 і DeepSeek R1, враховуючи ціну. Загальна вартість – це витрати на вхід + вихід токена. Результативність – це оцінка LLM arena ELO. Я буду визначати свої власні показники ELO в міру експерименту.
6,32K