我正在重新啟動我的 LLM 評估。 我的重點將放在金融研究任務上。 初步想法: 1 • 新聞情感分析 2 • 財務計算 3 • 10-K 分析等 所有代碼將會分享 - 目標是學習。 我將測試小型和大型模型。 我還會微調小型開源模型,看看它們在特定任務上與大型模型的比較! 歡迎提出實驗想法。
上面的圖片顯示了前沿的 LLM。 考慮到價格,Kimi K2 和 DeepSeek R1 的性能實在令人印象深刻。 總成本是輸入 + 輸出代幣成本。 性能是 LLM 競技場的 ELO 分數。我會在實驗中定義我自己的 ELO 分數。
6.34K