LLM 評価を再開しています。 私の焦点は金融調査タスクです。 初期のアイデア: 1 • ニュースセンチメント分析 2 • 財務計算 3 • 10-K 分析など すべてのコードは共有されます - 目標は学習です。 小型モデルと大型モデルの両方をテストします。 また、小さなオープンソースモデルを微調整し、特定のタスクで大規模なモデルとどのように比較するかを確認します。 実験のアイデアは大歓迎です。
上の画像はフロンティアLLMを示しています。 価格を考えると、Kimi K2 と DeepSeek R1 からどれだけのパフォーマンスが得られるかは印象的です。 合計コストは、入力 + 出力トークン コストです。 パフォーマンスはLLMアリーナELOスコアです。 実験しながら、独自のELOスコアを定義します。
6.33K