LLM は通常、標準テスト セットの自動メトリックを使用して評価されますが、メトリック + テスト セットは独立して開発されます。これは重大な問題を提起します:優先順位を付けるテストセットで優れているように、特に自動メトリックを設計できますか?答え:はい!
11.37K