私の最善の推測: ルーブリック + LLM ジャッジ - グラウンドトゥルース証明の各ポイントをアトマイズし、モデル出力と照合します 彼らがどのようにしてこれをスケーラブルにしたかについての私の推測 - 以前はそうではなかったように、人間はそれらを細心の注意を払って作成する必要がありました、彼らは特定の問題やその答えごとに生成された非常に優れたルーブリックを作成するために訓練されたのか、それとも何かをしたのか。
Alexander Wei
Alexander Wei7月19日 15:50
5/N 結果自体に加えて、私は私たちのアプローチに興奮しています:私たちは、狭いタスク固有の方法論ではなく、汎用強化学習とテスト時のコンピューティングスケーリングの新境地を開拓することによって、この能力レベルに到達します。
.@polynoamial @alexwei_私が正しい場合は2回、間違っている場合は3回点滅します-ブラインドがブラインドに導かれる前にxD
21.99K