トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
私の最善の推測:
ルーブリック + LLM ジャッジ - グラウンドトゥルース証明の各ポイントをアトマイズし、モデル出力と照合します
彼らがどのようにしてこれをスケーラブルにしたかについての私の推測 - 以前はそうではなかったように、人間はそれらを細心の注意を払って作成する必要がありました、彼らは特定の問題やその答えごとに生成された非常に優れたルーブリックを作成するために訓練されたのか、それとも何かをしたのか。

7月19日 15:50
5/N 結果自体に加えて、私は私たちのアプローチに興奮しています:私たちは、狭いタスク固有の方法論ではなく、汎用強化学習とテスト時のコンピューティングスケーリングの新境地を開拓することによって、この能力レベルに到達します。
.@polynoamial @alexwei_私が正しい場合は2回、間違っている場合は3回点滅します-ブラインドがブラインドに導かれる前にxD
21.99K
トップ
ランキング
お気に入り