我最好的猜測: 評分標準 + LLM 評判 - 將每一點在真實證據中細分,並檢查與模型輸出的一致性。 我對他們如何使這變得可擴展的猜測 - 之前並不是這樣,人類必須仔細地製作它們,我猜他們訓練或做了某些事情,以便為每個特定問題或其答案生成非常好的評分標準。
Alexander Wei
Alexander Wei7月19日 15:50
除了結果本身,我對我們的方法感到興奮:我們達到這一能力水平不是通過狹窄的、特定任務的方法,而是通過在通用強化學習和測試時計算擴展方面開創新局。
.@polynoamial @alexwei_ 如果我對的話請眨兩次眼,如果我錯的話請眨三次 - 在盲人被盲人引導之前 xD
21.94K