我聽說強化學習只有在可驗證的獎勵下才有效?😛 恭喜!!
Alexander Wei
Alexander Wei7月19日 15:50
1/N 我很高興地分享,我們最新的 @OpenAI 實驗性推理 LLM 在人工智慧領域達成了一項長期以來的重大挑戰:在世界上最具聲望的數學競賽——國際數學奧林匹克(IMO)中獲得金牌級別的表現。
31.11K