🆕 エージェント推論者のトレーニング 本日の特集は、@willccbbがAIEステージのRLトラックに凱旋する姿です - 今や@PrimeIntellectの一部として! 多くのエージェントビルダーは、基本的に「RLを手作業で」行っています。彼は、現在のRLアルゴリズムを1枚のスライドで簡潔に説明していますが(!)、その後、RLは、特にオープンモデルの場合、数学とコードのQ&Aの世界で行き詰まっていると主張しています 新しいホットネスはマルチターンエージェントRLであり、新しい検証者ライブラリはエージェントを構築してRLループに変換するための究極のツールキットです。 より多くの人々がより優れたエージェントモデルの構築を探求すべきであり、Will + PIはそれをすべての人に可能にしています。
feedsImage
47.6K