كرز بحجم البطيخ فوق :)
Shane Gu
Shane Gu‏11 يوليو، 06:22
2023: في OpenAI ، كانت بعض التين الرئيسي في مرحلة ما بعد التدريب ضد توسيع نطاق RL. 2022: كتب إريك / يوهواي (الآن xAI) STaR وكتبت "يمكن ل LLM تحسين نفسه". كان من الواضح أن RL على الإشارات النظيفة يفتح القفزة التالية. قد تكون الفجوة قبل / بعد التدريب تباطؤا كبيرا في الذكاء الاصطناعي.
‏‎13.62‏K