2023: la OpenAI, unele smochine cheie în post-antrenament au fost împotriva scalării RL. 2022: Eric/Yuhuai (acum xAI) a scris STaR și eu am scris "LLM se poate auto-îmbunătăți". Era clar că RL pe semnale curate deblochează următorul salt. Diferența pre/post-antrenament poate fi o mare încetinire a inteligenței artificiale.
34,75K