O cireașă de mărimea unui pepene galben deasupra :)
Shane Gu
Shane Gu11 iul., 06:22
2023: la OpenAI, unele smochine cheie în post-antrenament au fost împotriva scalării RL. 2022: Eric/Yuhuai (acum xAI) a scris STaR și eu am scris "LLM se poate auto-îmbunătăți". Era clar că RL pe semnale curate deblochează următorul salt. Diferența pre/post-antrenament poate fi o mare încetinire a inteligenței artificiale.
13,62K