Am auzit că învățarea prin întărire funcționează doar cu recompense verificabile? 😛 Congrats!!
Alexander Wei
Alexander Wei19 iul., 15:50
1/N Sunt încântat să vă împărtășesc că cel mai recent @OpenAI raționament experimental LLM a realizat o mare provocare de lungă durată în AI: performanța la nivel de medalie de aur la cea mai prestigioasă competiție de matematică din lume - Olimpiada Internațională de Matematică (IMO).
31,21K