Am publicat un document de poziție, cu mulți din industrie, cerând să lucrăm la fidelitatea lanțului de gândire. Aceasta este o oportunitate de a antrena modele pentru a fi interpretabile. Investim în acest domeniu la OpenAI, iar această perspectivă se reflectă în produsele noastre:
Jakub Pachocki
Jakub Pachocki16 iul., 00:23
Sunt extrem de entuziasmat de potențialul fidelității și interpretabilității lanțului de gândire. A influențat semnificativ designul modelelor noastre de raționament, începând cu previzualizarea o1. Pe măsură ce sistemele AI cheltuiesc mai mult calcul, de exemplu pe probleme de cercetare pe termen lung, este esențial să avem o modalitate de a monitoriza procesul lor intern. Proprietatea minunată a CoT-urilor ascunse este că, deși încep cu un limbaj pe care îl putem interpreta, procedura de optimizare scalabilă nu este adversă pentru capacitatea observatorului de a verifica intenția modelului - spre deosebire de supravegherea directă cu un model de recompensă. Tensiunea aici este că, dacă CoT-urile nu au fost ascunse în mod implicit și vedem procesul ca parte a rezultatului AI, există o mulțime de stimulente (și, în unele cazuri, necesitate) pentru a-l supraveghea. Cred că putem lucra pentru ce este mai bun din ambele lumi aici - să ne antrenăm modelele să fie grozave în a-și explica raționamentul intern, dar în același timp să păstrăm capacitatea de a-l verifica ocazional. Fidelitatea CoT face parte dintr-o direcție mai largă de cercetare, care este antrenarea pentru interpretabilitate: stabilirea obiectivelor într-un mod care să antreneze cel puțin o parte a sistemului să rămână onest și monitorizabil la scară. Continuăm să ne creștem investițiile în această cercetare la OpenAI.
158,52K