Jsem nesmírně nadšen potenciálem věrnosti a interpretovatelnosti myšlenkového řetězce. Výrazně ovlivnila design našich modelů uvažování, počínaje o1-preview.
Vzhledem k tomu, že systémy umělé inteligence vynakládají více výpočetních prostředků na práci, např. na dlouhodobých výzkumných problémech, je důležité, abychom měli nějaký způsob monitorování jejich interního procesu. Úžasnou vlastností skrytých CoT je, že i když začínají zakotveny v jazyce, který můžeme interpretovat, škálovatelná optimalizační procedura není nepřátelská vůči schopnosti pozorovatele ověřit záměr modelu - na rozdíl např. od přímého dohledu s modelem odměny.
Napětí je v tom, že pokud by CoT nebyly ve výchozím nastavení skryté a my bychom tento proces považovali za součást výstupu AI, existovala by velká motivace (a v některých případech nutnost) k tomu, abychom na něj uvalili dohled. Věřím, že zde můžeme pracovat na tom nejlepším z obou světů - trénovat naše modely tak, aby byly skvělé ve vysvětlování svého vnitřního uvažování, ale zároveň si stále zachovat schopnost ho občas ověřit.
Věrnost CoT je součástí širšího výzkumného směru, kterým je trénink interpretovatelnosti: stanovení cílů způsobem, který trénuje alespoň část systému, aby zůstal poctivý a monitorovatelný s měřítkem. Pokračujeme ve zvyšování našich investic do tohoto výzkumu v OpenAI.
Moderní modely uvažování uvažují srozumitelnou angličtinou.
Sledování jejich myšlenek by mohlo být mocným, ale křehkým nástrojem pro dohled nad budoucími systémy umělé inteligence.
Já a výzkumníci z mnoha organizací si myslíme, že bychom měli pracovat na vyhodnocení, zachování a dokonce zlepšení monitorovatelnosti CoT.