We hebben een position paper gepubliceerd, samen met velen in de industrie, waarin we oproepen tot werk aan de trouwheid van chain-of-thought. Dit is een kans om modellen te trainen om interpreteerbaar te zijn. We investeren in dit gebied bij OpenAI, en dit perspectief is terug te zien in onze producten:
Jakub Pachocki
Jakub Pachocki16 jul, 00:23
Ik ben extreem enthousiast over het potentieel van chain-of-thought trouwheid en interpreteerbaarheid. Het heeft een significante invloed gehad op het ontwerp van onze redeneermodellen, te beginnen met o1-preview. Naarmate AI-systemen meer rekencapaciteit besteden aan bijvoorbeeld langetermijnonderzoeksproblemen, is het cruciaal dat we een manier hebben om hun interne processen te monitoren. De geweldige eigenschap van verborgen CoTs is dat, terwijl ze beginnen met een basis in taal die we kunnen interpreteren, de schaalbare optimalisatieprocedure niet vijandig is ten opzichte van het vermogen van de waarnemer om de intentie van het model te verifiëren - in tegenstelling tot bijvoorbeeld directe supervisie met een beloningsmodel. De spanning hier is dat als de CoTs niet standaard verborgen waren, en we het proces beschouwen als onderdeel van de output van de AI, er veel prikkels (en in sommige gevallen, noodzaak) zijn om supervisie erop te zetten. Ik geloof dat we hier kunnen werken aan het beste van beide werelden - onze modellen trainen om geweldig te zijn in het uitleggen van hun interne redenering, maar tegelijkertijd de mogelijkheid behouden om het af en toe te verifiëren. CoT trouwheid maakt deel uit van een bredere onderzoeksrichting, namelijk trainen voor interpreteerbaarheid: doelstellingen op een manier instellen die ten minste een deel van het systeem traint om eerlijk en controleerbaar te blijven met schaal. We blijven onze investering in dit onderzoek bij OpenAI vergroten.
158,51K