Moderne redeneer modellen denken in eenvoudig Engels. Het monitoren van hun gedachten kan een krachtig, maar kwetsbaar, hulpmiddel zijn voor het toezicht op toekomstige AI-systemen. Ik en onderzoekers van veel organisaties denken dat we moeten werken aan het evalueren, behouden en zelfs verbeteren van de CoT-monitorbaarheid.
649,6K