Я надзвичайно захоплений потенціалом вірності та інтерпретації ланцюга думок. Це суттєво вплинуло на дизайн наших моделей міркувань, починаючи з o1-preview. Оскільки системи штучного інтелекту витрачають більше на роботу обчислень, наприклад, над довгостроковими дослідницькими проблемами, дуже важливо, щоб у нас був якийсь спосіб моніторингу їх внутрішнього процесу. Чудова властивість прихованих CoT полягає в тому, що, хоча вони починаються на мові, яку ми можемо інтерпретувати, масштабована процедура оптимізації не є змагальною для здатності спостерігача перевірити намір моделі - на відміну, наприклад, від прямого нагляду з моделлю винагороди. Напруга тут полягає в тому, що якщо CoT не були приховані за замовчуванням, і ми розглядаємо процес як частину виводу ШІ, є багато стимулів (а в деяких випадках і необхідність) встановити на нього нагляд. Я вважаю, що ми можемо працювати над тим, щоб досягти найкращого з обох світів тут – навчити наших моделей чудово пояснювати свої внутрішні міркування, але в той же час зберігати здатність час від часу перевіряти їх. Вірність CoT є частиною ширшого дослідницького напрямку, який полягає в навчанні інтерпретації: постановці цілей таким чином, щоб принаймні частина системи залишалася чесною та підлягала моніторингу за допомогою масштабу. Ми продовжуємо збільшувати наші інвестиції в це дослідження в OpenAI.
Bowen Baker
Bowen Baker16 лип., 00:09
Сучасні моделі міркувань мислять простою англійською мовою. Моніторинг їхніх думок може бути потужним, але крихким інструментом для нагляду за майбутніми системами штучного інтелекту. Я та дослідники з багатьох організацій вважають, що ми повинні працювати над оцінкою, збереженням і навіть покращенням моніторингу CoT.
264,15K