Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Julian Schrittwieser

Член технічного персоналу Anthropic AlphaGo, AlphaZero, MuZero, AlphaCode, AlphaTensor, AlphaProof Gemini RL Prev Головний інженер-дослідник DeepMind

Цього тижня мені було дуже весело спілкуватися з @mattturck з подкасту MAD! Ми поговорили про тренди в AI, RL і чому він розблоковує агентів, масштабування та багато іншого: Посилання на те, про що ми говорили, та додаткова література:

Знову ж таки, не розумієте експоненціального? Моя розмова з @Mononofu - Джуліаном Шріттвізером (@AnthropicAI, AlphaGo Zero, MuZero) - про Move 37, Scaling RL, Нобелівську премію зі штучного інтелекту та AI frontier: 00:00 - Cold open: «Ми не бачимо ніякого уповільнення». 00:32 - Вступ — Знайомство з Джуліаном 01:09 - "Експоненціал" зсередини прикордонних лабораторій 04:46 - 2026–2027: агенти, які працюють повний день; Широта на рівні експерта 08:58 - Бенчмарки vs реальність: робота на довгостроковому горизонті, ВВП-Вал, цінність користувача 10:26 - Хід 37 - що насправді сталося і чому це мало значення 13:55 - Нова наука: AlphaCode/AlphaTensor → коли штучний інтелект отримає Нобелівську премію? 16:25 - Розрив проти плавного прогресу (і попереджувальні знаки) 19:08 - Чи допоможе нам попередня підготовка + RL? (Дебати AGI в сторону) 20:55 - Саттон "RL з нуля"? Погляд Джуліана 23:03 - Шлях Джуліана: Google → DeepMind → Anthropic 26:45 - AlphaGo (вивчення + пошук) простою англійською мовою 30:16 - AlphaGo Zero (немає даних про людину) 31:00 - AlphaZero (один алгоритм: го, шахи, сьогі) 31:46 - MuZero (планування з вивченою моделлю світу) 33:23 -Уроки для сучасних агентів: пошук + навчання в масштабі 34:57 - Чи є у LLM вже неявні моделі світу? 39:02 - Чому RL на LLM зайняв час (стабільність, петлі зворотного зв'язку) 41:43 - Обчислення та масштабування для RL - що ми бачимо на даний момент 42:35 - Кордон нагород: людські префи, рубрики, RLVR, нагороди за процес 44:36 - Тренувальні дані RL і «маховик» (і чому якість має значення) 48:02 - RL & Agents 101 — чому RL розкриває надійність 50:51 - Чи повинні будівельники використовувати RL-as-a-service? Або просто інструменти + підказки? 52:18 – Чого не вистачає надійним агентам (можливості vs інженерія) 53:51 - Evals & Goodhart - внутрішні vs зовнішні бенчмарки 57:35 - Механістична інтерпретація & "Золоті ворота Клода" 1:00:03 - Безпека та вирівнювання в Anthropic — як це проявляється на практиці 1:03:48 - Вакансії: взаємодоповнюваність людини та штучного інтелекту (порівняльна перевага) 1:06:33 - Нерівність, політика та аргументи на користь 10× продуктивність → достаток 1:09:24 - Висновок

Найкращі

Рейтинг

Вибране