Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Julian Schrittwieser
Anggota Staf Teknis di Anthropic AlphaGo, AlphaZero, MuZero, AlphaCode, AlphaTensor, AlphaProof Gemini RL Prev Insinyur Riset Utama di DeepMind
Fast Opus luar biasa, pertama kali saya menggunakannya, saya tidak bisa berhenti membuat kode selama berjam-jam - sejujurnya terasa seperti kekuatan super, Anda dapat membentuk basis kode Anda secepat yang Anda pikirkan.
Benar-benar luar biasa, tidak ada yang membuat saya lebih merasakan AGI, pasti mencobanya!

Claude8 Feb 2026
Tim kami telah membangun dengan versi Claude Opus 4.6 2,5x lebih cepat.
Kami sekarang membuatnya tersedia sebagai eksperimen awal melalui Claude Code dan API kami.
63
Saya bersenang-senang mengobrol dengan @mattturck dari podcast MAD minggu ini! Kami membahas tren dalam AI, RL, dan mengapa AI, dan mengapa membuka kunci Agen, penskalaan, dan banyak lagi:
Tautan ke apa yang kita bicarakan dan bacaan lebih lanjut:

Matt Turck24 Okt 2025
Gagal memahami eksponensial, lagi?
Percakapan saya dengan @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - tentang Move 37, Scaling RL, Hadiah Nobel untuk AI, dan perbatasan AI:
00:00 - Terbuka dingin: "Kami tidak melihat perlambatan."
00:32 - Intro — Temui Julian
01:09 - "Eksponensial" dari dalam laboratorium perbatasan
04:46 - 2026–2027: agen yang bekerja sehari penuh; Luasnya tingkat ahli
08:58 - Tolok ukur vs kenyataan: pekerjaan jangka panjang, PDB-Val, nilai pengguna
10:26 - Langkah 37 — apa yang sebenarnya terjadi dan mengapa itu penting
13:55 - Sains baru: AlphaCode/AlphaTensor → kapan AI mendapatkan Nobel?
16:25 - Diskontinuitas vs kemajuan yang lancar (dan tanda-tanda peringatan)
19:08 - Apakah pra-pelatihan + RL membawa kita ke sana? (Selain perdebatan AGI)
20:55 - "RL dari awal" Sutton? Pendapat Julian
23:03 - Jalan Julian: Google → DeepMind → Anthropic
26:45 - AlphaGo (belajar + mencari) dalam bahasa Inggris sederhana
30:16 - AlphaGo Zero (tanpa data manusia)
31:00 - AlphaZero (satu algoritma: Go, catur, shogi)
31:46 - MuZero (perencanaan dengan model dunia yang dipelajari)
33:23 -Pelajaran untuk agen hari ini: pencarian + pembelajaran dalam skala besar
34:57 - Apakah LLM sudah memiliki model dunia implisit?
39:02 - Mengapa RL pada LLM membutuhkan waktu (stabilitas, loop umpan balik)
41:43 - Komputasi & penskalaan untuk RL — apa yang kita lihat sejauh ini
42:35 - Perbatasan hadiah: prefs manusia, rubrik, RLVR, hadiah proses
44:36 - Data pelatihan RL & "roda gila" (dan mengapa kualitas penting)
48:02 - RL & Agents 101 — mengapa RL membuka ketahanan
50:51 - Haruskah pembangun menggunakan RL-as-a-service? Atau hanya alat + petunjuk?
52:18 - Apa yang hilang untuk agen yang dapat diandalkan (kemampuan vs teknik)
53:51 - Evals & Goodhart — tolok ukur internal vs eksternal
57:35 - Interpretabilitas mekanistik & "Golden Gate Claude"
1:00:03 - Keselamatan & penyelarasan di Anthropic — bagaimana hal itu muncul dalam praktik
1:03:48 - Pekerjaan: komplementaritas manusia-AI (keunggulan komparatif)
1:06:33 - Ketidaksetaraan, kebijakan, dan kasus untuk 10× produktivitas → kelimpahan
1:09:24 - Penutup
669
Teratas
Peringkat
Favorit
