Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Julian Schrittwieser
Członek personelu technicznego w Anthropic AlphaGo, AlphaZero, MuZero, AlphaCode, AlphaTensor, AlphaProof Gemini RL Prev Główny inżynier ds. badań w DeepMind
Fast Opus jest niesamowity, za pierwszym razem, gdy go użyłem, nie mogłem przestać kodować przez godziny - naprawdę czułem się jakbym miał supermoc, możesz kształtować swoją bazę kodu tak szybko, jak myślisz.
Naprawdę niesamowite, nic nie sprawiło, że poczułem AGI bardziej, zdecydowanie spróbuj!

Claude8 lut 2026
Our teams have been building with a 2.5x-faster version of Claude Opus 4.6.
We’re now making it available as an early experiment via Claude Code and our API.
143
Bardzo się cieszyłem, że mogłem porozmawiać z @mattturck z podcastu MAD w tym tygodniu! Rozmawialiśmy o trendach w AI, RL i dlaczego odblokowuje to Agenty, skalowaniu i wielu innych rzeczach:
linki do tego, o czym rozmawialiśmy oraz dalsze lektury:

Matt Turck24 paź 2025
Nie rozumiesz wykładniczości, znowu?
Moja rozmowa z @Mononofu - Julianem Schrittwieserem (@AnthropicAI, AlphaGo Zero, MuZero) - na temat Ruchu 37, skalowania RL, Nagrody Nobla za AI i granicy AI:
00:00 - Zimne otwarcie: „Nie widzimy żadnego spowolnienia.”
00:32 - Wprowadzenie — Poznaj Juliana
01:09 - „Wykładniczość” z wnętrza laboratoriów granicznych
04:46 - 2026–2027: agenci pracujący pełen dzień; szerokość na poziomie ekspertów
08:58 - Wskaźniki a rzeczywistość: prace długoterminowe, GDP-Val, wartość użytkownika
10:26 - Ruch 37 — co się naprawdę wydarzyło i dlaczego to miało znaczenie
13:55 - Nowa nauka: AlphaCode/AlphaTensor → kiedy AI zasługuje na Nobla?
16:25 - Dyskontynuacja a płynny postęp (i znaki ostrzegawcze)
19:08 - Czy wstępne szkolenie + RL nas tam doprowadzi? (debata AGI na bok)
20:55 - „RL od podstaw” Suttona? Opinia Juliana
23:03 - Ścieżka Juliana: Google → DeepMind → Anthropic
26:45 - AlphaGo (uczenie + wyszukiwanie) w prostych słowach
30:16 - AlphaGo Zero (bez danych ludzkich)
31:00 - AlphaZero (jeden algorytm: Go, szachy, shogi)
31:46 - MuZero (planowanie z wykorzystaniem modelu świata)
33:23 - Lekcje dla dzisiejszych agentów: wyszukiwanie + uczenie na dużą skalę
34:57 - Czy LLM-y już mają implicitne modele świata?
39:02 - Dlaczego RL na LLM-ach zajęło czas (stabilność, pętle sprzężenia zwrotnego)
41:43 - Obliczenia i skalowanie dla RL — co widzimy do tej pory
42:35 - Granica nagród: preferencje ludzkie, rubryki, RLVR, nagrody procesowe
44:36 - Dane treningowe RL i „koło zamachowe” (i dlaczego jakość ma znaczenie)
48:02 - RL i Agenci 101 — dlaczego RL odblokowuje odporność
50:51 - Czy twórcy powinni korzystać z RL jako usługi? A może tylko narzędzi + podpowiedzi?
52:18 - Czego brakuje, aby agenci byli niezawodni (zdolności a inżynieria)
53:51 - Evals & Goodhart — wewnętrzne a zewnętrzne wskaźniki
57:35 - Mechanistyczna interpretowalność i „Złota Brama Claude”
1:00:03 - Bezpieczeństwo i dostosowanie w Anthropic — jak to wygląda w praktyce
1:03:48 - Praca: komplementarność człowiek–AI (przewaga komparatywna)
1:06:33 - Nierówność, polityka i argument na rzecz 10× wydajności → obfitość
1:09:24 - Myśli końcowe
735
Najlepsze
Ranking
Ulubione
