Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Будівля @EurekaLabsAI. Раніше директор AI @ Tesla, команда засновників @ OpenAI, CS231n/PhD @ Stanford. Мені подобається тренувати великі глибокі нейронні мережі.
Трохи безглуздо, але я все ще дивлюся пряму трансляцію заходу Apple для нових iPhone, щороку, починаючи з першого в 2007 році. Це не має сенсу, але це нормально. Пряма трансляція сьогодні о 10 ранку (через 1,5 години). Цього року я знову схрещую пальці за iPhone mini, який, я знаю, не прийде. ріп.
490,2K
Думаю, ще раз вітаю OpenAI за приготування з GPT-5 Pro. Це вже третій раз, коли я цілу годину борюся з чимось складним/неприємним з CC, потім 5 Pro вимикається на 10 хвилин і повертається з кодом, який працює з коробки. Я попросив CC прочитати версію 5 Pro, і вона написала 2 абзаци, захоплюючись нею (дуже корисно). Якщо ви не доставляєте йому найважчих проблем, ви, швидше за все, їх втрачаєте.
2,42M
В епоху передпідготовки важливим був текст в Інтернеті. Перш за все, вам потрібна велика, різноманітна, високоякісна колекція інтернет-документів для навчання.
В епоху контрольованого доопрацювання це були розмови. Контрактні працівники наймаються для створення відповідей на питання, трохи схожі на ті, що ви бачите на Stack Overflow / Quora або і т.д., але орієнтовані на випадки використання LLM.
Ні те, ні інше не зникає (імо), але в цю епоху навчання з підкріпленням це тепер середовище. На відміну від перерахованих вище, вони дають ЛЛМ можливість реально взаємодіяти - виконувати дії, бачити результати і т.д. Це означає, що ви можете сподіватися на набагато краще, ніж статистична експертна імітація. І їх можна використовувати як для модельного навчання, так і для оцінки. Але, як і раніше, основна проблема зараз полягає в потребі у великому, різноманітному, високоякісному наборі середовищ, як вправ для практики LLM.
У певному сенсі мені нагадує найперший проєкт OpenAI (тренажерний зал), який був саме фреймворком, який сподівався побудувати велику колекцію середовищ у тій самій схемі, але це було набагато раніше LLM. Таким чином, середовища були простими академічними контрольними завданнями того часу, як картшток, ATARI тощо. Хаб @PrimeIntellect середовищ (і репозиторій 'verifiers' на GitHub) будує модернізовану версію, спеціально націлену на LLM, і це великі зусилля/ідеї. Я запропонував, щоб хтось побудував щось подібне на початку цього року:
Середовища мають ту властивість, що як тільки скелет фреймворку на місці, в принципі, спільнота / індустрія може паралельно працювати в багатьох різних доменах, що захоплює.
Заключна думка - особиста і довгострокова, я оптимістично налаштований щодо оточення та агентичної взаємодії, але я ведмежий щодо навчання саме з підкріпленням. Я думаю, що функції винагороди супер су, і я думаю, що люди не використовують РЛ для навчання (можливо, вони використовують для якихось рухових завдань і т.д., але не для завдань з інтелектуального вирішення проблем). Люди використовують різні парадигми навчання, які є значно потужнішими та ефективними для вибірки, і які ще не були належним чином винайдені та масштабовані, хоча існують ранні ескізи та ідеї (як лише один із прикладів, ідея «системного оперативного навчання», перенесення оновлення на лексеми/контексти, а не ваги, і, за бажанням, переведення на ваги як окремий процес, трохи схожий на сон).

Prime Intellect28 серп. 2025 р.
Знайомство з Environments Hub
Середовища RL є ключовим вузьким місцем для наступної хвилі прогресу штучного інтелекту, але великі лабораторії блокують їх
Ми створили платформу спільноти для краудсорсингу відкритих середовищ, тому будь-хто може зробити свій внесок у AGI з відкритим вихідним кодом
800,5K
Найкращі
Рейтинг
Вибране