Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Reddit был крупным источником обучающих данных для OpenAI. Мне нужно будет больше покопаться утром. Кто-нибудь знает о юридическом соглашении между Reddit и OpenAI относительно использования этих данных?
И какие права, если таковые имеются, должны/имеют пользователи Reddit в отношении использования этих данных?

19 июл., 09:50
Представьте, что из-за какого-то поста, который вы написали много лет назад на reddit, stackexchange, в своем блоге и т.д., вы можете получать долю от дохода, который получают o3 или sonnet или хостинговые провайдеры открытых LLM.
Если данные, созданные людьми в интернете, являются ископаемым топливом для достижения AGI, людям необходимо иметь возможность извлекать ценность, зафиксированную в пропорции к их вкладу.
Вместо этого сейчас происходит следующее:
> крупные компании платят единовременные суммы за создание наборов данных и прикрепляют лицензию
> создают базовую модель
> прикрепляют API, чтобы взимать $/месяц или $ за N токенов
> получают доход, поднимают частные оценки на десятки или сотни миллиардов долларов, акции растут
Человеческие OG, чьи данные были критически важны, не получают ничего от этих гигантских захватов ценности.
Скептики могут сказать: "О, мы теперь используем синтетические данные для обучения, потому что считаем ИИ превосходящим человека". Но, брат, ты просто используешь более крупные модели, созданные ранее на основе человеческих данных, чтобы создавать синтетические данные для подготовки меньших, но более умных моделей. Это просто означает, что меньшая модель не существовала бы без предыдущей модели и, по сути, без OG человеческих данных. Снова, человеческие OG заслуживают видеть часть захваченной ценности в своем кошельке.
С учетом того, что RLHF становится все более критичным для постобучения, пользователей просят нажимать "нравится" или "не нравится" в интерфейсах чат-ботов. Эта предпочтение используется для дальнейшего улучшения модели, которая затем используется для взимания большего количества $/месяц или $ за N токенов для следующего издания LLM. Тем не менее, вы, да, вы, человеческие пользователи, не можете видеть, как эта ценность передается в ваш кошелек.
Очевидно, что доступ к современным GPU и ископаемому топливу человеческих данных был критически важен для создания самых конкурентоспособных предложений LLM. Тем не менее, только акционеры tsmc, nvidia, google и т.д., а также венчурные капиталисты и ангельские инвесторы openai, anthropic и т.д. получают всю захваченную ценность. Обычные люди, чьи цифровые следы были использованы, в конечном итоге получают крохи.
Независимо от того, какую дату устанавливают эксперты по ИИ или современные философы для достижения AGI, путь к AGI прокладывается за счет кражи прав собственности людей на их данные или цифровые действия.
Вот самый большой вопрос: как мы можем построить рынок данных без риска контрагента, который сможет постоянно измерять вклад каждого единичного цифрового действия человека в захват ценности любой коммерческой модели и делиться роялти обратно с человеком? Представьте, что это существует, у нас будет канал, где любой из этих гигантов сможет использовать человеческие данные для создания все лучших и лучших моделей, одновременно обеспечивая, чтобы обычный человек мог получать должные выплаты за свои цифровые действия. Какой замечательный мир это будет! Справедливое распределение.
Просто поздние размышления в пятницу!
404
Топ
Рейтинг
Избранное