Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
@meta @cornell de pesquisa // modelos de linguagem, teoria da informação, ciência da IA
Aqui estão alguns alfas gratuitos:
se fizermos RL por muito tempo após o pré-treinamento, certamente substituiremos os parâmetros e começaremos a esquecer as coisas
no artigo original do instructGPT, seu melhor modelo misturou RLHF com gradientes de pré-treinamento para evitar exatamente esse problema de desvio do modelo
No entanto, ninguém está mais fazendo isso. claro, é uma instanciação particular (mistura de gradiente) de uma ideia mais ampla (evitando o esquecimento), mas parece uma linha de pensamento muito negligenciada à medida que fazemos mais e mais etapas de RL
por exemplo, veja o recente artigo do ProRL. eles estão fazendo mais de 1000 etapas do GRPO agora com uma taxa de aprendizado não trivial e sem penalidade por se desviar do modelo original. Os circuitos construídos dentro do modelo durante o pré-treinamento certamente estão começando a se deteriorar. e se não, eles o farão após 10k ou 100k RL passos
Suspeito que essa ideia voltará eventualmente; Eles provavelmente já estão fazendo isso nos grandes laboratórios



51,13K
Isso parece muito importante:
é totalmente plausível que um modelo possa obter ouro IMO sem *qualquer* aprendizado por reforço, dado um prompt perfeitamente elaborado
simplesmente não sabemos e não temos ferramentas para pesquisar com eficiência no espaço de prompt. fico feliz em ver que pelo menos alguém está tentando

Lakshya A Agrawal29 de jul. de 2025
Como a otimização imediata se compara a algoritmos RL como GRPO?
O GRPO precisa de 1000 lançamentos, mas os humanos podem aprender com algumas tentativas - refletindo sobre o que funcionou e o que não funcionou.
Conheça o GEPA: um otimizador de prompt reflexivo que pode superar o GRPO em até 20% com 35 vezes menos implementações! 🧵

36,21K
situação hipotética -
Eu sou uma empresa de IA que reduziu o custo de transferência e armazenamento de modelos a zero. Posso servir a cada usuário seu próprio modelo sem sobrecarga
O que eu faço? diretamente SFT modelos específicos do usuário em seus dados? ou RLHF nas classificações de bate-papo? outra coisa?
16,57K
O cérebro humano reserva 40% de seu processamento exclusivamente para a visão. os LLMs modernos de alguma forma evoluíram sem isso inteiramente

jack morris29 de jul. de 2025
muito surpreendente que quinze anos de pesquisa de visão computacional hardcore não tenham contribuído ~nada para a AGI, exceto melhores otimizadores
Ainda não temos modelos que ficam mais inteligentes quando lhes damos olhos
44,22K
Melhores
Classificação
Favoritos
Em alta on-chain
Em alta no X
Principais fundos da atualidade
Mais notável