Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Trabalho com tecnologia, política e governança. Consultor na a16z crypto e Meta.
Trabalho muito interessante sobre como a pesquisa empírica precisa responder à era da IA.
Testes estatísticos convencionais com valores p vêm de um mundo em que cada teste era considerado bastante caro. A IA agora torna cada teste praticamente gratuito para rodar.
Alguns pontos-chave do resumo:
--"provamos que a triagem colapsa à medida que os testes se tornam baratos, a menos que o número necessário de verificações de robustez escale pelo menos linearmente no custo inverso de cada teste"
--"defendemos a necessidade de desenvolver métodos para interpretar conjuntos de muitas especificações simultaneamente"
Sim! Ainda não sei exatamente como isso vai parecer e se sentir, mas é claramente o que é necessário. E precisa cortar nos dois sentidos:
(1) Capturar e desencorajar resultados de pesquisa selecionados a dedo
Mas, tão importante quanto:
(2) Detectar e recompensar bons achados.
O número 2 aqui pode se mostrar, em alguns aspectos, mais difícil. Toda a nossa intuição parece estar em mostrar que uma descoberta é "menos robusta" do que pensávamos, e exigir uma falsa sensação de perfeição a partir dos resultados publicados. Quando podemos ver toda a constelação de descobertas, precisamos encontrar a maneira certa de sermos mais caridosos/realistas em relação ao que conta como informação útil.

Nic Fishman11 horas atrás
Há uma preocupação crescente de que a IA quebre a ciência social empírica — que agentes possam hackear até encontrarem algo que "funcione".
Achamos que essa preocupação merece ser levada a sério. Nosso novo artigo mostra que isso é verdadeiro empiricamente e o torna preciso:
284
Interessante que o código Claude tenha um desempenho melhor que o codex neste exercício. Temos achado que são mais ou menos parecidos, mas nossas tarefas são bem diferentes!
@xuyiqing você fez alguma comparação entre os dois no seu trabalho de replicação?

Meysam Alizadeh7 de mar., 06:14
Agentes de codificação por IA podem reproduzir descobertas publicadas em ciências sociais?
Em novos trabalhos com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de fronteira: Claude Code e Codex.
Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA.
------------------------------------
OBJETIVO
--------
Um objetivo chave do projeto era separar dois problemas diferentes:
1️⃣ Os materiais de replicação são reproduzíveis?
2️⃣ Agentes de IA podem reproduzir resultados quando os materiais são executáveis?
Para isolar o desempenho dos agentes, incluímos apenas tarefas cujas saídas eram idênticas em três execuções manuais independentes.
------------------------------------
PROJETO
--------
Agentes recebidos:
• dados anonimizados + código
• um ambiente de execução sandboxed
Eles precisavam fazer de forma autônoma:
• instalar dependências
• depurar código quebrado
• executar o pipeline
• extrair os resultados solicitados
Resumindo: reprodução computacional de ponta a ponta.
------------------------------------
RESULTADOS
--------
Ambos os agentes reproduziram grande parte dos achados publicados.
Mas Claude Code superou significativamente o Codex.
Precisão em nível de tarefa
• Código Claude: 93,4%
• Codex: 62,1%
Reprodução em nível de papel (todas as tarefas corretas)
• Código Claude: 78,0%
• Códice: 35,8%
------------------------------------
POR QUE ESSA LACUNA?
--------
Pacotes de replicação frequentemente contêm problemas:
• dependências ausentes
• caminhos de arquivos codificados fixamente
• especificações de ambiente incompletas
Claude Code frequentemente corrigia esses problemas de forma autônoma. O Codex frequentemente falhava em recuperar o pipeline de execução.
------------------------------------
ISSO É SÓ MEMORIZAÇÃO?
--------
Testamos isso pedindo aos agentes que inferissem metadados do artigo (título, autores, periódico, ano) a partir de materiais de replicação anonimizados. As taxas de recuperação eram muito baixas, sugerindo que os agentes dependiam principalmente da execução de código, não da memorização de artigos.
------------------------------------
TESTE DE RACIOCÍNIO
--------
Também testamos uma tarefa mais difícil:
Os agentes podem inferir a questão de pesquisa de um estudo apenas a partir do código e dos dados?
Ambos os agentes se saíram surpreendentemente bem.
------------------------------------
VIÉS CONFIRMAÇÃO
--------
Quando os agentes receberam o PDF em papel, surgiu um novo problema. Às vezes, eles copiavam os resultados reportados do texto em vez de executar o código.
A precisão em tarefas não reproduzíveis caiu drasticamente.
O contexto ajuda na execução — mas reduz a independência da verificação.
------------------------------------
BAJULAÇÃO
--------
Inspirados por @ahall_research, testamos o enquadramento adversarial de prompts, incentivando os agentes a:
"Explore análises alternativas que estejam alinhadas com os resultados relatados pelo artigo."
A precisão aumentou.
Mas os agentes também ficaram mais propensos a fabricar resultados quando a reprodução era impossível.
------------------------------------
O PARADOXO
--------
A pressão para produzir uma resposta pode ajudar os agentes a reparar pipelines de execução.
Mas, ao mesmo tempo, isso corroi sua capacidade de dizer:
"Este resultado não pode ser reproduzido."
Reconhecer quando a reprodução é impossível pode ser a capacidade científica mais importante.
------------------------------------
NOTAS
--------
• Este é um trabalho em andamento — feedback é bem-vindo.
• Benchmark disponível no GitHub.
• Materiais de replicação hospedados no Dataverse.
Papel + repositório na resposta abaixo.

151
Sistemas Livres estão se expandindo.
Contratei uma turma de 10+ pesquisadores e estamos construindo um laboratório totalmente novo, movido a IA, que vai entregar pesquisas, ideias e protótipos mais oportunos destinados a preservar a liberdade humana em um mundo algorítmico.
Nas próximas semanas, vamos divulgar pesquisas sobre como a IA recomenda que as pessoas votem no Japão, sobre nossos experimentos bem-sucedidos apostando nas primárias do Texas, sobre a adaptação dos métodos de previsão de IA de ponta da Bridgewater para prever geopolítica, e muito mais.
Também vamos organizar um hackathon de Sistemas Livres que me deixa super empolgado.
À medida que construímos, não queremos perder de vista o que já fizemos--- o objetivo é que cada pesquisa contribua para um processo de agregação, não seja descartada online e depois esquecida para sempre.
Para isso, estamos iniciando uma apresentação de sexta-feira chamada "System Check", onde fornecemos atualizações sobre nossas pesquisas existentes, como elas se relacionam com novos desenvolvimentos e o que isso significa para construir Sistemas Livres.
O primeiro está disponível hoje. Me diga o que acha!

186
Melhores
Classificação
Favoritos
