Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Professor assistente da UIUC CS. Anteriormente no laboratório Stanford DAWN e no Berkeley Sky Lab.
Eu sou ruim em postar as coisas na hora! (minha desculpa é que estou ensinando no Addis Coder novamente este ano)
A sessão de pôsteres para este artigo está acontecendo AGORA!
Sessão 5: V-Gather Find 28/07/2025 18:00-19:30
Diga oi para @ChuxuanHu :)

Daniel Kang5 horas atrás
Os agentes de IA podem avaliar a reprodutibilidade dos resultados da pesquisa?
Nosso artigo #ACL2025 mostra que eles ficam aquém do REPRO-Bench, um novo benchmark que avalia os agentes em tarefas de reprodutibilidade de ciências sociais do mundo real de 112 artigos, PDFs completos, código e dados. Nosso agente de melhor desempenho pontua <40%!
1/6

1,23K
Os agentes de IA podem avaliar a reprodutibilidade dos resultados da pesquisa?
Nosso artigo #ACL2025 mostra que eles ficam aquém do REPRO-Bench, um novo benchmark que avalia os agentes em tarefas de reprodutibilidade de ciências sociais do mundo real de 112 artigos, PDFs completos, código e dados. Nosso agente de melhor desempenho pontua <40%!
1/6

2,41K
SWE-bench Verified é o padrão ouro para avaliar agentes de codificação: 500 problemas do mundo real + testes da OpenAI. Parece à prova de balas? Quase.
Mostramos a aprovação em seus testes unitários != verdade básica correspondente. Em nosso artigo da ACL, corrigimos avaliações com bugs: 24% dos agentes subiram ou desceram na tabela de classificação!
1/7

24,92K
Estarei apresentando na sessão de pôsteres 2 no SIGMOD (quarta-feira às 16:00 em Potsdam II). Venha dizer oi!

Daniel Kang24 de jun. de 2025
O processamento de consulta aproximada (AQP) pode acelerar consultas analíticas de longa duração em ordens de magnitude. Mas por que o AQP ainda é raro na produção?
Para resolver isso, desenvolvemos o PilotDB, um meio AQP online que faz 0 alterações nos SGBDs, fornece resultados com garantias de erro a priori e atinge uma aceleração de até 126x.
1/8
692
O processamento de consulta aproximada (AQP) pode acelerar consultas analíticas de longa duração em ordens de magnitude. Mas por que o AQP ainda é raro na produção?
Para resolver isso, desenvolvemos o PilotDB, um meio AQP online que faz 0 alterações nos SGBDs, fornece resultados com garantias de erro a priori e atinge uma aceleração de até 126x.
1/8
1,57K
@ZhanQiusi1 apresentaremos nosso trabalho na sessão de pôsteres de quarta-feira às 11h e no workshop de sábado do TrustNLP (palestra em destaque)! Diga oi se você vê-la

Daniel Kang13 de mar. de 2025
Os agentes de IA são cada vez mais populares (por exemplo, o operador da OpenAI), mas podem ser atacados para prejudicar os usuários!
Mostramos que, mesmo com defesas, os agentes de IA ainda podem ser comprometidos por meio de injeções indiretas por meio de "ataques adaptativos" em nosso artigo de descobertas da NAACL 2025
🧵 e links abaixo

162
Os engenheiros de dados gastam mais de 60% de seu tempo em pipelines de dados. Os agentes de IA podem ajudar?
Apresentando o ELT-Bench, o primeiro benchmark que avalia agentes de IA na construção de pipelines ELT de ponta a ponta. Os agentes SOTA atuais alcançam apenas uma taxa de sucesso de 3,9% - há um grande caminho a percorrer!
1/7

4,05K
Melhores
Classificação
Favoritos
Em alta on-chain
Em alta no X
Principais fundos da atualidade
Mais notável