Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Profesor asistente en UIUC CS. Anteriormente en el laboratorio DAWN de Stanford y en el Berkeley Sky Lab.
SWE-bench Verified es el estándar de oro para evaluar agentes de codificación: 500 problemas del mundo real + pruebas de OpenAI. ¿Suena a prueba de balas? Casi.
Mostramos pasar sus pruebas unitarias != coincidiendo con la verdad fundamental. En nuestro documento de ACL, corrigimos evaluaciones con errores: ¡el 24% de los agentes subieron o bajaron en la tabla de clasificación!
1/7

24.84K
El aprendizaje por refuerzo permite a los LLM vencer a los humanos en las competiciones de programación/matemáticas y ha impulsado avances recientes (serie o de OpenAI, Claude 4 de Anthropic)
¿Permitirá RL una generalización amplia de la misma manera que lo hace el preentrenamiento? No con las técnicas actuales
🧵 1/7
2.57K
Estaré presentando en la sesión de pósters 2 en SIGMOD (miércoles a las 16:00 en Potsdam II). ¡Ven a saludar!

Daniel Kang24 jun 2025
El procesamiento aproximado de consultas (AQP) puede acelerar las consultas analíticas de larga duración en órdenes de magnitud. Pero, ¿por qué AQP sigue siendo raro en producción?
Para abordarlo, desarrollamos PilotDB, un medio AQP en línea que realiza 0 cambios en los DBMS, ofrece resultados con garantías de error a priori y logra una aceleración de hasta 126 veces.
1/8
620
El procesamiento aproximado de consultas (AQP) puede acelerar las consultas analíticas de larga duración en órdenes de magnitud. Pero, ¿por qué AQP sigue siendo raro en producción?
Para abordarlo, desarrollamos PilotDB, un medio AQP en línea que realiza 0 cambios en los DBMS, ofrece resultados con garantías de error a priori y logra una aceleración de hasta 126 veces.
1/8
1.49K
@ZhanQiusi1 presentaremos nuestro trabajo en la sesión de pósteres del miércoles a las 11 a.m. y en el taller de TrustNLP del sábado (charla destacada)! Salúdala si la ves

Daniel Kang13 mar 2025
Los agentes de IA son cada vez más populares (por ejemplo, el operador de OpenAI), pero pueden ser atacados para dañar a los usuarios.
Demostramos que, incluso con defensas, los agentes de IA aún pueden verse comprometidos a través de inyecciones indirectas a través de "ataques adaptativos" en nuestro documento de hallazgos de NAACL 2025
🧵 y enlaces a continuación

92
Los ingenieros de datos dedican más del 60% de su tiempo a las canalizaciones de datos. ¿Pueden ayudar los agentes de IA?
Presentamos ELT-Bench, el primer punto de referencia que evalúa a los agentes de IA en la construcción de tuberías ELT de extremo a extremo. Los agentes actuales de SOTA solo logran una tasa de éxito del 3.9%, ¡hay un gran camino por recorrer!
1/7

3.98K
Daniel Kang reposteó
Hoy en día, la IA puede generar toneladas de código, pero ¿cómo sabemos si es bueno?
Es por eso que creamos Sculptor: el primer entorno de agente de codificación.
Sculptor te ayuda a detectar problemas, escribir pruebas y mejorar tu código, todo mientras trabajas en tu editor favorito.
99.42K
Los agentes de IA son cada vez más populares (por ejemplo, el operador de OpenAI), pero pueden ser atacados para dañar a los usuarios.
Demostramos que, incluso con defensas, los agentes de IA aún pueden verse comprometidos a través de inyecciones indirectas a través de "ataques adaptativos" en nuestro documento de hallazgos de NAACL 2025
🧵 y enlaces a continuación

4.14K
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas