Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Tidigare anställd vid Stanford DAWN lab och Berkeley Sky Lab.
Jag är dålig på att lägga upp saker i tid! (min ursäkt är att jag undervisar på Addis Coder i år igen)
Postersessionen för denna tidning pågår JUST NU!
Session5: V-Gather Find 2025-07-28 18:00-19:30
Säg hej till @ChuxuanHu :)

Daniel Kang29 juli 00:51
Kan AI-agenter bedöma reproducerbarheten av forskningsresultat?
Vår #ACL2025-rapport visar att de inte når upp till REPRO-Bench, ett nytt riktmärke som utvärderar agenter på verkliga samhällsvetenskapliga reproducerbarhetsuppgifter för 112 artiklar, fullständiga PDF-filer, kod och data. Vår bäst presterande agent får <40 %!
1/6

2,59K
Kan AI-agenter bedöma reproducerbarheten av forskningsresultat?
Vår #ACL2025-rapport visar att de inte når upp till REPRO-Bench, ett nytt riktmärke som utvärderar agenter på verkliga samhällsvetenskapliga reproducerbarhetsuppgifter för 112 artiklar, fullständiga PDF-filer, kod och data. Vår bäst presterande agent får <40 %!
1/6

6,49K
SWE-bench Verified är guldstandarden för att utvärdera kodningsagenter: 500 verkliga problem + tester av OpenAI. Låter det skottsäkert? Närapå.
Vi visar att klara dess enhetstester != matchande grundsanning. I vårt ACL-dokument har vi fixat buggy-evals: 24 % av agenterna flyttades upp eller ner på topplistan!
1/7

24,93K
Förstärkningsinlärning gör det möjligt för LLM:er att slå människor i programmerings-/matematiktävlingar och har drivit de senaste framstegen (OpenAI:s o-serie, Anthropics Claude 4)
Kommer RL att möjliggöra bred generalisering på samma sätt som förträning gör? Inte med nuvarande teknik
🧵 Plats 1/7
2,65K
Jag kommer att presentera vid poster session 2 på SIGMOD (onsdag 16:00 i Potsdam II). Kom och säg hej!

Daniel Kang24 juni 2025
Ungefärlig frågebearbetning (AQP) kan påskynda långvariga analysfrågor i storleksordningar. Men varför är AQP fortfarande sällsynt i produktionen?
För att ta itu med det utvecklar vi PilotDB, ett online AQP-mellancenter som gör 0 ändringar i DBMS:er, ger resultat med a priori felgarantier och uppnår upp till 126x hastighet.
1/8
700
Ungefärlig frågebearbetning (AQP) kan påskynda långvariga analysfrågor i storleksordningar. Men varför är AQP fortfarande sällsynt i produktionen?
För att ta itu med det utvecklar vi PilotDB, ett online AQP-mellancenter som gör 0 ändringar i DBMS:er, ger resultat med a priori felgarantier och uppnår upp till 126x hastighet.
1/8
1,58K
@ZhanQiusi1 kommer att presentera vårt arbete på onsdag kl. 11 affischsession och lördagens TrustNLP workshop (spotlight talk)! Säg hej om du ser henne

Daniel Kang13 mars 2025
AI-agenter blir allt populärare (t.ex. OpenAI:s operatör) men kan attackeras för att skada användare!
Vi visar att även med försvar kan AI-agenter fortfarande komprometteras via indirekta snabba injektioner via "adaptiva attacker" i vårt NAACL 2025-resultatdokument
🧵 och länkar nedan

173
Datatekniker ägnar över 60 % av sin tid åt datapipelines. Kan AI-agenter hjälpa till?
Vi presenterar ELT-Bench, det första riktmärket som utvärderar AI-agenter för att skapa ELT-pipelines från slutpunkt till slutpunkt. Nuvarande SOTA-agenter uppnår endast en framgångsfrekvens på 3,9 % - det finns en enorm väg att gå!
1/7

4,06K
Topp
Rankning
Favoriter
Trendande på kedjan
Trendande på X
Senaste toppfinansieringarna
Mest anmärkningsvärda