Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Außerordentlicher Professor an der UIUC CS. Zuvor im Stanford DAWN Lab und im Berkeley Sky Lab.
SWE-bench Verified ist der Goldstandard zur Bewertung von Codierungsagenten: 500 reale Probleme + Tests von OpenAI. Klingt wasserdicht? Nicht ganz.
Wir zeigen, dass das Bestehen seiner Unit-Tests != Übereinstimmung mit der Grundwahrheit ist. In unserem ACL-Papier haben wir fehlerhafte Bewertungen behoben: 24% der Agenten sind in der Rangliste aufgestiegen oder gefallen!
1/7

24,9K
Verstärkendes Lernen ermöglicht es LLMs, Menschen in Programmier-/Mathematikwettbewerben zu schlagen und hat kürzliche Fortschritte vorangetrieben (OpenAIs o-Serie, Anthropics Claude 4)
Wird RL eine breite Generalisierung auf die gleiche Weise ermöglichen wie das Pretraining? Nicht mit den aktuellen Techniken
🧵 1/7
2,61K
Ich werde bei der Poster-Session 2 auf der SIGMOD präsentieren (Mittwoch 16:00 in Potsdam II). Komm vorbei und sag Hallo!

Daniel Kang24. Juni 2025
Die approximative Abfrageverarbeitung (AQP) kann langwierige analytische Abfragen um ein Vielfaches beschleunigen. Aber warum ist AQP in der Produktion immer noch selten?
Um dies zu adressieren, entwickeln wir PilotDB, ein Online-AQP-Middleware, die 0 Änderungen an DBMSs vornimmt, Ergebnisse mit a priori Fehlergarantien liefert und bis zu 126-fache Beschleunigung erreicht.
1/8
681
Die approximative Abfrageverarbeitung (AQP) kann langwierige analytische Abfragen um ein Vielfaches beschleunigen. Aber warum ist AQP in der Produktion immer noch selten?
Um dies zu adressieren, entwickeln wir PilotDB, ein Online-AQP-Middleware, die 0 Änderungen an DBMSs vornimmt, Ergebnisse mit a priori Fehlergarantien liefert und bis zu 126-fache Beschleunigung erreicht.
1/8
1,55K
@ZhanQiusi1 werden unsere Arbeit bei der Postersession am Mittwoch um 11 Uhr und dem TrustNLP-Workshop am Samstag (Spotlight Talk) vorstellen! Sag Hallo, wenn du sie siehst

Daniel Kang13. März 2025
KI-Agenten werden immer beliebter (z. B. der Betreiber von OpenAI), können aber angegriffen werden, um Benutzern zu schaden!
Dass KI-Agenten auch mit Abwehrmaßnahmen immer noch über indirekte Prompt-Injektionen über "adaptive Angriffe" kompromittiert werden können, zeigen wir in unserem NAACL 2025 Findings Paper
🧵 und Links unten

136
Data Engineers verbringen über 60 % ihrer Zeit mit Datenpipelines. Können KI-Agenten helfen?
Wir stellen ELT-Bench vor, den ersten Benchmark zur Bewertung von KI-Agenten beim Aufbau von End-to-End-ELT-Pipelines. Aktuelle SOTA-Agenten erreichen nur eine Erfolgsquote von 3,9 % - es liegt noch ein langer Weg vor uns!
1/7

4,03K
Daniel Kang erneut gepostet
Heutzutage kann KI tonnenweise Code generieren – aber woher wissen wir, ob er gut ist?
Aus diesem Grund haben wir Sculptor entwickelt: die erste Codierungs-Agent-Umgebung.
Sculptor hilft Ihnen, Probleme zu erkennen, Tests zu schreiben und Ihren Code zu verbessern – und das alles, während Sie in Ihrem Lieblingseditor arbeiten.
99,44K
KI-Agenten werden immer beliebter (z. B. der Betreiber von OpenAI), können aber angegriffen werden, um Benutzern zu schaden!
Dass KI-Agenten auch mit Abwehrmaßnahmen immer noch über indirekte Prompt-Injektionen über "adaptive Angriffe" kompromittiert werden können, zeigen wir in unserem NAACL 2025 Findings Paper
🧵 und Links unten

4,19K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten