Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Доцент UIUC CS. Ранее работал в Стэнфордской лаборатории DAWN и Лаборатории Berkeley Sky Lab.
SWE-bench Verified — это золотой стандарт для оценки кодирующих агентов: 500 реальных задач + тесты от OpenAI. Звучит надежно? Не совсем.
Мы показываем, что прохождение его юнит-тестов != соответствие реальности. В нашей статье ACL мы исправили ошибочные оценки: 24% агентов поднялись или опустились в таблице лидеров!
1/7

24,91K
Обучение с подкреплением позволяет LLM обыгрывать людей на конкурсах по программированию/математике и стало движущей силой недавних достижений (o-серия от OpenAI, Claude 4 от Anthropic)
Сможет ли RL обеспечить широкую обобщаемость так же, как это делает предварительное обучение? Нет, с текущими методами
🧵 1/7
2,62K
Я буду выступать на постерной сессии 2 на SIGMOD (среда, 16:00 в Потсдам II). Приходите поздороваться!

Daniel Kang24 июн. 2025 г.
Приблизительная обработка запросов (AQP) может ускорить выполнение длительных аналитических запросов на порядки. Но почему AQP все еще редко используется в производстве?
Чтобы решить эту проблему, мы разработали PilotDB, онлайн-средство AQP, которое не вносит изменений в СУБД, предоставляет результаты с заранее заданными гарантиями ошибки и достигает ускорения до 126 раз.
1/8
686
Приблизительная обработка запросов (AQP) может ускорить выполнение длительных аналитических запросов на порядки. Но почему AQP все еще редко используется в производстве?
Чтобы решить эту проблему, мы разработали PilotDB, онлайн-средство AQP, которое не вносит изменений в СУБД, предоставляет результаты с заранее заданными гарантиями ошибки и достигает ускорения до 126 раз.
1/8
1,56K
@ZhanQiusi1 будет представлять нашу работу на постерной сессии в среду в 11:00 и на семинаре TrustNLP в субботу (основной доклад)! Поздоровайтесь, если увидите её.

Daniel Kang13 мар. 2025 г.
Агенты ИИ становятся все более популярными (например, оператор OpenAI), но их можно атаковать, чтобы навредить пользователям!
Мы показываем, что даже с защитой агенты ИИ все еще могут быть скомпрометированы через косвенные инъекции подсказок с помощью "адаптивных атак" в нашей статье с результатами NAACL 2025.
🧵 и ссылки ниже

147
Daniel Kang сделал репост
Сегодня ИИ может генерировать огромное количество кода — но как мы можем узнать, хороший ли он? Вот почему мы создали Sculptor: первую среду для кодирования агентов. Sculptor помогает выявлять проблемы, писать тесты и улучшать ваш код — все это, пока вы работаете в своем любимом редакторе.
99,44K
Агенты ИИ становятся все более популярными (например, оператор OpenAI), но их можно атаковать, чтобы навредить пользователям!
Мы показываем, что даже с защитой агенты ИИ все еще могут быть скомпрометированы через косвенные инъекции подсказок с помощью "адаптивных атак" в нашей статье с результатами NAACL 2025.
🧵 и ссылки ниже

4,2K
Топ
Рейтинг
Избранное
В тренде ончейн
В тренде в Х
Самые инвестируемые
Наиболее известные