Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Czy LLM mogą odkrywać, abstrahować i ponownie wykorzystywać umiejętności narzędziowe wyższego poziomu w różnych zadaniach?
Istniejące benchmarki użycia narzędzi testują rozwiązywanie zadań z użyciem stałych narzędzi. Jednak rzeczywiste przepływy pracy zawierają powtarzające się struktury, w których efektywność pochodzi z wielokrotnego użycia kompozycji narzędzi, a nie z izolowanych wywołań.
Wprowadzamy SkillCraft: 126 zadań w 6 dziedzinach zaprojektowanych w celu przetestowania, czy agenci LLM mogą nabywać umiejętności kompozycyjne, a nie tylko wywoływać atomowe narzędzia.
Proponujemy również Skill Mode, lekki protokół z czterema prymitywami MCP, które pozwalają agentom komponować, weryfikować, buforować i ponownie wykorzystywać łańcuchy narzędzi w czasie testu.
Nasze kluczowe ustalenia w ocenie 8 modeli SOTA:
⚡Skill Mode umożliwia agentom samodzielne odkrywanie i ponowne wykorzystywanie umiejętności, co prowadzi do wyższej skuteczności i efektywności niż agenci bez niego. Zyski są większe dla silniejszych modeli.
🧠 Silniejsze modele (np. Claude) odkrywają bardziej uniwersalne umiejętności, które przenoszą się między zadaniami, a nawet między modelami.
🔍 Głębsza kompozycja ≠ lepsza — płytkie, dobrze przetestowane umiejętności najlepiej się generalizują.
🔗 Artykuł:
💻 Kod:
🏠 Strona:
(1/7)
Najlepsze
Ranking
Ulubione
