En modell med 24 miljarder parametrar kördes bara på en laptop och valde rätt verktyg på under en halv sekund. Den verkliga historien är att verktygsanropsagenter till slut blev tillräckligt snabba för att kännas som mjukvara. Liquid byggde LFM2-24B-A2B med en hybridarkitektur som blandar konvolutionsblock med grupperad frågeuppmärksamhet i ett förhållande på 1:3. Endast 2,3 miljarder parametrar aktiveras per token, trots att hela modellen rymmer 24 miljarder. Det där sparsamma aktiveringsmönstret är anledningen till att det får plats med 14,5 GB minne och skickar verktyg på 385 millisekunder på en M4 Max. Arkitekturen designades genom hårdvaru-i-loop-sökning, vilket innebär att de optimerade modellstrukturen genom att testa den direkt på de chip den skulle köras på. Inget molnöversättningslager. Ingen API tur och retur. Modellen, verktygen och din data stannar kvar på maskinen. Detta låser upp tre saker som tidigare var opraktiska: 1. Reglerade branscher kan köra agenter på anställdas bärbara datorer utan att data lämnar enheten. 2. Utvecklare kan prototypa arbetsflöden för flera verktyg utan att hantera API-nycklar eller hastighetsbegränsningar. 3. Säkerhetsteam får fullständiga revisionsspår utan leverantörssubprocessorer i loopen. Modellen nådde 80 % noggrannhet vid enkelstegsval av verktyg över 67 verktyg fördelade på 13 MCP-servrar. Om denna prestation håller i stor skala behöver två antaganden uppdateras. För det första är agenter på enheten inte längre en kompromiss för batteriets livslängd; De är en efterlevnadsfunktion. För det andra är flaskhalsen i agentiska arbetsflöden på väg från modellkapacitet till verktygsekosystemets mognad.
088339
0883395 mars 23:55
> 385ms average tool selection. > 67 tools across 13 MCP servers. > 14.5GB memory footprint. > Zero network calls. LocalCowork is an AI agent that runs on a MacBook. Open source. 🧵
Fantastiskt arbete från: @liquidai @ramin_m_h
561