OpenAI bekräftade precis min Northern Star tes för AI idag genom att släppa sin operatörsagent. Detta var inte bara min vägledande tes för $CODEC, utan alla andra AI-investeringar jag gjorde, inklusive de från tidigare i år under AI-manin. Det har varit en hel del diskussioner med Codec när det gäller robotik, även om den vertikalen kommer att ha sin egen berättelse mycket snart, är den underliggande anledningen till att jag var så hausse på Codec från dag 1 på grund av hur dess arkitektur driver operatörsagenter. Människor underskattar fortfarande hur mycket marknadsandelar som står på spel genom att bygga programvara som körs autonomt och överträffar mänskliga arbetare utan behov av ständiga uppmaningar eller tillsyn. Jag har sett många jämförelser med $NUIT. Först och främst vill jag säga att jag är ett stort av vad Nuit bygger och önskar inget annat än deras framgång. Om du skriver "nuit" i mitt telegram kommer du att se att jag redan i april sa att om jag var tvungen att hålla ett mynt i flera månader skulle det ha varit Nuit på grund av min operatörstes. Nuit var det mest lovande operatörsprojektet på pappret, men efter omfattande efterforskningar fann jag att deras arkitektur saknade det djup som behövdes för att motivera en stor investering eller sätta mitt rykte bakom den. Med detta i åtanke var jag redan medveten om de arkitektoniska luckorna i de befintliga operatörsagentteamen och letade aktivt efter ett projekt som löste dem. Kort därefter dök Codec upp (tack vare att @0xdetweiler insisterade på att jag skulle titta djupare in i dem) och det här är skillnaden mellan de två: $CODEC jämfört med $NUIT Codecs arkitektur är uppbyggd i tre lager; Maskin, system och intelligens, som separerar infrastruktur, miljögränssnitt och AI-logik. Varje operatörsagent i Codec körs i en egen isolerad virtuell dator eller container, vilket möjliggör nästan inbyggd prestanda och felisolering. Den här skiktade designen innebär att komponenter kan skalas eller utvecklas oberoende av varandra utan att systemet bryts. Nuits arkitektur tar en annan väg genom att vara mer monolitisk. Deras stack kretsar kring en specialiserad webbläsaragent som kombinerar parsning, AI-resonemang och åtgärd. Det innebär att de analyserar webbsidor på djupet till strukturerad data som AI kan konsumera och förlitar sig på molnbearbetning för tunga AI-uppgifter. Codecs metod att bädda in en enkel VLA-modell (Vision-Language-Action) i varje agent innebär att den kan köras helt lokalt. Vilket inte kräver att du ständigt pingar tillbaka till molnet för instruktioner, vilket minskar latensen och undviker beroende av drifttid och bandbredd. Nuits agent bearbetar uppgifter genom att först konvertera webbsidor till ett semantiskt format och sedan använda en LLM-hjärna för att ta reda på vad de ska göra, vilket förbättras med tiden med förstärkningsinlärning. Även om det här flödet är effektivt för webbautomatisering är det beroende av tung AI-bearbetning på molnsidan och fördefinierade sidstrukturer. Codecs lokala enhetsintelligens innebär att beslut fattas närmare data, vilket minskar omkostnaderna och gör systemet mer stabilt för oväntade förändringar (inga bräckliga skript eller DOM-antaganden). Codecs operatörer följer en kontinuerlig loop, uppfattning, tänk och agera. Maskinlagret strömmar miljön (t.ex. en live-app eller robotflöde) till intelligenslagret via systemlagrets optimerade kanaler, vilket ger AI:n "ögon" på det aktuella tillståndet. Agentens VLA-modell tolkar sedan det visuella objektet och instruktionerna tillsammans för att besluta om en åtgärd, som systemlagret utför genom tangentbords-/mushändelser eller robotkontroll. Den här integrerade loopen innebär att den anpassar sig till livehändelser, även om användargränssnittet ändras kommer du inte att bryta flödet. För att sätta allt detta i en enklare analogi, tänk på Codecs operatörer som en självförsörjande anställd som anpassar sig till överraskningar på jobbet. Nuits agent är som en anställd som behöver pausa, beskriva situationen för en chef över telefon och vänta på instruktioner. Utan att gå ner för mycket av ett tekniskt kaninhål, bör detta ge dig en hög uppfattning om varför jag valde Codec som mitt primära spel på operatörer. Ja, Nuit har stöd från YC, ett staplat team och S tier github. Även om Codecs arkitektur har byggts med horisontell skalning i åtanke, vilket innebär att du kan distribuera tusentals agenter parallellt utan delat minne eller körningskontext mellan agenter. Codecs team är inte heller vanliga utvecklare. Deras VLA-arkitektur öppnar en mängd användningsfall som inte var möjliga med tidigare agentmodeller på grund av att de ser genom pixlar, inte skärmdumpar. Jag skulle kunna fortsätta men jag sparar det till framtida inlägg.
Trissy
Trissy13 maj 2025
Virtuella miljöer för operatörsagenter: $CODEC Min huvudtes kring explosionen av AI har alltid kretsat kring framväxten av operatörsagenter. Men för att dessa agenter ska lyckas kräver de djup systemåtkomst, vilket i praktiken ger dem kontroll över din dator och känsliga data, vilket medför allvarliga säkerhetsproblem. Vi har redan sett hur företag som OpenAI och andra teknikjättar hanterar användardata. Även om de flesta människor inte bryr sig, gör de individer som kan dra mest nytta av operatörsagenter, de översta 1 % absolut. Personligen finns det ingen chans att jag ger ett företag som OpenAI full tillgång till min maskin, även om det innebär en 10 × ökning av produktiviteten. Så varför Codec? Codecs arkitektur är inriktad på att lansera isolerade, on-demand "molnskrivbord" för AI-agenter. Kärnan är en Kubernetes-baserad orkestreringstjänst (kodnamn Captain) som etablerar enkla virtuella datorer (VM) i Kubernetes-poddar. Varje agent får en egen isolerad miljö på operativsystemnivå (en fullständig Linux OS-instans) där den kan köra program, webbläsare eller valfri kod, helt i begränsat läge från andra agenter och värden. Kubernetes hanterar schemaläggning, automatisk skalning och självåterställning av dessa agentpoddar, vilket säkerställer tillförlitlighet och möjligheten att snurra upp/ned många agentinstanser efter belastningskrav Betrodda körningsmiljöer (TEEs) används för att skydda dessa virtuella datorer, vilket innebär att agentens dator kan isoleras kryptografiskt, dess minne och körning kan skyddas från värdoperativsystemet eller molnleverantören. Detta är avgörande för känsliga uppgifter: till exempel kan en virtuell dator som körs i en enklav innehålla API-nycklar eller kryptoplånbokshemligheter på ett säkert sätt. När en AI-agent (en LLM-baserad "hjärna") behöver utföra åtgärder skickar den API-begäranden till Captain-tjänsten, som sedan startar eller hanterar agentens VM-podd. Arbetsflödet: agenten begär en dator, Captain (via Kubernetes) allokerar en podd och kopplar en beständig volym (för den virtuella datorns disk). Agenten kan sedan ansluta till den virtuella datorn (via en säker kanal eller ett strömningsgränssnitt) för att utfärda kommandon. Kaptenen exponerar slutpunkter för agenten för att köra gränssnittskommandon, ladda upp/ladda ned filer, hämta loggar och till och med ta en ögonblicksbild av den virtuella datorn för senare återställning. Den här designen ger agenten ett fullständigt operativsystem att arbeta i, men med kontrollerad, granskad åtkomst. Eftersom den bygger på Kubernetes kan Codec automatiskt skalas vågrätt, om 100 agenter behöver miljöer kan den schemalägga 100 poddar i klustret och hantera fel genom att starta om poddar. Agentens virtuella dator kan utrustas med olika MCP-servrar (t.ex. en "USB-port" för AI). Till exempel är Codecs Conductor-modul en behållare som kör en Chrome-webbläsare tillsammans med en Microsoft Playwright MCP-server för webbläsarkontroll. Detta gör det möjligt för en AI-agent att öppna webbsidor, klicka på länkar, fylla i formulär och skrapa innehåll via vanliga MCP-samtal, som om det vore en människa som kontrollerar webbläsaren. Andra MCP-integreringar kan inkludera en filsystem-/terminal-MCP (för att låta en agent köra CLI-kommandon på ett säkert sätt) eller applikationsspecifika MCP:er (för moln-API:er, databaser osv.). I huvudsak tillhandahåller Codec infrastrukturens "omslag" (VMs, enklaver, nätverk) så att agentplaner på hög nivå kan köras på ett säkert sätt på verklig programvara och nätverk. Användningsfall Automatisering av plånbok: Codec kan bädda in plånböcker eller nycklar i en TEE-skyddad virtuell dator, vilket gör att en AI-agent kan interagera med blockkedjenätverk (handla på DeFi, hantera kryptotillgångar) utan att exponera hemliga nycklar. Denna arkitektur gör det möjligt för finansiella agenter i kedjan att utföra verkliga transaktioner på ett säkert sätt, något som skulle vara mycket farligt i en typisk agentuppsättning. Plattformens tagline listar uttryckligen stöd för "plånböcker" som en nyckelfunktion. En agent kan till exempel köra ett CLI för en Ethereum-plånbok i sin enklav, signera transaktioner och skicka dem, med försäkran om att om agenten beter sig illa är den begränsad till sin virtuella dator och nycklarna lämnar aldrig TEE. Webbläsar- och webbautomation: CodecFlow-agenter kan styra fullständiga webbläsare på sin virtuella dator. Conductor-exemplet visar en agent som startar Chrome och strömmar sin skärm till Twitch i realtid. Genom Playwright MCP kan agenten navigera på webbplatser, klicka på knappar och skrapa data precis som en mänsklig användare. Detta är idealiskt för uppgifter som webbskrapning bakom inloggningar, automatiserade webbtransaktioner eller testning av webbappar. Traditionella ramverk förlitar sig vanligtvis på API-anrop eller enkla huvudlösa webbläsarskript; Däremot kan CodecFlow köra en riktig webbläsare med ett synligt användargränssnitt, vilket gör det lättare att hantera komplexa webbapplikationer (t.ex. med tunga JavaScript- eller CAPTCHA-utmaningar) under AI-kontroll. Automatisering av GUI i den verkliga världen (äldre system): Eftersom varje agent har ett faktiskt skrivbordsoperativsystem kan den automatisera äldre GUI-applikationer eller fjärrskrivbordssessioner, som i princip fungerar som robotiserad processautomatisering (RPA) men drivs av AI. En agent kan till exempel öppna ett Excel-kalkylblad på sin virtuella Windows-dator eller gränssnitt med ett gammalt terminalprogram som inte har något API. Codec:s webbplats nämner uttryckligen att man möjliggör "äldre automatisering". Detta öppnar upp för att använda AI för att driva programvara som inte är tillgänglig via moderna API:er, en uppgift som skulle vara mycket hackig eller osäker utan en innesluten miljö. Den medföljande noVNC-integrationen föreslår att agenter kan observeras eller kontrolleras via VNC, vilket är användbart för att övervaka en AI som kör ett GUI. Simulering av SaaS-arbetsflöden: Företag har ofta komplexa processer som involverar flera SaaS-applikationer eller äldre system. En anställd kan till exempel ta data från Salesforce, kombinera den med data från ett internt ERP-system och sedan skicka en sammanfattning till en kund via e-post. Codec kan göra det möjligt för en AI-agent att utföra hela den här sekvensen genom att faktiskt logga in på dessa appar via en webbläsare eller klientprogramvara på den virtuella datorn, ungefär som en människa skulle göra. Detta är som RPA, men drivs av en LLM som kan fatta beslut och hantera variabilitet. Det är viktigt att autentiseringsuppgifter för dessa appar kan tillhandahållas till den virtuella datorn på ett säkert sätt (och till och med omges av en TEE), så att agenten kan använda dem utan att någonsin "se" autentiseringsuppgifter i klartext eller exponera dem externt. Detta kan påskynda automatiseringen av rutinmässiga backoffice-uppgifter samtidigt som IT-avdelningen får rätt att varje agent körs med minsta möjliga behörighet och fullständig granskningsbarhet (eftersom varje åtgärd på den virtuella datorn kan loggas eller registreras). Färdplan - Lansera en offentlig demo i slutet av månaden - Funktionsjämförelse med andra liknande plattformar (ingen web3-konkurrent) - Integrering av TAO - Stort spelpartnerskap När det gäller originalitet bygger Codec på en grund av befintlig teknik men integrerar dem på ett nytt sätt för användning av AI-agenter. Idén med isolerade körningsmiljöer är inte ny (containrar, virtuella datorer och TEE:er är standard inom molnbaserad databehandling), men att tillämpa dem på autonoma AI-agenter med ett sömlöst API-lager (MCP) är extremt nytt. Plattformen utnyttjar öppna standarder och verktyg där det är möjligt: den använder MCP-servrar som Microsofts Playwright för webbläsarkontroll istället för att uppfinna hjulet på nytt, och planerar att stödja AWS:s Firecracker micro-VMs för snabbare virtualisering. Det gafflade också befintliga lösningar som noVNC för strömmande skrivbord. Att demonstrera projektet står på grunden av beprövad teknik (Kubernetes, enklavhårdvara, bibliotek med öppen källkod) och fokuserar sin ursprungliga utveckling på limlogik och orkestrering (den "hemliga såsen" är hur allt fungerar tillsammans). Kombinationen av komponenter med öppen källkod och en kommande molntjänst (som antyds av omnämnandet av ett $CODEC tokenverktyg och offentlig produktåtkomst) innebär att Codec snart kommer att vara tillgängligt i flera former (både som en tjänst och självhostad). Team Moyai: 15+ års erfarenhet av utveckling, leder för närvarande AI-utveckling på Elixir Games. lil'km: 5+ år AI-utvecklare, arbetar för närvarande med HuggingFace på LeRobot-projektet. HuggingFace är ett stort robotföretag och Moyai arbetar som chef för ai på elixir games (uppbackad av Square Enix och Solanafdn. Jag har personligen videoringat hela teamet och gillar verkligen energin de ger. Min vän som satte dem på min radar träffade dem också alla på Token2049 och hade bara bra saker att säga. Avslutande tankar Det finns fortfarande mycket kvar att täcka, som jag sparar för framtida uppdateringar och inlägg i min Telegram-kanal. Jag har länge trott att molninfrastruktur är framtiden för operatörsagenter. Jag har alltid respekterat vad Nuit bygger, men Codec är det första projektet som har visat mig den fullstack-övertygelse jag letade efter. Teamet är helt klart ingenjörer på toppnivå. De har öppet sagt att marknadsföring inte är deras styrka, vilket troligen är anledningen till att detta har flugit under radarn. Jag kommer att arbeta nära dem för att hjälpa till att forma GTM-strategin som faktiskt återspeglar djupet i det de bygger. Med ett marknadsvärde på 4 miljoner dollar och denna nivå av infrastruktur känns det massivt underprissatt. Om de kan leverera en användbar produkt tror jag att det lätt kan markera början på nästa AI-infracykel. Som alltid finns det risker och även om jag har granskat teamet i smyg under de senaste veckorna är inget projekt någonsin helt mattsäkert. Prismål? Mycket högre.
Tldr om varför jag valde Codec > Nuit för operatörer: Codec använder en arkitektur i tre lager (Machine, System, Intelligence) som möjliggör isolerade, högpresterande agenter med inbyggd kontroll. Varje Codec-agent körs lokalt med hjälp av en VLA-loop (Vision-Language-Action), vilket minskar svarstiden och ökar tillförlitligheten. Nuits modell är beroende av webbläsarparsning + AI-anrop i molnet, vilket begränsar flexibiliteten och introducerar bräcklighet. Codec skalas horisontellt över tusentals agenter, utan delat tillstånd och med feltolerant modularitet.
15,79K