AIs neste grense er ikke beregning eller større modeller, det er bedre data. I dag tar vi med oss en av de få personene som faktisk brukte livet sitt på å løse det problemet. Velkommen @SPChinchali, vår nye Chief AI Officer. Grensen for AI er ikke lenger definert av modeller med flere parametere, eller dataklynger med flere GPUer. Det vil bli definert av mangelen på IP-klarerte data med høy integritet fra den fysiske verden (tenk robotikk, autonom maskinvare og edge-enheter). Sandeep har brukt sin karriere på å jage denne grensen. Nå hjelper han oss med å låse den opp. Da jeg først møtte Sandeep, ble jeg slått av hans myke, kjærlige holdning. Han har en måte å snakke på som trekker deg inn, uansett om han forklarer nevrosymbolsk AI, eller roser det utenomjordiske ergonomiske tastaturet han har med seg uansett hvor han går. Bakgrunnen hans taler for seg selv: Stanford PhD, NASA JPL. Nå professor ved UT Austin, ledende forskning i skjæringspunktet mellom desentralisert ML og robotikk, har Sandeep vært besatt av hvordan man kan få nyttige data for AI-trening for å gjøre det nyttig i den virkelige verden: > å skape datainsentiver for distribuerte nettverk, > å takle det typiske long-tail-prøvetakingsproblemet i edge-robotikk, og > å designe systemer som bevarer herkomst. Sandeep bekreftet også en tese jeg har vært besatt av i årevis: den virkelige vollgraven er data. Ikke skrapede Reddit-fora eller generisk netttekst, men tilskrivbare, rettighetsklarerte, data fra den virkelige verden. De rotete, uforutsigbare dataene som kreves for å gjøre fysiske systemer robuste, kan ikke simuleres. Den henter og kuraterer de rotete, lange dataene som fysiske systemer ser i naturen: den glatte lastebryggeroboten klokken 2 om natten, den svake mikrosprekken på et vindturbinblad, hjørnekassen en lidar-enhet aldri har sett før. Disse øyeblikkene er IP, og de er dyrebare. Hvis vi kan gjøre den IP-en programmerbar, lisensierbar, sporbar og inntektsgenererbar i sanntid, låser vi opp et svinghjul for hvert AI-team på planeten. Programmerbar IP er den eneste ryggraden som gjør dette mulig. De fleste krypto x AI-forsøk bolter "AI" på eksisterende infra. Sandeep blir med fordi Story er bygget fra grunnen av for å løse denne typen datakoordineringsutfordringer Story er bygget for dynamiske, komponerbare relasjoner. Protokollen vår er designet for grafbasert herkomst, dynamisk lisensiering og automatiserte royaltystrømmer som moderne AI-systemer krever. Et bilde kan lisensieres, en etikett kan legges til, en syntetisk variant kan genereres, og på Story blir hver handling en ny, koblet IP-ressurs i en gjennomsiktig graf, med verdi som strømmer tilbake til hver bidragsyter. Sandeeps ankomst er et vendepunkt. Kapittel 2 av Story kommer i fokus, og neste fase av AI-infrastruktur har så vidt begynt. Hans kombinasjon av dypt intellekt, ekte nysgjerrighet og stille dedikasjon er akkurat det dette øyeblikket krever. Vi kunne ikke vært mer begeistret for å bygge fremtiden til AI med ham, og det kommer mye mer. Følg med!
Sandeep Chinchali
Sandeep Chinchali17. juli, 23:00
Jeg har brukt karrieren min på å jage ett spørsmål: Hvordan samler vi inn de riktige dataene for å få AI til å fungere i den virkelige verden? Fra Stanford-laboratorier til UT Austin-klasserom søkte jeg overalt. Svaret er ikke nok et AI-laboratorium, men en blokkjede bygget for å behandle data som IP. Det er derfor jeg slutter meg til @StoryProtocol som deres Chief AI Officer. På Stanford studerte jeg «cloud robotics», hvordan flåter av roboter kunne bruke distribuert databehandling til å lære sammen. Jeg monterte til og med et dashcam i bilen min for å løse dette: Hvis roboter bare kunne laste opp 5–10 % av det de ser, hvordan plukker vi ut de mest verdifulle dataene? Det meste var kjedelige motorveiopptak. Men <1 % fanget sjeldne scener: selvkjørende Waymos, byggeplasser, uforutsigbare mennesker. Disse «long-tail»-dataene gjorde modellene smartere. Jeg håndmerket den, betalte til og med Google Clouds merketjeneste for å kommentere opptakene mine med nisjekonsepter som "LIDAR-enhet" og "autonomt kjøretøy", og trente modeller som kjørte på en USB-størrelse TPU. Men akademia går bare så langt. På UT Austin skiftet spørsmålene mine: → Hvordan crowdsourcer vi sjeldne data for å forbedre ML? → Hvilke insentivsystemer fungerer egentlig? Det trakk meg inn i krypto – blokkjeder, token-økonomier, til og med DePIN. Jeg blogget, skrev artikler om desentralisert ML, men lurte fortsatt på: hvem bygger egentlig denne infrastrukturen? Ved en tilfeldighet møtte jeg Story-teamet. Jeg ble invitert til å holde et foredrag på kontoret deres i Palo Alto. Klokken var 18, rommet var fortsatt fullt. Jeg ramlet om «Neuro-Symbolic AI» og avsluttet med et lysbilde kalt «A Dash of Crypto». Den samtalen ble til en rådgivende rolle, som nå ble til noe mye større. Vi er i et avgjørende øyeblikk. Databehandling er stort sett løst. Modellarkitekturer kopieres over natten. Den virkelige vollgraven er data. Ikke skrapt Reddit. Ikke endeløst språk. Men rettighetsklarerte, langhalede, virkelige data som trener legemliggjort AI – roboter, AV-er, systemer som navigerer i vår rotete verden. Tenk deg dette: Jeg fanger en sjelden kjørescene på dashcam og registrerer den på Story. En venn setter merkelapper på den. En AI-agent lager syntetiske varianter. På Storys grafstrukturerte kjede blir hver av dem koblet IP. Royalties flyter automatisk tilbake. Alle får betalt, hvert trinn kan spores på kjeden. Det er derfor jeg nå er Chief AI Officer hos Story og bygger skinnene for desentraliserte, IP-klarerte treningsdata. Det er på tide å gjøre data til den nye IP-en. Historien er stedet å gjøre det. Mye mer kommer snart. La oss gå.
feedsImage
6,27K