Další hranicí umělé inteligence nejsou výpočty nebo větší modely, jsou to lepší data. Dnes přivádíme jednoho z mála lidí, kteří skutečně strávili svůj život řešením tohoto problému. Vítejte @SPChinchali, náš nový ředitel pro umělou inteligenci. Hranice umělé inteligence již není definována modely s více parametry nebo výpočetními clustery s více GPU. Bude definována nedostatkem dat s vysokou integritou a vyčištěnými IP z fyzického světa (vzpomeňte si na robotiku, autonomní hardware a okrajová zařízení). Sandeep strávil svou kariéru hledáním této hranice. Teď nám ji pomáhá odemknout. Když jsem se poprvé setkal se Sandeepem, byl jsem ohromen jeho jemným a roztomilým přístupem. Má způsob mluvy, který vás vtáhne, bez ohledu na to, zda vysvětluje neurosymbolickou umělou inteligenci, nebo chválí mimozemsky vypadající ergonomickou klávesnici, kterou nosí všude, kam jde. Jeho minulost mluví sama za sebe: Stanford PhD, NASA JPL. Nyní je profesorem na UT Austin, vedoucím výzkumu na pomezí decentralizovaného ML a robotiky, Sandeep je posedlý tím, jak získat užitečná data pro školení AI, aby byla užitečná v reálném světě: > vytváření datových pobídek pro distribuované sítě, > řešení typického problému vzorkování s dlouhým ocasem v okrajové robotice a > navrhování systémů, které uchovávají původ. Sandeep také potvrdil tezi, kterou jsem byl posedlý po celá léta: skutečným příkopem jsou data. Ne seškrábané fóra Reddit nebo obecný webový text, ale přiřaditelné, práva vyčištěna, data z reálného světa. Chaotická a nepředvídatelná data potřebná k vytvoření robustnosti fyzických systémů nelze simulovat. Je to získávání a spravování chaotických, dlouhých dat, která fyzické systémy vidí v divočině: kluzký robot v nakládací rampě ve 2 hodiny ráno, slabá mikrotrhlina na lopatce větrné turbíny, rohové pouzdro, které jednotka lidar nikdy předtím neviděla. Tyto okamžiky jsou duševní vlastnictví a jsou vzácné. Pokud se nám podaří zajistit, aby bylo toto duševní vlastnictví programovatelné, licencovatelné, sledovatelné a monetizovatelné v reálném čase, odemkneme setrvačník pro každý tým umělé inteligence na planetě. Programovatelná IP je jedinou páteří, která to umožňuje. Většina pokusů o krypto x AI přišroubuje "AI" na stávající infrastrukturu. Sandeepovo připojení proto, že Story je od základu postaven tak, aby řešil tyto typy problémů s koordinací dat Story je postaven na dynamických, skládacích vztazích. Náš protokol je navržen pro grafy původu, dynamické licencování a automatizované toky licenčních poplatků, které moderní systémy umělé inteligence vyžadují. Fotografii lze licencovat, přidat štítek, vygenerovat syntetickou variantu a ve službě Story se každá akce stane novým, propojeným datovým zdrojem IP v průhledném grafu, jehož hodnota proudí zpět ke každému přispěvateli. Sandeepův příchod je zlomovým bodem. Do centra pozornosti se dostává 2. kapitola příběhu a další fáze infrastruktury umělé inteligence teprve začíná. Jeho kombinace hlubokého intelektu, upřímné zvědavosti a tiché oddanosti je přesně to, co si tento okamžik žádá. Nemůžeme být nadšenější, že s ním můžeme budovat budoucnost umělé inteligence, a chystáme toho mnohem víc. Zůstaňte naladěni!
Sandeep Chinchali
Sandeep Chinchali17. 7. 23:00
Svou kariéru jsem strávil hledáním jedné otázky: Jak shromažďujeme správná data, aby umělá inteligence fungovala v reálném světě? Od Stanfordských laboratoří po učebny UT Austin, hledal jsem všude. Odpovědí není další laboratoř umělé inteligence, ale blockchain vytvořený tak, aby s daty zacházel jako s IP. Proto do @StoryProtocol nastupuji na pozici Chief AI Officer. Na Stanfordu jsem studoval "cloudovou robotiku", jak by flotily robotů mohly využívat distribuované výpočty ke společnému učení. Dokonce jsem si do auta namontoval palubní kameru, abych to vyřešil: Pokud by roboti mohli nahrát pouze 5–10 % toho, co vidí, jak bychom vybrali ta nejcennější data? Většina z toho byly nudné záběry z dálnice. Ale <1 % zachytilo vzácné scény: samořídící Waymos, staveniště, nepředvídatelné lidi. Tato "long-tail" data učinila modely chytřejšími. Ručně jsem to označil, dokonce jsem zaplatil službě označování Google Cloud, aby mé záběry okomentovala specializovanými koncepty, jako je "jednotka LIDAR" a "autonomní vozidlo", a trénoval modely, které běžely na TPU o velikosti USB. Akademická obec však zachází jen do určité míry. Na UT Austin se mé otázky změnily: → Jak crowdsourcujeme vzácná data pro zlepšení ML? → Jaké motivační systémy vlastně fungují? To mě přitáhlo ke kryptoměnám – blockchainům, tokenovým ekonomikám, dokonce i DePINu. Blogoval jsem, psal články o decentralizovaném strojovém učení, ale stále jsem přemýšlel: kdo vlastně tuto infrastrukturu buduje? Úplnou náhodou jsem se setkal s týmem Story. Byl jsem pozván, abych přednesl přednášku v jejich kanceláři v Palo Alto. Bylo 18 hodin, pokoj byl stále plný. Blábolil jsem o "neurosymbolické umělé inteligenci" a skončil jsem snímkem nazvaným "A Dash of Crypto". Tato přednáška se změnila v poradní roli, která se nyní změnila v něco mnohem většího. Nacházíme se v klíčovém okamžiku. Výpočty jsou většinou vyřešeny. Architektury modelů se kopírují přes noc. Skutečným příkopem jsou data. Ne poškrábaný Reddit. Ne nekonečné řeči. Ale právami vyčištěná, dlouhá data z reálného světa, která trénují ztělesněnou umělou inteligenci – roboty, autonomní vozidla, systémy, které se pohybují v našem chaotickém světě. Představte si toto: Zachytím vzácnou scénu jízdy na palubní kameru a zaregistruji ji na Story. Přítel to označí. Agent umělé inteligence vytváří syntetické varianty. V graficky strukturovaném řetězci aplikace Story se každá z nich stane propojenou IP adresou. Autorské honoráře se automaticky vracejí zpět. Každý dostane zaplaceno, každý krok je dohledatelný v řetězci. Proto jsem nyní ředitelem pro umělou inteligenci ve společnosti Story a buduji koleje pro decentralizovaná tréninková data vyčištěná IP. Je čas udělat z dat novou IP adresu. Příběh je místo, kde se to má dělat. Brzy přijde mnohem více. Jdeme.
feedsImage
6,27K