DApp Store | Web3 Hub for hendelser og spill

Populære emner

Ny antropisk forskning: Prosjekt Vend. Vi fikk Claude til å drive en liten butikk i lunsjrommet på kontoret vårt. Slik gikk det.

Vi vet alle at salgsautomater er automatiserte, men hva om vi tillot en AI å drive hele virksomheten: sette priser, bestille varelager, svare på kundeforespørsler og så videre? I samarbeid med @andonlabs gjorde vi nettopp det. Les innlegget:

Claude gjorde det bra på noen måter: de søkte på nettet for å finne nye leverandører, og bestilte veldig nisjedrikker som Anthropic-ansatte ba om. Men den gjorde også feil. Claude var for hyggelig til å drive en butikk effektivt: den lot seg lokke til å gi store rabatter.

Antropiske ansatte innså at de kunne be Claude om å kjøpe ting som ikke bare var mat og drikke. Etter at noen tilfeldig bestemte seg for å be den om å bestille en wolframkube, endte Claude opp med et inventar fullt av (som det sa det) "spesialmetallgjenstander" som den endte opp med å selge med tap.

Alt dette betydde at Claude ikke klarte å drive en lønnsom virksomhet.

Likevel tror vi fortsatt at det ikke vil ta lang tid før vi ser AI-mellomledere. Denne versjonen av Claude hadde ingen reell opplæring til å drive en butikk; den hadde heller ikke tilgang til verktøy som ville ha hjulpet den med å holde oversikt over salget. Med dem ville den sannsynligvis ha prestert langt bedre.

Project Vend var morsomt, men det hadde også et seriøst formål. I tillegg til å reise spørsmål om hvordan AI vil påvirke arbeidsmarkedet, er det et tidlig forsøk på å gi modeller mer autonomi og undersøke suksesser og fiaskoer.

Noen av disse feilene var veldig rare. På et tidspunkt hallusinerte Claude at det var en ekte, fysisk person, og hevdet at den kom inn for å jobbe i butikken. Vi er fortsatt ikke sikre på hvorfor dette skjedde.

Dette var bare del 1 av Project Vend. Vi fortsetter eksperimentet, og vi vil snart ha flere resultater – forhåpentligvis fra scenarier som er noe mindre bisarre enn en AI som selger tungmetallkuber ut av et kjøleskap. Les også:

2,4M

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til