multimodala appar via deepmind AI studio är MYCKET underhypade Med bara en enda uppmaning byggde jag den här appen på <10 minuter som spelade in mig när jag bläddrade igenom skivor och matar ut varje artist + album som visas. Video brukade vara en av de svåraste sakerna att arbeta med, nu är det en prompt.
För de som undrar, det här är prompten jag använde: "Skapa en app som tar en video av en person som bläddrar igenom sin skivsamling och extraherar album- och artistnamnen för varje album som visas. Du kan göra detta genom att ta videon och först extrahera de ramar som visar distinkta vinylskivor, och sedan låta visionsmodellen analysera dessa ramar för att extrahera informationen."
1,95K