multimodale apper via deepmind AI studio er VELDIG underhypet Med bare en enkelt forespørsel bygde jeg denne appen på <10 minutter som tok meg opp mens jeg bladde gjennom poster og sendte ut hver artist + album som vises. Video pleide å være noe av det vanskeligste å jobbe med, nå er det en oppfordring.
For de som lurer, er dette meldingen jeg brukte: «Lag en app som tar en video av en person som blar gjennom platesamlingen sin og trekker ut album- og artistnavnene til hvert album som vises. du kan gjøre dette ved å ta videoen og først trekke ut rammene som viser distinkte vinylplater, og deretter få synsmodellen til å analysere disse rammene for å trekke ut informasjonen"
1,97K