aplicativos multimodais via deepmind AI studio são MUITO subestimados Com apenas um único prompt eu construí este aplicativo em <10 min que me gravou folheando registros e saídas de cada artista + álbum mostrado. O vídeo costumava ser uma das coisas mais difíceis de trabalhar, agora é um prompt.
para aqueles que estão se perguntando, este é o prompt que usei: "crie um aplicativo que grave um vídeo de uma pessoa folheando sua coleção de discos e extraia os nomes dos álbuns e dos artistas de cada álbum mostrado. você poderia fazer isso gravando o vídeo e primeiro extraindo os quadros que mostram discos de vinil distintos, e então fazer o modelo de visão analisar esses quadros para extrair as informações"
1,94K