las aplicaciones multimodales a través de deepmind AI studio están MUY poco promocionadas Con solo un mensaje, construí esta aplicación en <10 minutos que me grabó hojeando discos y salidas de cada artista + álbum mostrado. El video solía ser una de las cosas más difíciles de trabajar, ahora es un aviso.
para aquellos que se preguntan, este es el aviso que utilicé: "crea una aplicación que tome un video de una persona hojeando su colección de discos y extraiga los nombres de los álbumes y artistas de cada álbum mostrado. podrías hacer esto tomando el video y primero extrayendo los fotogramas que muestran discos de vinilo distintos, y luego hacer que el modelo de visión analice esos fotogramas para extraer la información"
1,93K