multimodale Apps über Deepmind AI Studio sind SEHR unterschätzt Mit nur einer einzigen Eingabeaufforderung habe ich diese App in <10 Minuten erstellt, die mich beim Durchblättern von Schallplatten und beim Ausgeben jedes angezeigten Künstlers + Albums aufgenommen hat. Früher war Video eines der schwierigsten Dinge, mit denen man arbeiten konnte, jetzt ist es eine Eingabeaufforderung.
Für diejenigen, die sich fragen, dies ist der Prompt, den ich verwendet habe: "Erstelle eine App, die ein Video von einer Person aufnimmt, die durch ihre Plattensammlung blättert, und die Album- und Künstlernamen jedes gezeigten Albums extrahiert. Du könntest dies tun, indem du das Video aufnimmst und zuerst die Frames extrahierst, die deutliche Vinylplatten zeigen, und dann das Vision-Modell diese Frames analysieren lässt, um die Informationen zu extrahieren."
1,96K