aplikacje multimodalne za pośrednictwem deepmind AI studio są BARDZO niedoceniane Za pomocą jednego monitu zbudowałem tę aplikację w <10 minut, która nagrała, jak przerzucam nagrania i wyprowadzam każdego pokazanego artystę + album. Kiedyś wideo było jedną z najtrudniejszych rzeczy do pracy, teraz jest to podpowiedź.
dla tych, którzy się zastanawiają, oto polecenie, którego użyłem: "stwórz aplikację, która nagrywa wideo osoby przeglądającej swoją kolekcję płyt i wyodrębnia nazwy albumów i artystów każdego pokazanego albumu. można to zrobić, nagrywając wideo i najpierw wyodrębniając klatki, które pokazują wyraźne płyty winylowe, a następnie zlecić modelowi wizji analizę tych klatek w celu wyodrębnienia informacji"
1,96K