1/ Los modelos de visión del mundo real no "ven" una imagen de golpe. La tilizan así: → dividido en parches → ejecutar inferencia → resultados de los puntos Así es como funciona el vídeo de alta resolución en producción.