1/ Modelos de visão do mundo real não "veem" uma imagem toda de uma vez. Eles o colocam assim: → dividido em patches → execução de inferência → resultados dos pontos É assim que o vídeo em alta resolução funciona na produção.