1/ 现实世界的视觉模型并不会一次性“看到”一张图像。 它们将其切分: → 分割成小块 → 进行推理 → 拼接结果 这就是高分辨率视频在制作中的工作方式。