1/ 現實世界的視覺模型並不會一次性「看到」整張圖像。 它們會將其切分: → 分割成小塊 → 進行推理 → 拼接結果 這就是高解析度視頻在生產中的運作方式。