優れた視覚化/参照/記憶補助などを備えた深い研究よりも、私の質問にうまく答える、高品質/情報密度の高いビデオを吐き出すモデルが本当に欲しいです。
これは技術的にはほぼ可能に思えますが、間違いなく遅くなります。パイプラインを5秒のレイテンシー未満にするには、何年の進歩が必要なのだろうか
5.76K