以前は誰もが必死にクラウドに移行していましたが、推論段階での単位コンピューティング能力コストにより、多くのチームは、長期にわたる大規模な AI 推論がクラウド上ですぐにお金を消費してしまうことに気づきました。 AI ネイティブ アプリケーションは、重要な推論タスクをオンプレミスのデータセンターに沈め、レイテンシーを短縮し、帯域幅とクラウドのレンタル コストを節約するのに適しています 記憶力をめぐる戦いは、ディープラーニングトレーニングの初期の典型的な特徴でしたが(記憶力が多い人が勝ちます)、今日では次のようになります。 GPUに格納されるスループット制限は、推論QPSに直接影響します GPUとCPU/アクセラレーションカード間の相互作用の速度は、パイプラインのパフォーマンスの上限です シングルラック AI クラスターの消費電力は数十キロワットに達する可能性があり、不合理な PD 設計はコンピューティング能力の展開規模を直接凍結します データセンターのレイアウトが2015年の従来のWeb/データベースビジネスの設計パラダイムにとどまっていると、AIワークロードの下でひっくり返るでしょう 私たちの洞察をチェックしてください: 企業が注目すべき新たなハードウェアトレンドに関する20人の技術専門家が@forbes経由で
10.43K