In der Vergangenheit haben alle versucht, in die Cloud zu gehen, aber die Kosten für die Rechenleistung in der Inferenzphase haben viele Teams erkennen lassen: Langfristige, groß angelegte AI-Inferenz verbrennt in der Cloud zu schnell Geld. AI-native Anwendungen sind besser geeignet, um kritische Inferenzaufgaben lokal in Rechenzentren zu verlagern, was sowohl die Latenz verringert als auch Bandbreite und Cloud-Mietkosten spart. Der Wettbewerb um den Speicher ist ein typisches Merkmal der frühen Phasen des Deep Learning-Trainings (wer den größeren VRAM hat, gewinnt), aber heute: Die Datenübertragungsgrenze zum GPU beeinflusst direkt die Inferenz-QPS. Die Interaktionsgeschwindigkeit zwischen GPU und CPU/Beschleunigungskarten ist das Limit der Pipeline-Leistung. Der Stromverbrauch eines AI-Clusters in einem einzelnen Rack kann mehrere Dutzend Kilowatt erreichen; ein unzureichendes PD-Design kann die Skalierung der Rechenleistung direkt behindern. Wenn das Layout des Rechenzentrums noch im Designparadigma der traditionellen Web-/Datenbankdienste von 2015 feststeckt, wird es unter AI-Workloads direkt scheitern. Sehen Sie sich unsere Erkenntnisse an: 20 Tech-Experten über aufkommende Hardware-Trends, die Unternehmen beobachten müssen, via @forbes
10,4K