In het verleden streefden veel mensen ernaar om naar de cloud te gaan, maar de kosten van rekenkracht tijdens de inferentiefase hebben veel teams doen beseffen: langdurige, grootschalige AI-inferentie kost te veel geld in de cloud. AI-native applicaties zijn beter geschikt om belangrijke inferentietaken lokaal te verwerken, wat zowel de latentie verlaagt als de bandbreedte en cloudhuurkosten bespaart. Concurrentie om geheugen is een typisch kenmerk van de vroege training van deep learning (wie het meeste videogeheugen heeft, wint), maar vandaag de dag: De doorvoersnelheid van gegevens opgeslagen op de GPU beïnvloedt direct de inferentie QPS. De interactiesnelheid tussen GPU en CPU/versnelling kaarten is de limiet van de pipeline-prestaties. Het stroomverbruik van een AI-cluster in één kast kan oplopen tot tientallen kilowatt; een onredelijk PD-ontwerp kan de schaal van de rekenkrachtimplementatie direct belemmeren. Als de lay-out van datacenters nog steeds vastzit in het ontwerpparadigma van traditionele web/database-activiteiten uit 2015, zal het onder AI-werkbelastingen direct falen. Bekijk onze inzichten: 20 Tech Experts Over Opkomende Hardwaretrends Die Bedrijven Moeten Volgen via @forbes
10,46K