In passato, tutti si affannavano a migrare al cloud, ma i costi di calcolo unitario durante la fase di inferenza hanno fatto capire a molti team che l'inferenza AI a lungo termine e su larga scala consuma troppo denaro nel cloud. Le applicazioni native AI sono più adatte a spostare i compiti di inferenza critici nei data center locali, riducendo sia la latenza che i costi di banda e di affitto del cloud. La competizione per la memoria è una caratteristica tipica delle prime fasi di addestramento del deep learning (chi ha più memoria video vince), ma oggi: Il limite di throughput dei dati memorizzati nella GPU influisce direttamente sul QPS di inferenza. La velocità di interazione tra GPU e CPU/schede di accelerazione è il limite delle prestazioni della pipeline. Il consumo energetico di un cluster AI in un singolo armadio può raggiungere decine di kilowatt; un design PD inadeguato può bloccare direttamente la scala di distribuzione della potenza di calcolo. Se la disposizione del data center è ancora ferma al paradigma di design tradizionale del 2015 per le attività Web/database, si rischia di andare incontro a problemi sotto carico di lavoro AI. Scopri le nostre intuizioni: 20 esperti tecnologici sulle tendenze hardware emergenti che le aziende devono tenere d'occhio tramite @forbes.
10,42K