În trecut, toată lumea mergea cu disperare în cloud, dar costul unitar al puterii de calcul în etapa de inferență a făcut ca multe echipe să realizeze că inferența AI pe termen lung, la scară largă, arde bani prea repede în cloud. Aplicațiile native AI sunt mai potrivite pentru a scufunda sarcinile critice de inferență în centrele de date on-premises, reducând latența și economisind lățimea de bandă și costurile de închiriere în cloud Lupta pentru memorie a fost o caracteristică tipică în primele zile ale antrenamentului de învățare profundă (cine are mai multă memorie câștigă), dar astăzi: Limita de debit stocată pe GPU afectează direct inferența QPS Viteza de interacțiune dintre GPU și CPU/placa de accelerare este limita superioară a performanței conductei Consumul de energie al unui cluster AI cu un singur rack poate ajunge la zeci de kilowați, iar designul PD nerezonabil va îngheța direct amploarea implementării puterii de calcul Dacă aspectul centrului de date rămâne blocat în paradigma de proiectare a afacerii tradiționale web/baze de date în 2015, acesta va fi răsturnat sub fluxurile de lucru AI Consultați informațiile noastre: 20 de experți în tehnologie despre tendințele hardware emergente pe care companiile trebuie să le urmărească prin intermediul @forbes
10,48K