Tidigare gick alla desperat till molnet, men kostnaden för enhetens datorkraft i inferenssteget fick många team att inse att långsiktig, storskalig AI-inferens bränner pengar för snabbt i molnet. AI-inbyggda program är bättre lämpade för att placera kritiska slutsatsdragningsuppgifter i lokala datacenter, vilket minskar svarstiden och sparar kostnader för bandbredd och molnhyra Att kämpa för minnet var ett typiskt inslag i början av djupinlärningsträning (den som har mest minne vinner), men idag: Dataflödesgränsen för lagring på GPU:n påverkar direkt slutsatsdragning QPS Interaktionshastigheten mellan GPU:n och CPU-/accelerationskortet är den övre gränsen för pipelineprestanda Strömförbrukningen för ett AI-kluster med ett rack kan nå tiotals kilowatt, och orimlig PD-design kommer direkt att frysa skalan för utbyggnaden av datorkraft Om datacenterlayouten förblir fast i designparadigmet för den traditionella webb-/databasverksamheten 2015, kommer den att omkullkastas under AI-arbetsbelastningar Kolla in våra insikter: 20 tekniska experter på nya hårdvarutrender som företag måste titta på via @forbes
10,48K