W przeszłości wszyscy usilnie przenosili się do chmury, ale koszty jednostkowej mocy obliczeniowej w fazie wnioskowania sprawiły, że wiele zespołów zdało sobie sprawę, że długoterminowe, na dużą skalę wnioskowanie AI w chmurze pochłania zbyt dużo pieniędzy. Aplikacje natywne AI lepiej nadają się do przeniesienia kluczowych zadań wnioskowania do lokalnych serwerowni, co zmniejsza opóźnienia oraz oszczędza pasmo i koszty wynajmu chmury. Zawodzenie o pamięć to typowa cecha wczesnego etapu treningu głębokiego uczenia (kto ma większą pamięć wideo, ten wygrywa), ale dzisiaj: Limit przepustowości danych przechowywanych na GPU bezpośrednio wpływa na QPS wnioskowania. Szybkość interakcji między GPU a CPU/kartami przyspieszającymi jest górnym limitem wydajności potoku. Jednostkowe AI klastry mogą osiągać zużycie energii rzędu dziesiątek kilowatów, a niewłaściwy projekt PD może bezpośrednio zablokować skalę wdrożenia mocy obliczeniowej. Jeśli układ centrum danych wciąż opiera się na tradycyjnych wzorcach projektowych z 2015 roku dla Web/baz danych, to pod obciążeniem AI po prostu się załamie. Zobacz nasze spostrzeżenia: 20 ekspertów technologicznych na temat pojawiających się trendów sprzętowych, na które firmy muszą zwrócić uwagę, via @forbes.
10,46K