Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
W przeszłości wszyscy usilnie przenosili się do chmury, ale koszty jednostkowej mocy obliczeniowej w fazie wnioskowania sprawiły, że wiele zespołów zdało sobie sprawę, że długoterminowe, na dużą skalę wnioskowanie AI w chmurze pochłania zbyt dużo pieniędzy. Aplikacje natywne AI lepiej nadają się do przeniesienia kluczowych zadań wnioskowania do lokalnych serwerowni, co zmniejsza opóźnienia oraz oszczędza pasmo i koszty wynajmu chmury.
Zawodzenie o pamięć to typowa cecha wczesnego etapu treningu głębokiego uczenia (kto ma większą pamięć wideo, ten wygrywa), ale dzisiaj:
Limit przepustowości danych przechowywanych na GPU bezpośrednio wpływa na QPS wnioskowania.
Szybkość interakcji między GPU a CPU/kartami przyspieszającymi jest górnym limitem wydajności potoku.
Jednostkowe AI klastry mogą osiągać zużycie energii rzędu dziesiątek kilowatów, a niewłaściwy projekt PD może bezpośrednio zablokować skalę wdrożenia mocy obliczeniowej.
Jeśli układ centrum danych wciąż opiera się na tradycyjnych wzorcach projektowych z 2015 roku dla Web/baz danych, to pod obciążeniem AI po prostu się załamie.
Zobacz nasze spostrzeżenia:
20 ekspertów technologicznych na temat pojawiających się trendów sprzętowych, na które firmy muszą zwrócić uwagę, via @forbes.

10,46K
Najlepsze
Ranking
Ulubione