No passado, todos iam desesperadamente para a nuvem, mas o custo do poder de computação unitária no estágio de inferência fez com que muitas equipes percebessem que a inferência de IA em larga escala e de longo prazo queima dinheiro muito rapidamente na nuvem. Os aplicativos nativos de IA são mais adequados para afundar tarefas críticas de inferência em data centers locais, reduzindo a latência e economizando largura de banda e custos de aluguel de nuvem Lutar pela memória era uma característica típica nos primórdios do treinamento de deep learning (quem tem mais memória vence), mas hoje: O limite de taxa de transferência armazenado na GPU afeta diretamente o QPS de inferência A velocidade de interação entre a GPU e a placa de CPU/aceleração é o limite superior do desempenho do pipeline O consumo de energia de um cluster de IA de rack único pode chegar a dezenas de quilowatts, e o design PD irracional congelará diretamente a escala de implantação de poder de computação Se o layout do data center permanecer preso no paradigma de design do negócio tradicional de web/banco de dados em 2015, ele será derrubado sob cargas de trabalho de IA Confira nossos insights: 20 especialistas em tecnologia sobre tendências emergentes de hardware que as empresas devem observar via @forbes
10,47K