No passado, todos se esforçavam para migrar para a nuvem, mas o custo de computação por unidade na fase de inferência fez com que muitas equipes percebessem: a inferência de IA em longo prazo e em grande escala na nuvem consome dinheiro rapidamente. Aplicações nativas de IA são mais adequadas para transferir tarefas críticas de inferência para os data centers locais, reduzindo a latência e economizando largura de banda e custos de aluguel na nuvem. A competição por memória é uma característica típica do treinamento de aprendizado profundo no início (quem tem mais memória de vídeo vence), mas hoje: O limite de taxa de transferência de dados armazenados na GPU afeta diretamente o QPS de inferência. A velocidade de interação entre GPU e CPU/cartões de aceleração é o limite de desempenho do pipeline. O consumo de energia de um cluster de IA em um único armário pode chegar a dezenas de quilowatts; um design PD inadequado pode travar diretamente a escala de implantação de computação. Se o layout do data center ainda estiver preso ao paradigma de design tradicional de negócios da Web/banco de dados de 2015, ele pode falhar diretamente sob a carga de trabalho de IA. Veja nossas percepções: 20 Especialistas em Tecnologia Sobre Tendências Emergentes de Hardware que as Empresas Devem Observar via @forbes
10,42K