En el pasado, todos se esforzaban por migrar a la nube, pero el costo de la potencia de cálculo en la fase de inferencia hizo que muchos equipos se dieran cuenta de que: la inferencia de IA a largo plazo y a gran escala quema dinero demasiado rápido en la nube. Las aplicaciones nativas de IA son más adecuadas para trasladar las tareas clave de inferencia a los centros de datos locales, lo que reduce la latencia y ahorra ancho de banda y costos de alquiler en la nube. La competencia por la memoria es una característica típica en las primeras etapas del entrenamiento de aprendizaje profundo (quien tiene más memoria de video, gana), pero hoy: El límite de rendimiento de los datos almacenados en la GPU afecta directamente el QPS de inferencia. La velocidad de interacción entre la GPU y la CPU/tarjeta de aceleración es el límite del rendimiento de la canalización. El consumo de energía de un clúster de IA en un solo gabinete puede alcanzar decenas de kilovatios; un diseño PD inadecuado puede bloquear directamente la escala de despliegue de potencia de cálculo. Si la disposición del centro de datos aún se basa en el paradigma de diseño tradicional de negocios web/base de datos de 2015, se verá directamente afectada bajo la carga de trabajo de IA. Consulta nuestras ideas: 20 expertos en tecnología sobre las tendencias emergentes de hardware que las empresas deben observar a través de @forbes.
10.44K