«Basándose en el liderazgo de la compañía en tecnología NPU, estas soluciones ofrecen rendimiento a escala de rack y una capacidad de memoria superior para una rápida inferencia generativa de IA con un alto rendimiento en dólar por vatio, lo que supone un gran avance para una IA generativa escalable, eficiente y flexible en todos los sectores», explica en un comunicado la compañía estadounidense.
El chip AI200 presenta «una solución de inferencia de IA a nivel de rack diseñada específicamente para ofrecer un bajo coste total de propiedad (TCO) y un rendimiento optimizado para la inferencia de lenguajes y modelos multimodales (LLM, LMM) de gran tamaño y otras cargas de trabajo de IA». Estas características permiten, según la compañía, «una escalabilidad y una flexibilidad excepcionales para la inferencia de IA».
Por su parte, el AI250 debutará con una arquitectura basada en computación cercana a la memoria, lo que supone «un salto generacional en eficiencia y rendimiento para cargas de trabajo de inferencia de IA, al ofrecer un ancho de banda de memoria efectivo más de 10 veces superior y un consumo de energía mucho menor». La firma asegura que «esto permite una inferencia de IA desagregada para un uso eficiente del hardware, a la vez que cumple con los requisitos de rendimiento y coste del cliente».
«Ambas soluciones de rack incorporan refrigeración líquida directa para mayor eficiencia térmica, PCIe para escalado vertical, Ethernet para escalado horizontal, computación confidencial para cargas de trabajo de IA seguras y un consumo de energía a nivel de rack de 160 kW», explica.
