El bombo de la IA impulsará los precios de las GPU de los centros de datos por las nubes
Mar 06, 2023Aquí está nuestra visita al stand de OWC en COMPUTEX 2023 mostrando impresionantes periféricos y equipos
Mar 08, 2023Maggie, la furgoneta VW eléctrica
Mar 10, 2023Presentamos el Fisker Ocean: estoy vendido
Mar 12, 2023Guía de actualizaciones de Diablo 4: ¿Cuándo debo actualizar el equipo?
Mar 14, 2023El bombo de la IA impulsará los precios de las GPU de los centros de datos por las nubes
ACTUALIZADOAl igual que muchos creadores de sistemas HPC e IA, estamos impacientes por ver cómo se vería el sistema híbrido CPU-GPU "Antares" Instinct MI300A en chip de AMD en términos de rendimiento y precio.
Y con la conferencia de supercomputación ISC 2023 acercándose en unas pocas semanas, y Bronis de Supinski, director de tecnología del Laboratorio Nacional Lawrence Livermore, dará una charla en el evento sobre el futuro sistema de exaescala "El Capitán" que será la máquina insignia. para la variante MI300A de las GPU Antares, está en nuestras mentes.
Entonces, solo por diversión, sacamos la hoja de cálculo de confianza de Excel e intentamos estimar cuáles podrían ser las alimentaciones y velocidades de las GPU MI300 y MI300A, la última de las cuales estará en el corazón del sistema El Capitan. Sí, esto es quizás una locura, considerando que AMD probablemente hablará un poco más sobre la serie MI300 de GPU en ISC 2023 y más allá, y eventualmente sabremos con precisión cómo está diseñado este motor de cómputo. Pero muchas personas siguen preguntándonos si la serie MI300 puede ser competitiva con los aceleradores de GPU Nvidia "Hopper" H100 y, quizás lo que es más importante, competitiva con la combinación de la CPU Arm "Grace" de 72 núcleos atada firmemente al Hopper. H100 GPU para crear un complejo combinado de CPU-GPU híbrido Grace-Hopper que irá de la mano con el MI300A que se implementará en El Capitán y, creemos, con otra máquina híbrida de CPU-GPU que ejecute cargas de trabajo de HPC e IA. lado a lado.
Y teniendo en cuenta la intensa demanda de cómputo de GPU, impulsada por una explosión en el entrenamiento de IA para aplicaciones de IA generativas basadas en modelos de lenguaje grandes, y el deseo de AMD de jugar más en el entrenamiento de IA con sus GPU, creemos que la demanda superará a Nvidia. suministro, lo que significa que a pesar de la gran ventaja que la pila de software Nvidia AI tiene sobre AMD, las GPU de este último obtendrán algunas ganancias de suministro de AI. Las GPU "Aldebaran" predecesoras ya tienen algunas victorias impresionantes en el diseño de HPC para AMD, especialmente en el sistema de exaescala "Frontier" en el Laboratorio Nacional de Oak Ridge, con cuatro de estas GPU de doble chip conectadas a una CPU Epyc "Trento" personalizada para crear una motor de cómputo híbrido más débilmente acoplado. (Hay otros). Y creemos que la intensa demanda de GPU Nvidia para cargas de trabajo de IA en realidad dejará una oportunidad para que AMD gane algunos acuerdos a medida que la demanda supere la oferta.
La gente no va a ser más paciente para agregar inteligencia artificial generativa a sus cargas de trabajo hoy que a fines de la década de 1990 y principios de la de 2000 para agregar infraestructura web para modernizar sus aplicaciones e implementar interfaces para ellas en Internet. La diferencia esta vez es que el centro de datos no se está transformando en un sustrato de cómputo X86 de uso general, sino que se está convirtiendo cada vez más en un ecosistema de arquitecturas competidoras y complementarias que se entretejen para proporcionar el mejor rendimiento posible por el dinero. en una variedad más amplia de cargas de trabajo.
Todavía no sabemos mucho sobre la serie MI300, pero en enero, AMD habló un poco sobre los dispositivos, que cubrimos aquí. Tenemos una imagen de uno de los dispositivos y sabemos que uno de ellos tendrá 8 veces el rendimiento de IA y 5 veces el rendimiento de IA por vatio del acelerador de GPU MI250X existente que se usa en el sistema Frontier. Sabemos que uno de la serie MI300 tiene 146 mil millones de transistores en sus nueve chipsets. Creemos que una gran parte de ese recuento de transistores se implementa en cuatro mosaicos de 6 nanómetros que interconectan los elementos de cómputo de la CPU y la GPU que también tienen grabado Infinity Cache. Es difícil decir cuántos transistores usa este caché, pero esperamos averiguarlo.
Por cierto, creemos que el MI300A se llama así para designar que es una versión APU, es decir, una combinación de núcleos de CPU y GPU en un solo paquete, del motor de cómputo paralelo insignia de AMD. Esto implica que habrá versiones de GPU Antares sin APU y solo con GPU, tal vez con un máximo de ocho chips de GPU sobre esos cuatro chips de interconexión y caché, que se muestran a continuación en lo que creemos que es el MI300A:
Para ser muy precisos en el lenguaje de AMD de principios de este año, ese número 8X y 5X se basó en pruebas para la GPU MI250X y el rendimiento modelado para las partes de GPU del complejo MI300A. Y para ser muy específicos, esto es lo que dijo AMD: "Mediciones realizadas por AMD Performance Labs el 4 de junio de 2022, sobre la especificación actual y/o la estimación del rendimiento de punto flotante FP8 entregado estimado con escasez de estructura compatible con AMD Instinct MI300 frente a MI250X FP16 ( 306,4 TFLOPS entregados estimados basados en el 80 % del rendimiento máximo teórico de punto flotante). Rendimiento del MI300 basado en estimaciones preliminares y expectativas. El rendimiento final puede variar".
Y para ser aún más específicos, aquí están las notas de las tres afirmaciones que AMD ha hecho con respecto a la serie MI300 hasta la fecha:
Nos preguntamos qué pasó con el MI300-002, lo buscamos en Internet y no pudimos encontrarlo.
Con base en estos datos anteriores y el motor de conjeturas atascado en nuestros lóbulos cerebrales, aquí está nuestra tabla que estima cómo se verían las alimentaciones y las velocidades del MI300 y el MI300A dado lo que AMD ha dicho hasta ahora, con una buena cantidad de conjeturas que se muestran en cursiva roja negrita como de costumbre.
En una versión anterior de esta historia, asumimos que todos los comentarios que hizo AMD eran sobre el MI300A, pero algunos de ellos eran sobre el MI300. Así que hemos hecho todo lo posible para ver cómo se verían estos dos complejos de chips. No ofrecemos garantías y ofrecemos esto como el experimento mental que es.
Teníamos demasiados procesadores de transmisión y unidades de cómputo en nuestro gráfico anterior, pero creemos que esto es correcto. Lo lamento. Agregamos procesamiento de matriz de dispersión al final, pero olvidamos tomar el factor 2X para ese procesamiento.
Creemos que el MI300 tiene ocho mosaicos de GPU para un total de 440 unidades de cómputo y 28 160 procesadores de transmisión, lo que produce un pico de 3064 teraflops en FP8 y un pico de 3064 teraops en el procesamiento INT8 comúnmente utilizado para inferencia de IA y, para algunas aplicaciones compatibles con FP8, también para IA capacitación. Creemos que este chip funciona a la misma velocidad de reloj de 1,7 GHz que el MI250X al que reemplaza, y que tendrá el doble de la capacidad de procesamiento vectorial FP64 y FP32 del MI250X.
Con el MI300A, se extraen dos de los chips GPU, lo que reduce las unidades de cómputo a 330 y los procesadores de transmisión a 21 120. Pero, dado que creemos que Lawrence Livermore estaba dispuesto a sacrificar algo de calor para que la CPU y la GPU estuvieran en la misma memoria de gran ancho de banda, creemos que AMD aumentará la velocidad del reloj en esas seis GPU para impulsar el rendimiento un poco más allá de eso en el MI300. Nuestras matemáticas sugieren que 2,32 GHz harán el truco, produciendo el rendimiento 8X y 5X el rendimiento por vatio de las cifras de las que AMD ha hablado en sus afirmaciones.
Al igual que Nvidia aumentó el rendimiento varias veces más en las unidades matemáticas de matriz en las GPU H100 en comparación con las unidades vectoriales, creemos que AMD hará lo mismo con el motor de cómputo híbrido MI300A. Por lo tanto, es posible que las unidades vectoriales solo vean una mejora de 2X. Esa es otra forma de decir que muchas cargas de trabajo de HPC no se acelerarán tanto como las cargas de trabajo de entrenamiento de IA, a menos y hasta que se ajusten para ejecutarse en las unidades matemáticas de matriz.
Ahora, hablemos de dinero.
En nuestro análisis de diciembre de 2021, cuando los MI250X se enviaron por primera vez a Oak Ridge para construir la máquina Frontier, estimamos que uno de estos motores GPU podría tener un precio de lista en el rango de $ 14,500, unos pocos mil más que el Acelerador de GPU Nvidia "Ampere" A100 SXM4, que se vendía por $ 12,000 en ese momento. A raíz del anuncio del H100 en marzo de 2022, estimamos que se podría cobrar entre $19 000 y $30 000 por un H100 SXM5 de gama alta (que no se puede comprar por separado de una placa base HGX), con la Las versiones PCI-Express de las GPU H100 quizás valgan entre $ 15,000 y $ 24,000. En ese momento, el precio del A100 SXM4 había subido a alrededor de $15,000 debido al aumento de la demanda. Y hace solo unas semanas, las versiones PCI-Express del H100 se subastaron en eBay por más de $40,000 cada una. que es una locura
La situación es peor que la del mercado de autos usados aquí en los Estados Unidos, y es una especie de inflación que proviene de demasiada demanda y muy poca oferta. Una situación que a los vendedores les encanta cuando saben que de todos modos no pueden fabricar suficientes unidades. Los hiperescaladores y los desarrolladores de la nube están racionando el acceso a las GPU entre sus propios desarrolladores, y no nos sorprendería ver aumentos en los precios de la capacidad de GPU en la nube.
Cuando se trata del rendimiento del FP8 con escasez activada, el MI300A ofrecerá alrededor de 3,1 petaflops de rendimiento teórico máximo, pero contra 128 GB de memoria HBM3 con quizás alrededor de 5,4 TB/seg de ancho de banda. La unidad Nvidia H100 SXM5 tiene 80 GB de memoria HBM3 con 3 TB/s de ancho de banda y tiene una calificación de 4 petaflops de rendimiento máximo con escasez en la resolución y el procesamiento de datos del FP8. El dispositivo AMD tiene un 25 % menos de rendimiento máximo, pero tiene un 60 % más de capacidad de memoria y quizás un 80 % más de ancho de banda de memoria si todas esas ocho pilas HBM3 en el dispositivo pueden llenarse por completo. (Eso esperamos). Creemos que muchas tiendas de IA estarán perfectamente bien sacrificando un poco de rendimiento máximo por más ancho de banda y capacidad en la memoria, lo que ayuda a impulsar el rendimiento real del entrenamiento de IA.
Lo que podemos decir con certeza es que El Capitan es el primero en la línea para los motores de cómputo MI300A, y para romper el pico de 2.1 exaflops en el punto flotante de doble precisión de 64 bits de vainilla simple, se requerirán 28,600 sockets, y en este caso, un socket es un nodo
La división Cray de Hewlett Packard Enterprise está construyendo la máquina El Capitán y le gusta poner muchos motores de cómputo en un nodo. El blade del sistema Frontier, por ejemplo, tiene un par de nodos, cada uno con una CPU Trento y cuatro GPU MI250X, para un total de diez dispositivos y unos 5300 vatios. Con las tarjetas de interfaz de red Slingshot 11, llámelo tal vez 6,000 vatios por hoja solo por el bien del argumento. Si hay ocho MI300A en un blade a 850 vatios, eso sería alrededor de 6800 vatios solo para los motores de cómputo. Todavía dentro de las especificaciones de enfriamiento de los marcos "Shasta" Cray EX es nuestra suposición. Debido a que esta es una máquina enfriada por agua, creemos que caben ocho MI300A en la hoja con sus tarjetas de interfaz de red Slingshot 11. Esperamos saberlo.
Con ocho dispositivos MI300A por blade y 64 blades por gabinete, como se muestra arriba en la vista detallada de Cray EX, entonces son 56 gabinetes (redondeando hacia arriba). Históricamente, a Cray le ha gustado vender máquinas de clase de capacidad en el rango de 100 gabinetes y tener máquinas que pueden escalar a 200 gabinetes para que los clientes sientan que tienen algo de espacio libre, incluido el almacenamiento. Si El Capitán llega a un pico de 2,3 exaflops, serán 62 gabinetes y 2,5 exaflops serán 67 gabinetes. Con el almacenamiento, sospechamos fuertemente que El Capitán tendrá alrededor de 100 gabinetes.
El sistema "Sierra" actual, que ahora se acerca a los cinco años porque El Capitan llegará al mercado aproximadamente un año más tarde de lo planeado (pero presumiblemente aún dentro de su presupuesto de $600 millones) tiene 4320 nodos, cada uno con dos procesadores Power9 de IBM y cuatro Aceleradores GPU "Volta" V100 de Nvidia. Eso es un total de 17,280 GPU en Sierra, y si nuestras conjeturas sobre el rendimiento FP64 de MI300A son correctas, y somos los primeros en admitir que esto es solo una corazonada, entonces eso es solo un 65 por ciento más de zócalos de GPU en El Capitan que en Sierra. Pero hay seis GPU lógicas en cada socket de El Capitan, por lo que son más como 171,600 GPU para entregar 2.1 exaflops. Eso sería 16,9 veces más rendimiento bruto de FP64 a un aumento de precio de 4,8 veces en los dos sistemas, entregado por un factor de aumento de 9,9 veces en la simultaneidad de GPU. El Capitán tiene que ofrecer al menos 10 veces más empuje en rendimiento que Sierra y hacerlo en una envolvente térmica de menos de 40 megavatios. Si tenemos razón en todo esto, entonces un El Capitán de 2.1 exaflops generaría alrededor de 24.3 megavatios solo para los motores de cómputo.
Y como control de precios de todo esto, si el 85 por ciento del costo de la máquina El Capitán son los motores de cómputo CPU-GPU, y hay 28,600 de ellos, entonces eso es alrededor de $17,800 cada uno. Y no hay forma de que los hiperescaladores y los constructores de la nube paguen menos por ellos que lo que pagan los laboratorios nacionales de EE. UU. que básicamente patrocinan la incursión de AMD en los escalones superiores de HPC. (Eso es un montón de "si" y lo sabemos bien).
En el pasado, en realidad averiguábamos el precio de lista de una GPU de las ofertas de supercomputación invirtiendo el gran descuento del laboratorio nacional de HPC. Con los aceleradores Volta V100 utilizados en Sierra, por ejemplo, las GPU cotizaron en alrededor de $ 7,500 pero se vendieron a Lawrence Livermore y Oak Ridge por alrededor de $ 4,000 cada una. Y así, el precio de lista del MI300A, si prevaleciera el antiguo nivel de descuento, podría estar por encima de los $33,500. Creemos que el descuento es menos pronunciado porque AMD agregó mucho más cómputo al motor MI300A y el precio también fue mucho más bajo por unidad: el precio de lista era más como el precio de venta al público porque AMD necesita ser agresivo para desplazar a Nvidia.
Recuerde que cuando se anunció el acuerdo original de El Capitán en agosto de 2019 para entrega a fines de 2022 con aceptación a fines de 2023, se especificó como una máquina con 1,5 exaflops de rendimiento sostenido y alrededor de 30 megavatios de consumo de energía solo para ejecutar el sistema.
Todo esto nos deja con tres preguntas. Uno: ¿Cuántos dispositivos MI300A puede fabricar AMD? Si es mucho más de lo que está programado para entrar en El Capitán, entonces puede fijar su precio y venderlos todos. Y dos: ¿AMD los venderá a un precio agresivo o presionará por el precio que el mercado puede soportar?
No es difícil responder a la segunda pregunta, ¿verdad? No en este mercado alcista de GPU donde la IA será absolutamente inmune a la recesión. La IA puede incluso acelerar la recesión, en caso de que suceda, si tiene cada vez más éxito en reemplazar a las personas. . . . Hasta el momento, no ha ocurrido ni una recesión real ni una acelerada por la IA.
La tercera pregunta es esta: ¿Tendrá el MI300 esencialmente el mismo precio que el MI300A? Es muy probable.
Presentando aspectos destacados, análisis e historias de la semana directamente de nosotros a su bandeja de entrada sin nada en el medio. Suscríbase ahora
ACTUALIZADO