Sí, los vehículos eléctricos son mejores para el medio ambiente y respuestas a más preguntas sobre los vehículos eléctricos
Mar 07, 2023Grifos Red Sift GPT
Mar 09, 2023Tesla Modelo 3 'Ir
Mar 11, 2023SOLMETEX, LLC ADQUIERE IMPLADENT LTD.
Mar 13, 2023El transporte de CD ET3 de Shanling viene con DOS giros
Mar 15, 2023Intel minimiza la CPU híbrida
Cuando Intel anunció su proyecto "Falcon Shores" para construir un motor de cómputo híbrido CPU-GPU en febrero de 2022 que permitía escalar de forma independiente la capacidad de la CPU y la GPU dentro de un solo zócalo, parecía que el fabricante de chips se estaba preparando para enfrentarse a sus rivales Nvidia. y AMD se enfrentan con motores de cómputo híbridos, que Intel llama XPU, AMD llama APU y Nvidia realmente no tiene si quiere ser estricto sobre cuáles son y cuáles no son sus "superchips".
Como señalamos en ese momento, este enfoque de "Aurora en un zócalo" de colocar una combinación variable de chipsets de CPU y GPU en un zócalo Xeon SP con literalmente la misma memoria principal y un enlace de latencia muy baja entre los chiplets permite soluciones más complejas. La inferencia de IA que la unidad matemática de matriz AMX en un Xeon SP podría manejar tan bien como más procesamiento de punto flotante HPC que es posible en una unidad vectorial AVX-512 sin hacer que los clientes recurran a una GPU discreta de mayor latencia en la línea Max Series o, de hecho, una GPU discreta de Nvidia o AMD.
Cuando lo anunció Raja Koduri, quien fue gerente general del negocio de gráficos y sistemas informáticos acelerados en Intel, que se descontinuó a raíz de que Koduri dejó Intel en marzo de este año, Intel prometió que Falcon Shores entregaría más de 5 veces mejor rendimiento por vatio, más de 5 veces más densidad de cómputo en un zócalo X86 y más de 5 veces más ancho de banda y capacidad de memoria con lo que se denomina "memoria compartida de ancho de banda extremo". Suponemos que estos números se compararon con un zócalo de servidor Xeon SP "Ice Lake", y ambos eran partes superiores del contenedor.
Falcon Shores estaba programado para 2024 y se esperaba ampliamente que se conectara directamente a la misma plataforma de servidor "Mountain Stream" utilizada por los futuros Xeon SP de "Granite Rapids". Y conjeturamos que Intel podría hacer algo loco, como darle a la GPU una capa de emulación que la hiciera parecer una gran unidad matemática vectorial AVX-512 para simplificar la programación. (O más probablemente una unidad AMX, ahora que lo pensamos un poco más).
En marzo de este año, cuando Koduri dejaba Intel, la compañía comenzó a pedalear de nuevo no solo para ofrecer lo que parecían cinco mezclas diferentes de chips de CPU y GPU dentro de un zócalo Xeon SP, sino que también eliminó el "puente de Rialto" para el GPU de la serie Max "Ponte Vecchio" que realizará la mayor parte del pico de procesamiento de 2 exaflops en la supercomputadora "Aurora" en el Laboratorio Nacional de Argonne. Hubo rumores en ese momento de que los primeros dispositivos Falcon Shores saldrían en 2025, y solo con chipsets de GPU, lo que haría que el dispositivo sea básicamente un reemplazo discreto de GPU para Ponte Vecchio en lugar de Rialto Bridge. Rialto Bridge se eliminó porque Intel quería pasar a una cadencia de GPU de dos años en sus hojas de ruta, y razonablemente porque eso es lo que están haciendo Nvidia y AMD.
En la reciente conferencia de supercomputación ISC23 en Hamburgo, Intel aclaró sus intenciones con respecto a Falcon Shores, confirmando que no solo este dispositivo sería un motor de cómputo solo GPU, sino que aún no era el momento adecuado para las XPU híbridas.
"Mi impulso anterior y mi énfasis en la integración de CPU y GPU en una XPU fueron prematuros", explicó Jeff McVeigh, gerente general de Super Compute Group, en las sesiones informativas para el evento ISC23. Y, francamente, McVeigh probablemente esté asumiendo la responsabilidad de algo que en realidad fue una decisión tomada por Koduri y tal vez incluso con Jim Keller en la mezcla, quien se fue para convertirse en director ejecutivo y ahora director de tecnología de la empresa emergente de IA Tenstorrent hace más de dos años.
"Y la razón es", continuó McVeigh en su explicación, "sentimos que estamos en un mercado mucho más dinámico de lo que pensábamos hace solo un año: toda la innovación en torno a los modelos de lenguaje grande de IA generativa. Si bien gran parte de eso ha sido en el espacio comercial, vemos que también se adopta mucho más ampliamente en los esfuerzos científicos Y cuando se encuentra en ese mercado dinámico, donde las cargas de trabajo cambian rápidamente, realmente no quiere forzarse a seguir el camino de una CPU fija. a relación de GPU. No desea arreglar los proveedores o incluso las arquitecturas utilizadas entre X86 y Arm, cuáles son las mejores para permitir flexibilidad, permitir un buen soporte de software entre ellos, en comparación con cuando está en un Mercado maduro. Cuando las cargas de trabajo son fijas, cuando tiene muy buena claridad de ellas, que no van a cambiar drásticamente, la integración es excelente. Hemos hecho la integración muchas, muchas veces. Ayuda con los costos, reduce poder. Pero usted está arreglado. Está arreglado con los proveedores de esos dos componentes, está arreglado con la forma en que están configurados. Y sentimos que nuestro verdadero ajuste de cuentas con el mercado actual es que no es hora de integrarse".
Dado que Nvidia está lista para vender una cantidad bastante alta de superchips de CPU "Grace" y GPU "Hopper" y AMD tiene al menos un gran cliente (Laboratorio Nacional Lawrence Livermore) que compra muchos de sus computadores híbridos CPU-GPU "Antares" Instinct MI300A motores, estamos seguros de que Nvidia y AMD estarían totalmente en desacuerdo con esta evaluación.
Tal vez tal integración de XPU no sea adecuada para Intel, que tiene que reducir costos y enfocarse en ganar dinero en su mercado de CPU de servidor central como no ha tenido que enfocarse desde la debacle de Itanium de fines de la década de 1990 y principios de la de 2000. O incluso más precisamente, tal vez no para los núcleos de CPU Intel y los núcleos de GPU Intel. ¿Quizás los núcleos de CPU Intel y los núcleos de GPU Nvidia serían más aceptables para el mercado? Hasta ahora, Nvidia no tenía un negocio de CPU de servidor, por lo que tal vez haya pasado el tiempo para esa asociación potencial, que podría haber visto puertos NVLink agregados a "Sapphire Rapids" y un complejo HBM3 gigante.
En cualquier caso, esta no es la primera vez que Intel contempla un diseño "frankenchip" con computación auxiliar fuera de los núcleos X86 en sus chips de servidor Xeon. Y esta tampoco es la primera vez que se retracta de esos esfuerzos.
Intel divulgó que se estaba desarrollando un dispositivo híbrido CPU-FPGA en junio de 2014, y estaba mostrando un prototipo híbrido Broadwell-Arria 10 GX de 15 núcleos en la Open Compute Summit en marzo de 2016. En mayo de 2018, cuando la CPU híbrida -El producto FPGA se lanzó formalmente, el lado de la CPU se actualizó a un chiplet Skylake de 20 núcleos y el Arria 10 GX era el lado FPGA del paquete. Intel, por supuesto, ha vendido procesadores Intel Xeon E3 con CPU y GPU en un solo chip durante muchos, muchos años, pero rara vez habla de las capacidades matemáticas de punto flotante latentes, y no solo económicas sino esencialmente gratuitas, inherentes a esa GPU integrada. (Con frecuencia le recordamos esto a la gente, como lo hicimos aquí). Intel dejó de hablar sobre el diseño híbrido CPU-FPGA hace muchos años, y nunca habló sobre sus posibilidades de CPU-GPU de gama baja, mucho menos sobre cómo podría hacer algo como el originalmente concebido Falcon Shores programado para 2024 junto con los Granite Rapids Xeon SP.
Ahora, la GPU multichip Falcon Shores está programada para 2025, junto con el impulsor Xeon SP "Clearwater Forest" para Granite Rapids.
Hablando de frankenchips, McVeigh dijo algo muy interesante en la presentación de su hoja de ruta en la sesión informativa ISC23. Primero, la hoja de ruta:
Desde mayo de 2022, Intel ha estado enviando los motores matemáticos de matriz Gaudi2 que surgieron de su adquisición de Habana Labs por $ 2 mil millones en diciembre de 2019. Y el seguimiento de Gaudi3, del que no sabemos casi nada y que terminó en marzo de este año, parece que llegará a principios de 2024.
Después de eso y en el punto donde la GPU multichip Falcon Shores llega a la hoja de ruta en 2025, la línea que separa a Gaudí de las GPU Ponte Vecchio y Falcon Shores desaparece. Si tiene un NNP con cantidades masivas de matemáticas matriciales de precisión mixta y una GPU con cantidades masivas de matemáticas matriciales de precisión mixta, tal vez no necesite un Gaudi4 si puede contar con un Falcon Shores que podría tener un empuje equivalente. Especialmente si necesita reducir drásticamente los costos como lo hace Intel para alcanzar sus objetivos de reducir $ 3 mil millones en costos en 2023 y reducir otros $ 5 mil millones a $ 7 mil millones en costos en 2024 y 2025 inclusive.
McVeigh dijo que Falcon Shores estaría dirigido tanto a cargas de trabajo de HPC como de IA, se actualizaría a la memoria HBM3 y "reuniría lo mejor de nuestros productos Gaudi, que incluye conmutación Ethernet estándar" y "E/S diseñadas para escalar".
Parece que esa E/S será CXL sobre PCI-Express que vinculará las CPU a las GPU Falcon Shores, pero utilizará una versión mejorada de la estructura Ethernet creada por Habana Labs para unir las GPU, si leemos esto correctamente. (Estamos perplejos de por qué esto no será todo conmutación PCI-Express 6.0, pero, de nuevo, eso se limitará a unos pocos bastidores debido a las longitudes de los cables PCI-Express y la cantidad relativamente baja de puertos en PCI-Express. )
El chip Gaudi1 podría escalar a 128 dispositivos interconectados con este tejido Ethernet que ejecuta RoCE. Cada Gaudi1 tenía diez puertos Ethernet de 100 Gb/s, y podía poner cuatro u ocho dispositivos en un nodo y escalar a 32 nodos o 16 nodos para llegar a 128 nodos completamente interconectados. El dispositivo Gaudi2 se escala a 24 puertos Ethernet integrados que funcionan a 100 Gb/seg, que conectan ocho dispositivos entre sí en una topología sin bloqueos de todos a todos:
Para crear el sistema Gaudi2 de ocho vías, se utilizan 21 de los 24 puertos de cada dispositivo para crear ese vínculo total entre los motores de matriz. Tres puertos de cada dispositivo se agregan de forma escalonada a un total de seis puertos QSFP-DD que salen del chasis Gaudi2, lo que proporciona la interconexión para escalar en 16 o 32 gabinetes Gaudi, lo que, como dijimos, se realiza con conmutadores Ethernet normales. .
No es difícil imaginar que este tejido Gaudi Ethernet se actualice a 400 Gb/seg o tal vez incluso a 800 Gb/seg saliendo de la GPU Falcon Shores y utilizando conmutadores Ethernet igualmente rápidos para vincular aún más dispositivos. Más lástima que Intel ya no tenga un negocio de conmutación de Ethernet, ya que ha suspendido su línea Tofino desde su adquisición de Barefoot Networks. Los clientes tendrán que elegir la conmutación Ethernet basada en el silicio de Broadcom, Nvidia, Marvell o Cisco Systems.
También parece que Intel tomará los arreglos sistólicos, lo que llamamos motores matemáticos matriciales, del dispositivo Gaudi y los usará en lugar de los motores matemáticos matriciales Xe utilizados en el diseño Ponte Vecchio. Entonces, sí, no cuentes con que Gaudi 4 sea un producto distinto.
Eso en cuanto a ese experimento de $ 2.35 mil millones en NNP que provino de las adquisiciones de Nervana Systems y Habana Labs. El futuro NNP es una GPU en Intel. Y las únicas empresas que comprarán Gaudi2 y Gaudi3 son aquellas que están desesperadas por cualquier capacidad matemática matricial y que también están comprometidas con las futuras GPU Falcon Shores de Intel.
Presentando aspectos destacados, análisis e historias de la semana directamente de nosotros a su bandeja de entrada sin nada en el medio. Suscríbase ahora