- Huawei apila miles de NPU para mostrar la dominación de Super Computación Brut-Force
- Nvidia proporciona polaco, equilibra y prueba el rendimiento de la IA que cree en las empresas
- AMD se burla de las telas de redes radicales para empujar a Skelbit a una nueva región
La competencia para crear los sistemas AI Super Computing más potentes es intensificante y las marcas principales ahora quieren un clúster insignia que demuestre que puede llevar a cabo modelos de trillones de parámetros e investigación con datos pesados para la próxima generación.
El recientemente anunciado Atlas 950 SuperPod, NVX DGX SuperPod y el próximo Megapod instinto de AMD y ATLAS Representan diferentes métodos para resolver el mismo problema.
Todos fortalecen un gran cálculo, memoria y ancho de banda en un paquete esquelético, modelos de generadores, descubrimientos de fármacos, sistemas autónomos y equipos de IA para la ciencia basada en datos. Pero, ¿cómo se comparan?
|
División |
Huawei escalada 950dt |
Nvidia H. 200 |
AMD Radian Instinst Mi 300 |
|---|---|---|---|
|
Familia / nombre de chips |
950 series de escalada |
H 200 (GH 100, Hopper) |
Radian Instinst Mi 300 (Aqua Vanzaram) |
|
Arquitectura |
Propiedad de Huawei Ai Acelerator |
Arquitectura de GPU de la tolva |
ADNc 3.0 |
|
Proceso / fundición |
Aún no confirmado públicamente |
5 nm (TSMC) |
5 nm (TSMC) |
|
Transistor |
No especificó |
80 mil millones |
153 mil millones |
|
Muriendo |
No especificó |
814 mm |
1017 mm |
|
Mejoramiento |
Estimación de decodificación y capacitación de modelos |
Aceleración de AI y HPC de propósito general |
Aceleración de contabilidad AI/HPC |
|
Formato compatible |
FP8, MXFP 8, MXFP 4, HIF 8 |
FP 16, FP32, FP 64 (a través de Tensor/Chuda Core) |
FP 16, FP 32, FP 64 |
|
Pick -Performance |
1 Pflops (FP 8 / MXFP 8 / HIF 8), 2 Pflops (MXFP 4) |
FP 16: 241.3 Tifflops, FP 32: 60.3 Tifflaps, FP 64: 30.2 Tifflops |
FP 16: 383 Tifflops, FP 32/FP 64: 47.87 Tifflops |
|
Procesamiento vectorial |
SIMD + SIMT Hybrid, granularidad de acceso a la memoria de 128 bytes |
Simt con chuda y tensor núcleo |
Simt + color matriz/tensor |
|
Tipo de memoria |
Hizq 2.0 propiedad de HBM (para variantes de decodificación y entrenamiento) |
HBM 3 E |
HBM 3 |
|
Memoria |
144 GB |
141 GB |
128 GB |
|
Ancho de banda de memoria |
4 TB/s |
4.89 TB/s |
6.55 TB/s |
|
Ancho del bus de memoria |
No especificó |
6144 bits |
8192 bit |
|
Cache L2 |
No especificó |
50 MB |
No especificó |
|
Ancho de banda inter -conexión |
2 TB/s |
No especificó |
No especificó |
|
Factor de forma |
Tarjeta, servidor superpod |
PCI 5.0 x16 (simplemente servidor/HPC) |
PCI 5.0 x16 (tarjeta de conteo) |
|
Reloj de base / impulso |
No especificó |
1365 /1785 MHz |
1000 /1700 MHz |
|
Núcleo / cobertizo |
No especificó |
Chuda: 16,896, Tensor: 528 (Cuarta Jane) |
14,080 cobertizadores, 220 Q, 880 Tensor Core |
|
Energía (TDP) |
No especificó |
600 W. |
600 W. |
|
Interfaz de bus |
No especificó |
PCI 5.0 x16 |
PCI 5.0 x16 |
|
Producción |
Nada (use servidor) |
Nada (simplemente servidor/HPC) |
Nada (tarjeta de conteo) |
|
Situación de objetivos |
Estimaciones de entrenamiento y decodificación de gran tamaño (LLM, AI del generador) |
Entrenamiento de IA, HPC, centro de datos |
Aceleración de contabilidad AI/HPC |
|
Liberación / disponibilidad |
Pregunta 4 2026 |
18 de noviembre de 2024 |
4 de enero de 2023 |
Vistas en la parte posterior de cada sistema
Lo que hace que estos sistemas sean atractivos es cómo reflejan las técnicas de sus fabricantes.
Huawei es un gran riesgo en una interconexión personalizada llamada 950 chips y UnifiedBus 2.0, enfatizando la creación de la densidad de cálculo en una escala notable, luego se está juntando.
NVIDIA ha pasado unos años corrigiendo su línea DGX y ahora proporciona el superpod DGX como solución de Turquía, consolidando GPU, CPU, redes y almacenamiento en un entorno equilibrado para iniciativas y laboratorios de investigación.
Los instintos de AMD se están preparando para unirse a la conversación con Megapod, cuyo objetivo es escalar su futuro Acelerator MI 500 y una nueva tela de red llamada Ulink.
Huawei está hablando sobre el rendimiento de Exflop hoy, Nvidia destacó una plataforma estable y probada en guerra y AMD se recogió como un retador en la calle.
El centro de estos grupos tiene procesadores de tarifas pesadas que están construidas para proporcionar muchas tareas y para manejar la presión laboral de IA y HPC intensas en datos.
El Atlas 950 SuperPod de Huawei está diseñado alrededor de 8,192 escalando 950 NPUS, con FP 8 A8 XFLOPS informando picos y FP 16 EXFLOPS, por lo que tiene como objetivo manejar tanto el entrenamiento como adivinar a gran escala.
NVIDIA DGX SuperPod, construido en 100 nodos en DGX, proporciona un sabor separado de rendimiento, con 20 nodos de GPU en total 160, parece más pequeño en el caso del recuento de chips.
Sin embargo, cada GPU es favorable para la precisión mixta para las funciones de IA y se asocia con una vida de alta velocidad para mantener el retraso más bajo.
MEGAPD de AMD todavía está en el horizonte, pero en la descripción inicial empacará la CPU “Verano” de 64 gen 7, así como la GPU de 256 instins Mi 500.
Aunque sus números de conteo sin procesar aún no se han publicado, el objetivo de AMD es competir o superar la habilidad de Nvidia, especialmente utiliza las redes PCIe Jenner 6 y 3 nanométricas de la próxima generación ASIC.
Miles de aceleradores requieren memoria e velocidad de interconexión.
Huawei afirma que el Atlas 950 Superpod lleva más que la Memoria Petabita con el ancho de banda de 16.3 Petabita por segundo.
Este tipo de troput está diseñado para mantener los datos en funcionamiento sin interrupción en sus bastidores NPU.
El NVX DGX SuperPOD no coincide con este número de título nacional, en su lugar, depende de la memoria del sistema 52.5 terabytes, y la memoria GPU de alto ancho de banda depende de 49 terabytes, combinados con enlaces infinandos a 200 Gbps por nodo.
Aquí el enfoque se centra en las iniciativas que ya adivinan actuaciones para el estrés del estrés laboral.
AMD, ya, su interruptor voluntario ASIC es de 102.4tbps y los thruput externos de la bandeja están dirigidos por 800 Gbps Perfoot.
En combinación con Yulink y Ultra Ethernet, sugiere un sistema que excederá el límite de red actual después del lanzamiento en 2027.
Una de las mayores diferencias entre los tres concursantes es entre cómo se construyen físicamente.
El diseño de Huawei permite la expansión de medio millón de chips de escalada de un solo superpod en un supercluster.
También hay afirmaciones de que un Atlas 950 puede estar involucrado en más de 100 gabinetes dispersos más de 1,000 metros cuadrados.
NVIDIA DGX SuperPod adopta un enfoque más compacto, integrando sus 20 nodos en un estilo de clúster que las iniciativas se pueden implementar sin la necesidad de la sala de datos en forma de estadio.
La diferencia de megapódigo de la AMD se divide, la bandeja de cálculo con dos bastidores muestra con un estante de red dedicado de que su arquitectura es modular pero se enfoca en el poderoso diseño.
En términos de recibos, el NVX DGX SuperPod ya está en el mercado, se espera el Atlas 950 SuperPod de Huawei a fines de 2026, y el Megapod 2027 de la AMD se planifica para 2026.
Se dijo que estos chips están luchando de manera muy diferente en el mismo banner de dominación de AI Super Computing.
El Atlas 950 Superpod de Huawei es un espectáculo de la Fuerza Brute, que puede dominar miles de NPU y ancho de banda que conduce con mandíbula en las escamas, pero su tamaño y diseño de propiedad pueden dificultar la aceptación de extranjeros.
NVIDIA DGX parece más pequeño en el papel Superpod, pero gana en esmalte y confiabilidad, proporcionando una plataforma probada que las iniciativas y los laboratorios de investigación pueden conectarse hoy sin esperar compromisos.
El Megapod de AMD, todavía en desarrollo, ha creado una interrupción con su acelerador MI 500 y una nueva tela radical de redes que pueden arriesgar el equilibrio después de que llegue, pero es un retador.
A través de Huawei, Nvidia, TechPowerup












