Las cargas de trabajo de IA requieren muchos conjuntos de datos. Los sistemas de archivos paralelos que se ejecutan en redes de alta velocidad están fundando una infraestructura fundamental para un acceso rápido a estos conjuntos de datos.
El éxito en la implementación de los proyectos de IA depende de todo el centro de datos dependiendo del rendimiento, la escalabilidad y las GPU en la parte superior. Las GPU se otorgan a la importante inversión en el mercado moderno, más II debe maximizarse en las GPU.
CEO y cofundador de Coboight.
Aunque los sistemas rápidos de la red y los archivos paralelos son críticos, lo que a menudo se ignora es la disponibilidad del sistema. Se ha informado que muchos sistemas de computación de alto rendimiento (HPC) solo alcanzan el 60% de la disponibilidad total, en la mayoría de los casos, la ventana de mantenimiento y los componentes, actualizaciones, actualizaciones de software de tiempo de inactividad no planificados y las mismas.
El tiempo de inactividad es costoso y no productivo; Cuanto más hardware tenga, más falla tendrá. Las personas cometen errores, cuanto más grande sea el equipo y el centro de datos, más errores se cometirán, como el servidor, el cable o la unidad incorrectos.
Piense en todos los recursos perezosos: servidor, almacenamiento, red, trabajador, consumo de energía, GPU, CPU, científico de datos insatisfactorio, etc. ¿Cuánto cuesta por hora? Según la encuesta de tiempo de inactividad de 2024 por hora de la ITIC, el tiempo de inactividad gastado en el 90% de todas las empresas por hora es de al menos $ 300,000 por hora. El 41% de las iniciativas dicen que el tiempo de inactividad se gasta cada hora millones de 1 millón a $ 5 millones.
Un sistema adecuado para una alta demanda de aplicaciones de IA debe comenzar con la base de un sistema de archivos paralelo creado con políticas de hiperscala. Los datos gigantescos establecen una información sobre la información bruta que se utiliza para informarse con la investigación y el desarrollo de la inteligencia artificial, el sistema debe estar diseñado para escalar miles de nodos separados, incluidos los exámenes de capacidad.
Estas consideraciones iniciales nacionales están habilitadas en las escalas Linar y el throput máximo para la próxima generación de almacenamiento de datos.
Falla
El centro de datos es la moderna zona de guerra informática distribuida; La falla del sistema es común, y los problemas son ‘cuando’ y ‘si’ es el sujeto. La estructura exige un 100% de disponibilidad del diseño del sistema. Esto significa construido en el sistema de redundancia adaptado.
Hay una razón clara para esto. La posibilidad de tecnología no debe ser presentada por los sistemas cargados que se sienten en el tiempo de inactividad. La industria de TI ha tomado durante mucho tiempo que la actualización y el tiempo de inactividad del sistema es un mal necesario para el mantenimiento.
Sin embargo, el aspecto más moderno es un nuevo valor para lo que es posible de la informática avanzada. Es por eso que, comenzando desde cero, uno debe crear infraestructura de almacenamiento, lo cual es elástico contra la falla de la plataforma. Los hiperschers han normalizado esta expectativa con los sistemas disponibles 24/7 con todo el rendimiento.
La tolerancia a los hechos, el software requiere que “no crea” el hardware subyacente. La unidad base es un clúster, que consiste en un mínimo de cuatro nodos. Cada falla del clúster debería poder resolver los soles de tiempo de inactividad; El mantenimiento de rutina debe realizarse sin tiempo de inactividad. Los proyectos avanzados como la inteligencia artificial requieren un tiempo de actividad continuo.
La ventana de mantenimiento en nuestros pensamientos es completamente obsoleta. Estos proyectos complejos nacionales requieren esta disponibilidad continua nacional para dicha investigación de tratamiento. Dado que el progreso de la industria y las tareas más amplias se asignan a los sistemas HPC, el anillo de latón de almacenamiento es una operación del sistema involuntaria.
Este tipo de estructura de almacenamiento somos ingenieros. Se necesita un sistema para satisfacer las necesidades futuras que puedan manejar la verificación final desde el final de todo, incluida la conexión de red y la unidad. La barra ahora es mucho más alta para la operación del sistema en circunstancias serias; Creamos una arquitectura de almacenamiento que puede perder un nodo, un estante, o incluso un centro de datos completo; El sistema aún se ejecutará.
Mantenimiento pesado y flexibilidad del sistema abolieron
Además de los sistemas conectados al trabajo de IA, una característica clave es la falta de ventana de mantenimiento. El empleo de un sistema modular y diferente es la actualización y no hay tiempo de inactividad planificado para actualizaciones.
Más tarde, no proporciona ningún espacio para que los administradores de almacenamiento y los operadores de hardware hagan nada de forma rutinaria: actualización, reparación / reemplazo de hardware, redonstrucción, actualizaciones de hardware, kernel y actualizaciones de seguridad.
Los sistemas de almacenamiento heredado que dependen de los controladores duales tienen múltiples puntos de falla y las ventanas de mantenimiento hacen que las actividades perjudiciales y continuas sean imposibles. Un grupo es una mejor solución. La modularidad de este método proporciona una secuencia de un mejor nivel de rojoandencia.
Por ejemplo, los nodos se pueden sacar del servicio, sus componentes se pueden reemplazar o su software se ha actualizado y reasimada el clúster. Permite la tolerancia de los errores verdaderos y la actividad no vigorosa. Los grupos deben hacerse en un mínimo de cuatro nodos, pero deben poder escalar miles de nodos si es necesario.
El estrés laboral de hoy y el futuro de la IA requiere almacenamiento tanto para las necesidades de la arquitectura híbrida; Más sistemas nuevos que pueden jugar muy bien con inversiones anteriores no deberían ignorar la capacidad de apilar e integrar. La consistencia es un problema presupuestario en este sentido.
El sistema de almacenamiento ideal tiene un espacio de usuario con un módulo o controlador de núcleo personalizado. Como resultado, el personal puede ser realizado por el personal con conocimiento operativo básico de Linux. Si hay un problema del sistema, no tiene que esperar a que un experto vaya al centro de datos.
Pensamiento final
Se han establecido datos de inteligencia artificial para aumentar la energía y el consumo de electricidad. Mientras tanto, se estima aproximadamente el 20%de la potencia global del centro de datos, este número se ha duplicado al final del año a medida que escriben. Smart AIS requerirá más espacio de almacenamiento.
El rendimiento solo en los proyectos con la Patabita de las complicaciones es el único rendimiento que nunca encontrará en ningún lado. El rendimiento se ve muy bien en el papel, pero la realidad es diferente. Al igual que el vehículo de carrera, tan pronto como toca la pista, el mantenimiento es un problema.
La fiabilidad y las actuaciones evitan que el automóvil se sienta en el garaje todo el tiempo. Esta es la razón por la cual los sistemas de almacenamiento son sistemas eficientes, flexibles, de hardware y agonistas que se crearán hoy para que el servicio se construya hoy.
Somos el mejor disco duro que presenta.
Este artículo fue producido como parte del canal de Insight Specialist TechRaderPro, donde somos la mejor y brillante mente brillante en la industria de la tecnología. Las opiniones publicadas aquí están en el autor y no son esenciales para TechroderPro o Future PLC. Si está interesado en contribuir, busque más aquí: