En la formación de inteligencia artificial inteligente (IA) y sistemas de apoyo, muchas compañías digitales y desarrolladores de tecnología se están centrando en crear modelos más calificados.
Los puntajes de arquitectura, escala y puntos de referencia están todos bajo el microscopio. Sin embargo, no debe olvidarse que cada modelo impresionante tiene más energía básica: los datos. No cualquier datos, sino datos de alta calidad, variados y adecuados disponibles.
Dado que alcanzamos el límite de lo que pueden ofrecer los datos del mundo real, está ganando una revolución tranquila, independientemente de la ansiedad de la privacidad, los gastos o el déficit general. Los datos sintéticos no son solo una causalidad, sino que también surge como la base de la próxima generación de IA.
Consultor técnico senior, AI Labs, versión 1.
Detrás de la tecnología AI, aquellos de nosotros estamos viendo directamente cómo los modelos de datos sintéticos están capacitados, pagados e implementados. Para aplicaciones de IA en automatización, modelos de idiomas grandes o sectores de visualización, los datos sintéticos están resolviendo problemas que no son solo los datos tradicionales.
Sin embargo, como muchas tecnologías emergentes, los datos sintéticos están rodeados por una parte de su ficción y conceptos erróneos. Desde la preocupación por la calidad y el sesgo, hasta las estimaciones sobre los gastos y la accesibilidad, estos mitos corren el riesgo de nublar sus verdaderas posibilidades. Es importante avanzar, separar la verdad de la ficción y probar datos sintéticos sobre sus verdaderas cualidades.
Los datos cynthetic pueden no ser lo que el público piense al imaginar avances en IA y tecnología similar. De hecho, a la parte posterior de cada chatbook sofisticado, cada sistema de decisión automático y cada modelo predicen unos pocos millones por segundo, hay un datos que lo entrena.
Cada vez más, los datos sintéticos son el tejido de hilo que desaparece, permite su creación, evolución y responsabilidad a través de estos sistemas. Dado que la IA se vuelve más fuerte y clara, tanto en el negocio como en la vida cotidiana, es el combustible el que solo aumentará la importancia de los datos.
¿Por qué tienes que creer mis datos sintéticos?
Los datos sintéticos se refieren a la información que se genera artificialmente, a menudo a través de la simulación o los procesos algorítmicos, que no se recopilan del entorno del mundo real. A primera vista, puede sonar como una opción inferior. A pesar de su promesa, los datos sintéticos a menudo se malinterpretan. A menudo, la conversación se transforma por el mito.
Afirma que esta es una opción débil para la información adecuada, insegura o del mundo real. La realidad es mucho más corta. Al reducir estos conceptos erróneos, agregamos el valor real a los datos sintéticos y podemos apreciar mejor dónde la advertencia es equitativa. Sobre todo, ¿cómo pueden los datos que no son “reales” para entrenar a la IA?
La respuesta está en control y precisión. La recopilación de datos del mundo real se puede crear mediante barreras legales y morales lentas, costosas y crecientes, se pueden crear escalas de datos sintéticos. Se hace en el caso de usos específicos y limpia las posibles palabras o sesgo. Puede que no sea perfecto, pero es flexible y se vuelve práctico.
Es importante destacar que se puede generar de una manera que no puede ser datos del mundo real. ¿Necesita datos que sean modelos de borde raros en la detección de fraude financiero? ¿Desea un datos que captura la admirable interacción del sistema de automóviles sin conductor? Estas son situaciones en las que los datos reales son innecesarios, o incluso en pasos de datos existenciales y sintéticos.
Calidad de datos, variedad y volumen
Uno de los desafíos más urgentes del desarrollo de la IA se confirma hoy en día que los modelos no solo son correctos, sino justos, explicados y vistos. Esto requiere datos que sean un representante a lo largo de la imagen, la situación y el entorno de la población amplia.
Sin embargo, es difícil garantizar la diversidad en los conjuntos de datos cuando se basan en datos históricos o de observación. Se pueden hacer ingenieros de datos sintéticos para conectar estos espacios. Al crear datos que cubren los siguientes grupos o situaciones raras, permite herramientas de IA. Para realizar de manera más confiable en el mundo real.
Los eventos recientes se refieren al riesgo de no abordarlo. A principios de 2021, la historia del modelo Gemini de Google creó el título para crear las imágenes incorrectas, un subproducto de melodías finas que no lograron equilibrar la diversidad con una precisión relevante. Fue un intenso recordatorio de que la calidad y la diversidad de los datos no son compensaciones, sino los componentes esenciales del desarrollo responsable de la IA.
Las simulaciones proporcionan soluciones probadas
Simulación en el centro de generación de datos sintéticos. Estos entornos digitales duplican la dinámica del mundo real y pueden usarse para probar lo que hacen y fallan, creando una situación controlada a partir de la cual pueden dibujar los datos sintéticos.
Estas simulaciones proporcionan un entorno seguro y repetido para el examen, es especialmente valioso en sectores como la atención médica y los servicios financieros donde los datos verdaderos son sensibles y escasos.
Las técnicas avanzadas, como las redes adversas del generador (GaN) y el autoincoder de verial (VES) nos permiten avanzar. Los GAN pueden producir datos sintéticos altamente realistas a través de un proceso de entrenamiento competitivo entre generadores y modelos discriminatorios.
Las embarcaciones, ya proporcionan rutas más estables y explicativas, especialmente cuando las explicaciones son universales cuando es universal.
Significativamente, estudios de instituciones como MIT han demostrado que en algunos contextos, los modelos capacitados en datos sintéticos de alta calidad en realidad exceden a las personas capacitadas solo en datos del mundo real.
Debemos ser conscientes de que la práctica no se trata de reemplazar los datos completamente reales. En cambio, los datos sintéticos se utilizan de manera inteligente para proporcionar nuestros resultados representativos.
Mito
Los datos sintéticos no solo se habilita la IA mejor. Admite una IA más responsable. Las preocupaciones relacionadas con la privacidad y los marcos regulatorios, como la Ley de AI de la UE, hacen que las reglas que rodean los datos como la Ley AI, los datos sintéticos proporcionan una forma que es leal por diseño.
Al eliminar la información identificada personalmente, los conjuntos de datos sintéticos se pueden dividir y probar en partes sin violar la privacidad. Hace que sea fácil repetir, examinar y mostrar consentimiento de manera segura, especialmente en sistemas de IA de alto riesgo.
Pero esta no es una bala de plata de ninguna manera. Generar datos sintéticos efectivos aún requiere dominios significativos y habilidades de dominio. Sin modelos de base en el mundo real, el modelo que se basa en datos sintéticos puede conducir al colapso.
Por ejemplo, el sistema puede alejarse de la realidad. La calidad de los datos debe ser estrictamente válida para garantizar las condiciones que reflejan correctamente esto para confirmar. Si los datos sintéticos son defectuosos, entonces el modelo lo será.
Una nueva era de desarrollo de modelos
Quizás el uso más emocionante de los datos sintéticos contiene lo que sucede después de un modelo entrenado. Al aprender el refuerzo de la reacción humana (RLHF), los datos sintéticos pueden acelerar el ajuste, proporcionando ejemplos de nueva capacitación, lo que permite el comportamiento del modelo con cada repetición.
Es similar a reiniciar un videojuego de un archivo de guardado, pero cada vez que comienzas desde una posición fuerte, comienzas desde una posición fuerte, el bucle de entrenamiento aumenta cada vez más el resultado.
Las principales compañías ya lo están tomando. Meta ha utilizado modelos grandes para generar datos de entrenamiento sintético para pequeños. Google usa Patan para aprobar el conocimiento en formas más calificadas como Gemi Flash de mayores modelos. Las ondas recientes de modelos generadores, incluidos Moisés, tienen mucho riesgo de datos sintéticos para superar los obstáculos en el entrenamiento de entrenamiento.
El equilibrio de una parte integral de la solución. Usando datos sintéticos de manera efectiva, los están mezclando con datos del mundo real, actualizando continuamente los conjuntos de datos de capacitación, cuando a veces no tiene que perderse el principio básico que la variedad de datos, la calidad y la cantidad deben realizarse todo el trabajo consistente.
Enumeramos el mejor software de maquetas: las principales herramientas para la creación de prototipos y el diseño de productosEl
Este artículo fue producido como parte del canal de Insight Specialist TechRaderPro, donde somos la mejor y brillante mente brillante en la industria de la tecnología. Las opiniones publicadas aquí están en el autor y no son esenciales para TechroderPro o Future PLC. Si está interesado en contribuir, busque más aquí: