Cada fundador está haciendo la misma pregunta hoy: ¿dónde está la IA y cómo lo hago?
La inteligencia artificial y los laboratorios de investigación no se limitan a los laboratorios, es el arte, el trabajo e incluso la forma en que pensamos en nosotros. Muy pocas personas entienden esto mejor que el científico y director de Google Dipmind, Ghtek Jain, quien ha pasado dos décadas en el centro del mayor progreso de la IA.
En esta conversación, Jain explica por qué el refuerzo largo puede ser el cambio más subestimado, cualquier barrera aún amenaza el progreso y cómo los empresarios indios pueden montar la ola sin ser aplastados por ella.
De Backpop a Transformer
El primer incidente de la cara de Jain con IA fue casi accidentalmente accidentalmente: “Cuando comencé, estaba en la universidad y me encontré con este libro Jeffrey Hinton, donde había un algoritmo llamado Backprop. Lo intenté y parecía funcionar.
Su curiosidad lo profundizó en el aprendizaje automático en Uti Austin, donde el campo todavía era infancia. Los modelos primarios, como los árboles de decisión y las máquinas de vectores de soporte, requieren que los expertos en dominios diseñen características cuidadosamente. “No se dio nada en ese momento porque necesitabas elaborar la entrada de entrada al modelo”, recordó.
El punto de inflexión llegó con Alexnette a los 20. “Era la primera vez que un modelo puro basado en la red neuronal podía hacerlo mejor que un modelos de visión por computadora con bastante cuidadosamente diseñados para la clasificación de una imagen de modelo de red neuronal pura, y abrió principalmente la inundación”.
Pronto, la palabra NLP ha seguido avances como 2 VC y modelos de secuencia a secuencia. La capacitación paralela se ha desbloqueado en una escala de transformadores en 2017, asistido por la GPU y la TPU, preparando el escenario para los modelos de idiomas más grandes de hoy.
Sorpresa de aprender un refuerzo largo
Incluso después de que el generador domina los títulos de IA, Jain indica una agenda más reciente en el aprendizaje de un largo refuerzo.
Los investigadores han descubierto que el rendimiento no solo ha mejorado en tareas estrechas, ni siquiera generalizar los modelos antes de prometer en cualquier respuesta. Jain explica: “Si aprendemos mucho refuerzo en los problemas matemáticos, los modelos comienzan a mejorar en general a medida que comienzan a discutir en general”, explica Jain.
Lo interesante es que dibuja con la educación humana: “Los padres indios deben aprender con mucho cuidado y luego el resto de los temas parecen caer en su lugar. Parece haber sucedido para los modelos de manera muy natural”.
Proceder
A pesar de toda la emoción en torno al rápido progreso de la AI, está claro sobre las carreteras que permanecen. Ha señalado los tres campos donde los modelos de hoy aún son cortos y donde debe llegar la próxima edad.
El primero es el retraso. “Los modelos son actualmente autorigiales, lo que significa que producen una palabra o una ficha a la vez, por lo que tienen su naturaleza en serie que luego usa nuestro acelerador muy rápido de una manera muy profunda (duro)”. En otras palabras, incluso después de que la GPU y las TPU son más fuertes, la arquitectura actual no está diseñada para utilizar completamente ese paralelo. Sugirió que la exploración de alternativas como los modelos de expansión podría ayudar a superar esta barrera.
El segundo desafío son los datos. La escala ha impulsado hasta ahora la mayoría de las ganancias de AI, pero va bien. “Podemos salir de los datos de que podemos entrenar nuestros modelos para que para las nuevas empresas, es un recordatorio de que los conjuntos de datos, cura tacemente y señales específicas del dominio pueden convertirse en algas invaluables debido a sus límites.
El tercero es el opaco y la protección. A pesar de su fuerza, los grandes modelos también son misteriosos incluso para sus fabricantes. “Regularmente hemos entrado en diferentes situaciones en las que un modelo que muchas veces ganó la medalla de oro de la OMI tan fuerte como un error muy estúpido. Y no está muy claro en el momento en que se deriva, cómo podemos solucionarlos”. La falta de esta explicación no es solo una curiosidad científica, es un riesgo de protección. “La optica de los modelos es un problema, especialmente porque estos modelos se vuelven más fuertes, más útiles a medida que se vuelven cada vez más útiles para que los malos actores, jailbreaks, ataques, envenenamiento”.
Oportunidades de IA en la India
Cuando se le preguntó si India está haciendo una profunda investigación profunda de la IA, Jain está claro: “No solo debemos ser consumidores … Deberíamos sentarnos en casa. Es muy, muy criticado por un país de este tamaño y variedad”.
Hizo hincapié en que India debe jugar un juego largo invirtiendo personas. “Nuestros ingenieros de inteligencia artificial, desarrolladores de aplicaciones de IA, investigadores de IA, construcción de fundamentos deben formarse una base muy sólida. Por lo tanto, debemos invertir mucho”.
El código abierto, está de acuerdo, puede acelerar el progreso, pero “a menudo” no es un modelo de barrera, nos falta mucho como talento de infraestructura de IA muy profundo, talento de ingeniería de IA. “
Sugerencia de los fundadores
Para que los empresarios indios naveguen, Jain tiene un recordatorio fácil pero de emergencia: hacer los modelos donde sea que estén, no están donde están hoy.
“Estos modelos están mejorando a un ritmo significativo. Si se gasta a su morbón o la brecha en los modelos de hoy, puede evaporarse dentro de tres a seis meses”, advierte. Explica que el riesgo es un modelo de base barato y mejor al publicar una estrategia de inicio completa de la noche a la mañana. La apuesta por ineficiencia temporal es como la construcción de la arena.
Entonces, ¿dónde debe concentrarse el fundador? Trabajando “Lo que elija el dominio, el flujo de trabajo de su dominio se entiende muy bien y si puede diseñar una arquitectura o un flujo de acción que pueda explotar el flujo de trabajo del dominio, estará en buena forma”. Esto significa que el foso no es solo un modelo, sino la integración, evaluación y mantenimiento de la envoltura. En industrias como la atención médica, la educación o las finanzas, la profundidad del dominio se convierte en una diferencia real.
Escuche el episodio de podcast completo para obtener más información.
Timesstamps
00:00 – Introducción
03:00 – ¿Cómo estudió la IA tropezando en la investigación de IA en Jain College?
07:00 – Alexnett Moments y por qué es importante
14:30 – GPU, TPU y escala AI
16:20 – Momentos y masas de Chatzept aceptan
21:40 – Aprender el refuerzo largo: la mayor sorpresa
24:00 – AII en AI: datos, habilidades, alineación
26:49 – El profundo desafío de investigación de IA de la India
50:44 – Sugerencias fundador para el edificio con AI
Adid y Swelle Cannan