Home Ciencia y tecnologia YouTube me dijo cómo su IA podía hablar tus labios de forma...

YouTube me dijo cómo su IA podía hablar tus labios de forma natural en un idioma extranjero

37
0
YouTube me dijo cómo su IA podía hablar tus labios de forma natural en un idioma extranjero

La industria de contenidos de vídeo se encuentra actualmente en un punto de reflexión que será una breve descripción. Por un lado, estamos potenciando el potencial creativo de los fabricantes de contenidos de IA, pero al otro lado del mar, las operaciones de IA y la desinformación son problemas de la información crónica. Sin embargo, no se puede ignorar el potencial perfecto de la IA.

La gente en YouTube lo está usando bien centrándose en la accesibilidad y la realidad. Entonces, ¿qué sigue? El hablante no lo dice en el video, ni siquiera para quitar los labios en un idioma. Basado en la función de doblaje automático lanzada el año pasado, el equipo ahora tiene la nueva función de sincronización de labios impulsada por IA.

El audio traducido automáticamente ha mejorado drásticamente en los últimos trimestres y ahora parece casi natural. Las resúmenes de audio en Google NotebookLM son un gran ejemplo. Sin embargo, cuando llegan los videos, se vuelven planos porque el movimiento de los labios no es solo lo que el hablante dice en la versión traducida del guión.

https://www.youtube.com/watch?v=8w3Noe2UXAG

Es bastante basura y desagradable. La función de sincronización de labios impulsada por IA quiere superar esa separación audiovisual. Y por las muestras que he visto hasta ahora se sienten anormalmente naturales. Me senté con el líder de producto de YouTube, autodabbing, cuota de inteligencia, cómo se desarrolló el lip wash, para comprender su efecto y el camino adelante.

Excavación

En menos de un año después de su introducción, la función de doblaje automático de YouTube se ha utilizado para doblar más de 60 millones de vídeos en 20 idiomas. Sin embargo, preservar una melodía natural con todos los breves de la conversación y luego es un desafío completamente nuevo igualar los labios realistas.

A nivel superficial, Kothachi me dice que el sistema de sincronización de labios “cambia los píxeles de la pantalla para que coincidan con el discurso traducido”. Se trata de una pila de tecnología personalizada, me dice el ejecutivo de Google, y agrega que necesitan desarrollar una comprensión 3D del mundo, el tamaño de los labios, los dientes, la postura y la cara.

Ahora la tecnología es adecuada para Full HD (1080), pero hasta ahora no se ha sintonizado el video 4K. “Sin embargo, normalmente debería funcionar con la resolución del vídeo que subes”, mencionó. En lo que respecta al soporte de idiomas, la función de sincronización de labios impulsada por IA de YouTube admite inglés, español, alemán, portugués y francés.

Este es un gran grupo restringido, pero Kothachchi me dijo que el equipo está escalando y que la sincronización labial finalmente puede operar. La función de doblaje automático (que actualmente está disponible en más de 20 idiomas) admitirá los mismos idiomas. A modo de comparación, la función AI-Jalani Lip Sync de Meta para Facebook e Instagram solo admite inglés, español, hindi y portugués.

Ahora bien, la sincronización de labios impulsada por IA no es una idea totalmente ajena. Adobe ya proporciona una función de sincronización automática de labios. Luego está una opción de terceros como Heisen, que dice ser gratuita. Pero cuando se trata de YouTube, estamos hablando de un sistema integrado a gran escala en una plataforma donde se suben 20 millones de vídeos cada día.

Pez Babel AI para tu cara

Entonces, ¿cuál es el próximo paso en términos de disponibilidad? Kotahchi me dijo: “No estamos preparados para dar una declaración amplia sobre cómo lo haremos en términos generales, pero no queremos ponerlo a disposición de más creadores y comprender las limitaciones y la calidad”, me dijo Kotahchi. Y pone en cuestión nuestros importantes gastos.

Cuando lo busqué, un ejecutivo de YouTube me dijo que no podían predecir las tarifas involucradas, si ese fuera el caso. Esto explica aún más por qué el mercado sigue siendo parte de un proyecto piloto en un pequeño grupo de examinadores confiables para comprender el mercado y comprender los costos de cálculo. Para conmemorar, se trata de una implementación compleja de IA basada en una visión.

Entonces, al igual que los videos expuestos a la IA, donde puedes crear algunos clips, debes pagar por una mayor resolución o esfuerzo, YouTube debe tener en cuenta los gastos de computadora y decidir sobre el lanzamiento. Pero desde el punto de vista de un creador, si busco algo más extendido, probablemente pagaré tarifas de suscripción.

Dilema de la IA

Desde que las imágenes de IA comenzaron a inundar Internet, el debate sobre la verdad y la manifestación justa se ha acalorado. “¿Qué es siquiera real?” Los usuarios de las redes sociales están haciendo esta pregunta con más estímulos inmediatamente después de iniciar las ventanas emergentes producidas por la aplicación Sora de Openai.

Estos vídeos tienen una marca de agua visible, pero ya existe un equipo gratuito y de pago que eliminará la etiqueta Sora de los clips expuestos a la IA. O cualquier otro generador de contenidos de IA, para este tema. Google, uno de los mayores desarrolladores y defensores de la IA, lo sabe muy bien.

La compañía fue uno de los primeros líderes en la carrera de huellas dactilares de IA con su sistema de síntesis y también lanzó un equipo detector sintético a principios de este año para ayudar a los usuarios a verificar la fuente del producto multimedia.

Los vídeos de YouTube que dependen de la función de sincronización de labios impulsada por IA de Google se verán con más atención. Kotahachchi me dijo: “Tendremos una manifestación adecuada de que tanto el audio como el video han sido creados o modificados sintéticamente en este video”. “Los materiales de vídeo también obtienen la huella dactilar”.

La versión de texto aparecerá en el cuadro de detalles debajo del título de los videos de YouTube, tal como aparecen en los videos en los que utilizaron el sistema de doblaje automático. Pero, ¿cómo van a tratar las otras plataformas los videos de YouTube con IA y signos de labios si un creador publica en Instagram o el ticket?

¿Estarán de moda los algoritmos?

Tickets anunció recientemente que etiquetaría los videos como “hechos o editados” usando herramientas de inteligencia artificial y también daría una huella digital para que los usuarios pudieran verificar sus fuentes usando el equipo de verificación C2 PA. Hay un sistema similar en el metalugar. Entonces, ¿cuál es el destino de los vídeos editados i publicados en otras plataformas de vídeos sociales?

¿Se reducirán algorítmicamente o evitarán que aparezcan en ciertos feeds? La situación es algo complicada e inesperada. “Esto es algo que estamos observando con atención, pero es un poco pronto porque las plataformas han hecho declaraciones, pero no vimos cómo se implementaron”, me dijo. “Normalmente traducimos traducciones, pero no contenidos nuevos”.

Utilicé el vídeo de los creadores, traduje el audio y los empujé desde otro canal o plataforma sin su debido consentimiento con malos actores. El doblaje automático y la sincronización labial con IA técnicamente hacen que ese trabajo deshonesto sea más fácil de implementar, pero probablemente no se convertirá en un caos total.

Kothachchi me dijo: “Si su comparación se utiliza en cualquier otro lugar de la plataforma, puede informarnos al respecto y decirnos que la tomemos”, me dijo Kotahachchi. El doblaje automático, el audio expresivo y los videos firmados con los labios serán interesantes para ver cómo YouTube experimenta la experiencia de manera más diversa. A primera vista, parece una victoria.

No puedo esperar a verme hablando en español, aunque dejé mi género Duolingo hace unos años.






Enlace de origen