Home Ciencia y tecnologia El nuevo modelo de código abierto de Apple convierte fotos 2D en...

El nuevo modelo de código abierto de Apple convierte fotos 2D en vistas 3D

55
0
El nuevo modelo de código abierto de Apple convierte fotos 2D en vistas 3D

El modelo, llamado SHARP, puede reconstruir una escena 3D fotorrealista a partir de una sola imagen en menos de un segundo. A continuación se muestran algunos ejemplos.

SHARP es simplemente increíble

Apple publicó un estudio titulado Sharp Monocular View Synthesis in Less Than a Second que detalla cómo entrenó un modelo para reconstruir una escena 3D a partir de una única imagen 2D manteniendo las distancias y la escala consistentes en condiciones del mundo real.

Así es como los investigadores de Apple presentan el estudio:

Presentamos SHARP, un enfoque para sintetizar una vista fotorrealista a partir de una sola imagen. Dada una sola foto, SHARP realiza una regresión de los parámetros en una representación gaussiana 3D de la escena renderizada. Esto se hace en menos de un segundo en una GPU estándar utilizando una única alimentación a través de una red neuronal. La representación gaussiana 3D producida por SHARP se puede renderizar en tiempo real, proporcionando imágenes fotorrealistas de alta resolución para vistas de primer plano. La representación es métrica, con escala absoluta, soportando movimientos de cámara métricos. Los resultados experimentales muestran que SHARP proporciona una generalización nula sólida entre conjuntos de datos. Establece un nuevo estado del arte en múltiples conjuntos de datos, reduciendo LPIPS entre un 25% y un 34% y DISTS entre un 21% y un 43% en comparación con el mejor modelo anterior, al tiempo que reduce el tiempo de síntesis en tres órdenes de magnitud.

En resumen, el modelo proporciona una representación 3D de la escena que se puede representar desde puntos de vista cercanos.

Un gaussiano 3D es básicamente una pequeña y difusa masa de color y luz ubicada en el espacio. Cuando se combinan millones de estos puntos, se puede recrear una escena 3D que parece precisa desde ese punto de vista particular.

Para crear este tipo de representación 3D, la mayoría de los enfoques de pulverización gaussiana requieren decenas o incluso cientos de imágenes de la misma escena capturadas desde diferentes puntos de vista. El modelo SHARP de Apple, por el contrario, es capaz de predecir una representación 3D completa de una escena gaussiana a partir de una sola fotografía en una única red neuronal de retroalimentación.

Para lograr esto, Apple entrenó a SHARP con grandes cantidades de datos sintéticos y reales, lo que le permitió aprender patrones comunes de profundidad y geometría en múltiples escenas.

Como resultado, cuando se le presenta una nueva fotografía, el modelo estima la profundidad, la refina usando lo que ha aprendido y luego predice la posición y apariencia de millones de gaussianos 3D en una sola pasada.

Esto permite a SHARP reconstruir una escena 3D creíble sin requerir múltiples imágenes ni una optimización lenta para cada escena.

Sin embargo, existe una compensación. SHARP representa con precisión puntos de vista cercanos en lugar de sintetizar partes completamente invisibles de la escena. Esto significa que los usuarios no pueden alejarse demasiado del punto de vista desde donde se tomó la foto, ya que el modelo no sintetiza completamente las partes invisibles de la escena.

Así es como Apple mantiene el modelo lo suficientemente rápido como para generar el resultado en menos de un segundo, además de lo suficientemente estable como para crear un resultado más creíble. Aquí hay una comparación entre SHARP y Gen3C, que es uno de los métodos anteriores más potentes:

Quizás más interesante que confiar en la palabra de Apple es intentarlo usted mismo. Con ese fin, Apple ha puesto a SHARP a disposición en GitHub y los usuarios comparten sus propios resultados con sus pruebas.

Aquí hay algunas publicaciones que X usuarios han compartido en los últimos días:

Habrás notado que la última publicación es en realidad un video. Esto va más allá del alcance original de Apple para SHARP y muestra otras formas en que este modelo, o al menos su enfoque básico, podría ampliarse en trabajos futuros.

Si decide probar SHARP, comparta sus resultados con nosotros en los comentarios a continuación.

Ofertas en accesorios en Amazon

Agregue 9to5Mac como fuente preferida en Google
Agregue 9to5Mac como fuente preferida en Google

FTC: utilizamos enlaces de afiliados automáticos que generan ingresos. más.



Enlace de origen

LEAVE A REPLY

Please enter your comment!
Please enter your name here