Microsoft acaba de presentar VASA-1, su Inteligencia Artificial que hace que una imagen hable, cante y se mueva

Ya es una cosa que ocurre prácticamente cada semana, y es que el desarrollo de la Inteligencia Artificial se está realizando tan rápido y a pasos tan agigantados que no dejan de surgir novedades en este sector. La última en anunciarse es la nueva IA de Microsoft llamada VASA-1, un sistema capaz de coger una sola imagen y hacerla que hable, cante o se mueva de forma expresiva y sobre todo, muy realista, a partir de un audio de referencia.

En internet nada es lo que parece, pero la llegada de la IA ha llevado a esta afirmación a nivel totalmente superior, porque ya no es una cosa que se parezca a la realidad, sino que hoy en día es cada vez más complicado detectar que ha sido generado y que no.

Y mientras esto tiene un lado peligroso, si nos centramos en lo positivo, este tipo de avances y nuevos inventos pueden mejorar la accesibilidad de las personas con dificultades de comunicación y ofrecer compañía o apoyo terapéutico a quienes lo necesiten.

Esta es la intención de Microsoft con VASA-1, ya que esta IA es capaz de generar caras hablantes con sonido realista y lo mejor de todo es que lo puede hacer en tiempo real. El sistema de funcionamiento de esta IA requiere una imagen de cara de una persona a la que se le añade un audio de voz para después de manera opcional puedas introducir otras señales para hacerlo más realista.

Microsoft ha puesto especial énfasis en lo realista y vivaz que quedan estos vídeos que tan solo necesitan una imagen de la cara de la persona para darle vida. Y ya no es solo cuestión de la sincronización del movimiento de los labios con el audio, sino que esta IA es capaz de captar otras emociones, expresiones faciales e incluso movimientos de cabeza para aplicarlos en el vídeo.

Pero y si esto no fuera suficiente para que parezca realista, VASA-1 también ofrece la posibilidad de añadir otras señales, como podría ser editar la posición de los ojos, o los movimientos de la boca (sonriendo o gritando) para hacerlo todavía más realista.

Esta IA no solo funciona con imágenes de personas reales, sino que puede generar estas caras parlantes a partir de dibujos o fotos artísticas, al mismo tiempo que no solo funciona con habla, sino que puedes hacer que estas imágenes canten.

Microsoft just dropped VASA-1.
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD

— Min Choi (@minchoi) April 18, 2024

Por desgracia, no vamos a tener la suerte de poder probar esta IA de primera mano, ya que como han explicado desde Microsoft, no tienen previsto publicar ninguna demostración en línea, API, producto o servicio relacionado con VASA-1.

Fuente de TenemosNoticias.com: www.eleconomista.es

Publicado el: 2024-04-18 04:28:30
En la sección: elEconomista tecnologia

Deja un comentario Cancelar la respuesta

Lo siento, debes estar conectado para publicar un comentario.