VALL-E de Microsoft es una herramienta de inteligencia artificial que puede hablar en su voz con 3 segundos de audio de muestra

El siguiente artículo te ayudará: VALL-E de Microsoft es una herramienta de inteligencia artificial que puede hablar en su voz con 3 segundos de audio de muestra

Microsoft ha estado trabajando en una nueva herramienta llamada VALL-E que puede clonar la voz de cualquier persona con una segunda muestra de audio de esa persona. La herramienta utiliza inteligencia artificial para crear una voz que suene natural.

La tecnología de texto a voz (TTS) existe desde hace algún tiempo, y la Inteligencia Artificial (IA) está cambiando su funcionamiento. La IA se está utilizando para mejorar las capacidades de texto a voz.

Supongo que esta tecnología VALL-E basada en inteligencia artificial complementará el Speech Studio existente de Microsoft, que tiene una docena de voces realistas similares a las de los humanos.

Microsoft está invirtiendo fuertemente en IA

VALL-E suena similar a DALL-E, un producto de inteligencia artificial de OpenAI lanzado en 2021, donde Microsoft ha invertido grandes cantidades de dinero. DALL-E ahora está en su segunda versión llamada DALL-E 2, lanzada en 2022, que crea imágenes a partir de indicaciones de texto. Las imágenes son bastante realistas.

Por ejemplo, cuando aparece el mensaje para crear la silla Avacado, esta es una de las imágenes que creó.

Open AI lanzó ChatGPT en 2022, que atrajo a más de 1 millón de usuarios en solo 5 días desde su lanzamiento. Actualmente está en versión Beta, por lo que es de uso gratuito.

Microsoft realizó una inversión de $ 1 mil millones en OpenAI en 2019. Y invertirá otros $ 10 mil millones en la empresa.

Así es como funciona VALL-E

Aunque aún no se ha lanzado al público en general, Microsoft ha mostrado cómo funciona VALL-E y ha puesto algunas muestras en una página de demostración en GitHub.

🔥 Recomendado:  6 excelentes maneras de preparar sus finanzas antes de renunciar a su trabajo

La página tiene muchas voces de segunda muestra de personas y texto de conversión de VALL-E en la misma voz. En la demostración, afirma que la IA también es capaz de detectar la acústica del sonido original. Si se trata de una muestra de voz telefónica, el texto puede convertirse en la misma voz de tipo telefónico.

También puede representar la emoción y ponerla en la voz creada usando Text-to-Speech.

El riesgo potencial de la clonación de voz

Como cualquier otra tecnología, esta también tiene sus pros y sus contras. Puedo ver herramientas y servicios construidos sobre estas tecnologías. Por ejemplo, tal vez tenga una muestra de la voz de su ser querido fallecido. Todavía puedes hablar con ellos y te responderán.

Pero también están los DeepFakes, que pueden ser una herramienta política realmente desagradable, como ya hemos visto en varios de ellos. Con herramientas como estas cada vez más accesibles, veremos más videos de este tipo.

VALL-E, no es el primer producto que clona una voz humana. Ya hay herramientas disponibles, pero la diferencia es la cantidad de datos de muestra que requieren.

Hay una herramienta llamada Discript, que también puede clonar tu voz. Ofrece una edición basada en texto para Podcasts, donde puede usar voz clonada para doblar fácilmente palabras entre su Podcast original.

Pero requiere que lo autorice para cerrar su voz y debe hablar durante unos minutos, luego cargará los datos en sus servidores, y el proceso lleva algún tiempo antes de que pueda usar la voz clonada.

Con VALL-E creando y clonando voz con muestras tan cortas como 3 segundos, las cosas serán un poco más aterradoras. Microsoft olfatea eso, y han incluido una declaración de ética en la página de demostración que dice:

🔥 Recomendado:  Cómo lanzar un nuevo negocio en 2023

Table of Contents