Voicebox, el nuevo modelo generativo de voz de Meta

(ESPECIAL)

EL UNIVERSAL.- 16 jun 2023 - 12:43

Meta ha anunciado un nuevo avance en Inteligencia Artificial. Se trata de Voicebox, un modelo generativo de voz el cual se basa en un nuevo método propuesto por Meta IA llamado Flow Matching.

De acuerdo con el comunicado de Meta, este modelo generativo de IA ayuda a la edición, samplig y estilización de audio. Además, en un futuro ayudará "a los creadores a editar fácilmente pistas de audio, permitir a las personas con discapacidad visual escuchar los mensajes escritos de sus amigos en sus voces y que las personas se comuniquen en cualquier idioma extranjero usando su propia voz", señaló la compañía de Mark Zuckerberg.

Si quieres conocer más sobre este nuevo modelo de Inteligencia Artificial de Meta, en Tech Bit te damos los detalles.

¿Cómo funcionará Voicebox?

Voicebox nace con el propósito de darle un nuevo enfoque a la generación de voz. Y es que muchos de los sintetizadores de voz que existen en la actualidad dan salidas de audio monótonas, algo que Meta está dispuesto a cambiar.

Con el uso del método de Flow Matching, el cual ha mejorado los modelos de difusión, Meta busca que Voicebox pueda "entrenarse con datos más diversos y una escala de datos mucho mayor", además de tener variaciones de voz que rompan con este esquema del habla monótono.

Al respecto, Meta explica en su comunicado que se capacitó a "Voicebox con más de 50 000 horas de voz grabada y transcripciones de audiolibros de dominio público en inglés, francés, español, alemán, polaco y portugués. Voicebox está entrenado para predecir un segmento de voz cuando se le da el habla circundante y la transcripción del segmento. Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto en las tareas de generación de voz, incluida la generación de partes en medio de una grabación de audio sin tener que volver a crear la entrada completa."

Es decir que nos encontramos con un modelo totalmente distinto a los sintetizadores de voz que ya conocemos y el cual brindará una experiencia de habla mucho más natural. Además, que en un futuro puede llegar a beneficiar a varios sectores de la sociedad.

Un modelo multitareas

El modelo inteligente de Voicebox le permitirá a los usuarios realizar varias tareas que facilitarán su comunicación con otras personas. A continuación, te enlistamos algunas de las que mencionó Meta:

Síntesis de contexto de texto a habla. En su comunicado, Meta señaló que "utilizando una muestra de audio de tan solo un par de segundos, Voicebox puede adaptar el estilo de audio y utilizarlo para la generación de texto a habla".

Edición de habla y reducción de ruido. Una de las tareas que te permitirá hacer Voicebox es mejorar el audio eliminando el ruido del exterior o sustituyendo palabras que el hablante pronunció de manera inadecuada, esto sin tener que volver a grabar de nuevo el discurso.

Transferencia de estilo entre idiomas. Como mencionamos anteriormente Voicebox tendrá la capacidad de producir el habla en seis idiomas diferentes, incluso si la muestra del habla y el texto no se encuentran en el mismo idioma.

Con ello, Meta da un paso importante en la brecha de comunicación entre diferentes países ya que en un futuro, las personas podrán comunicarse de forma natural con individuos que no hablen el mismo idioma.

Muestreo de habla diversa. Otras de las características importantes de Voicebox, es que este modelo también podrá generar un habla muy parecida a cómo se expresan las personas en el mundo real.

Por lo que ya no parecerá que hablamos con un robot, sino más bien con una persona más de nuestro círculo. Además, esto lo podrá hacer en los seis idiomas mencionados anteriormente.

Uso de Inteligencia Artificial con responsabilidad

El uso de la Inteligencia Artificial en los últimos tiempos ha generado polémica debido a la mala práctica que se le puede dar a los avances de esta rama y que pueden ocasionar daños potenciales.

Meta está consciente de ello, por esta razón en su comunicado dio a conocer que este modelo generativo de voz "puede distinguir entre voz auténtica y audio generado con Voicebox para mitigar riesgos futuros". Además, compartieron sus avances en un artículo para que la comunidad de investigadores pueda basarse en su trabajo para crear nuevas aproximaciones en un futuro.