Meta Presenta Voicebox: Una Revolucionaria Herramienta de IA Para Generación de Voz

La aparentemente poderosa nueva herramienta de inteligencia artificial (IA) de Meta aún no será lanzada debido a los "riesgos potenciales de mal uso".

Por Jason Nelson

Jun 17, 2023

5 min lectura

CEO de Meta, Mark Zuckerberg. Imagen: Shutterstock

Add on Google

En Resumen

Meta anuncia Voicebox, una herramienta de inteligencia artificial capaz de generar diálogos hablados con diversos casos de uso potenciales.
Voicebox puede producir audio en seis idiomas y crear discursos creíbles a partir de clips de audio y texto de entrada.
Meta no tiene planes de lanzar Voicebox al público debido a los riesgos asociados con la tecnología de generación de voz.

Meta continuó su impulso en el cada vez más concurrido campo de la inteligencia artificial (IA) el viernes, anunciando la creación de una herramienta llamada Voicebox, para generar diálogos hablados con una variedad de casos de uso potenciales, pero también es propensa a un uso indebido, como admite Meta, por lo que el gigante de las redes sociales aún no está lanzando Voicebox al público.

A diferencia de las plataformas anteriores de generación de voz, Meta dice que Voicebox puede realizar tareas de generación de voz para las que no fue específicamente entrenado. Con la entrada de texto y un breve clip de audio para el contexto, la herramienta de inteligencia artificial puede crear un fragmento potencialmente creíble de un nuevo discurso que suena como la persona que aparece en el clip de origen.

"Antes de Voicebox, la inteligencia artificial generativa para el habla requería un entrenamiento específico para cada tarea utilizando datos de entrenamiento cuidadosamente preparados", dijo Meta AI. "Voicebox utiliza un nuevo enfoque para aprender solo a partir de audio sin procesar y una transcripción acompañante".

Introducing Voicebox, a new breakthrough generative speech system based on Flow Matching, a new method proposed by Meta AI. It can synthesize speech across six languages, perform noise removal, edit content, transfer audio style & more.

More details on this work & examples ⬇️

— Meta AI (@MetaAI) June 16, 2023

La IA generativa es un tipo de programa capaz de generar texto, imágenes u otros medios en respuesta a las solicitudes del usuario. Meta AI dijo que Voicebox puede producir audio en seis idiomas, incluyendo inglés, francés, alemán, español, polaco y portugués, y puede hacerlo de manera más cercana a cómo las personas hablan naturalmente en el mundo real.

Meta sugiere que la herramienta se puede utilizar para mejorar las conversaciones entre idiomas utilizando herramientas tecnológicas, o para ofrecer diálogos de personajes de videojuegos con un sonido más natural. Pero Voicebox también parece ser una forma más rápida y económica de crear diálogos "deepfake" imitadores, haciendo que suene como si alguien (quizás una figura pública o celebridad) dijera algo que realmente no dijo.

Si bien puede ser un avance en el desarrollo de la IA, Meta AI también reconoció el potencial de mal uso, diciendo que la compañía ha desarrollado clasificadores que distinguen entre las creaciones de Voicebox y los humanos. Al igual que los filtros de spam, los clasificadores de IA son programas que clasifican los datos en diferentes grupos o clases, en este caso, humano o generado por IA.

Meta destacó la necesidad de transparencia en el desarrollo de la inteligencia artificial en su publicación de blog, diciendo que es crucial ser abiertos con la comunidad de investigación. Sin embargo, la compañía también dijo que no tiene planes de hacer que Voicebox esté disponible públicamente debido al potencial de aprovechar la tecnología de manera potencialmente negativa.

"Hay muchos casos de uso emocionantes para los modelos de habla generativa, pero debido a los riesgos potenciales de mal uso, no estamos haciendo que el modelo o el código de Voicebox estén disponibles públicamente en este momento", dijo un portavoz de Meta AI a Decrypt en un correo electrónico.

"Aunque creemos que es importante ser abiertos con la comunidad de IA y compartir nuestra investigación para avanzar en el estado del arte en IA", continuó el portavoz, "también es necesario encontrar el equilibrio adecuado entre la apertura y la responsabilidad".

En lugar de lanzar la herramienta en un estado funcional, Meta ha compartido muestras de audio y un artículo de investigación para ayudar a otros investigadores a comprender su potencial.

Emergen riesgos de la IA

Mientras que las herramientas de inteligencia artificial, específicamente los chatbots de IA, se han vuelto más comunes desde el lanzamiento del ChatGPT de OpenAI en noviembre pasado, los avances rápidos en inteligencia artificial han llevado a líderes mundiales a sonar las alarmas sobre el posible mal uso de la tecnología.

El lunes, el Secretario General de la ONU reiteró la necesidad de tomar en serio las advertencias sobre la IA generativa.

"Las campanas de alarma sobre la última forma de inteligencia artificial, la IA generativa, son ensordecedoras, y son más fuertes que los desarrolladores que las diseñaron", dijo el Secretario General de la ONU, António Guterres, en una conferencia de prensa. "Los científicos y expertos han llamado al mundo a actuar, declarando que la IA es una amenaza existencial para la humanidad al mismo nivel que el riesgo de una guerra nuclear."

Quizás por ahora, la IA no sea tan preocupante como la amenaza de una guerra nuclear global, esa posibilidad sigue siendo parte de la ciencia ficción y las películas de Hollywood. Un abuso más probable de la IA generativa proviene de estafas que apuntan a individuos utilizando imágenes y voces generadas por IA para engañar a las víctimas y sacarles dinero, o como dijo la ONU en un informe reciente, para alimentar el odio y la desinformación en línea.

Un deepfake es un tipo cada vez más común de contenido de video o audio creado con inteligencia artificial que representa eventos falsos, pero se hace de una manera que puede ser muy difícil de identificar como falso.

En abril, CNN informó que los estafadores utilizaron tecnología de inteligencia artificial para clonar la voz de la hija de 15 años de una mujer de Arizona, afirmando haber secuestrado a la adolescente y exigiendo un rescate. Y en marzo, una imagen generada por inteligencia artificial del ex presidente Donald Trump siendo arrestado se volvió viral después de ser compartida en las redes sociales.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices