Por Jason Nelson
4 min lectura
Este lunes, la empresa matriz de Facebook, Meta, lanzó la primera demostración de su nueva plataforma de generación de audio impulsada por IA, Audiobox. El gigante de las redes sociales dijo que Audiobox permite a los usuarios crear voces personalizadas y efectos de sonido utilizando entradas y comandos de voz.
Según Meta, Audiobox se basa en la tecnología desarrollada para su plataforma Voicebox presentada a principios de este año, superandola en calidad e incluye marca de agua automática para un "uso responsable".
"Audiobox, el sucesor de Voicebox, está avanzando aún más en la IA generativa para audio al unificar las capacidades de generación y edición para el habla, efectos de sonido (sonidos cortos y discretos como el ladrido de un perro, el claxon de un automóvil, un trueno, etc.) y paisajes sonoros, con una variedad de mecanismos de entrada para maximizar la controlabilidad para cada caso de uso", dijo el equipo de Audiobox de Meta.
El equipo explicó que Audiobox utiliza "solucionadores personalizados", lo que, según ellos, hace que el proceso de generación sea más de 25 veces más rápido que los modelos anteriores sin pérdida de rendimiento.
En junio, Meta anunció Voicebox, una herramienta de inteligencia artificial generativa que según Meta puede producir audio en seis idiomas, incluyendo inglés, francés, alemán, español, polaco y portugués, y puede hacerlo de manera más cercana a cómo las personas hablan naturalmente en el mundo real.
Con las preocupaciones sobre las deepfakes impulsadas por IA en aumento en ese momento, Meta dijo que no lanzaría Voicebox al público, reconociendo el potencial de mal uso. Para combatir el mal uso con Audiobox, Meta incluyó las marcas de agua.
"El reciente avance en calidad y fidelidad en el modelo generativo de audio ha permitido nuevas aplicaciones y casos de uso en el modelo. Sin embargo, al mismo tiempo, hay muchas personas... que plantean preocupaciones sobre los riesgos de un mal uso", dijo el equipo de Audiobox en su informe. "Por lo tanto, la capacidad de reconocer qué audio es generado o real es crucial para prevenir el mal uso de la tecnología y permitir que ciertas plataformas cumplan con su política".
"Tanto el modelo de Audiobox como nuestra demo interactiva cuentan con marca de agua automática en el audio, de modo que cualquier audio creado con Audiobox puede ser rastreado con precisión hasta su origen", dijo Meta. "Nuestro método de marca de agua incrusta una señal en el audio que es imperceptible para el oído humano, pero que puede ser detectada hasta el nivel de fotograma utilizando un modelo capaz de encontrar segmentos generados por IA en el audio".
"Diseñamos descripciones y ejemplos para mejorar la controlabilidad y unificar los paradigmas de generación de voz y sonido", dijo el equipo. "Permitimos controlar de forma independiente la transcripción, la voz y otros estilos de audio al generar voz".
Si bien puede ser más rápido, Meta reconoció que los modelos de IA generativos de audio como Audiobox están limitados por la cantidad de datos de entrenamiento, en este caso, sonidos, etiquetados y alimentados en el modelo de IA, enfatizando la importancia de etiquetar correctamente los datos.
Según los investigadores, es preferible etiquetar los sonidos de un chihuahua y un labrador ladrando como el tipo de perro específico en lugar de simplemente etiquetarlo como "perro ladrando". Meta dice que lo mismo se aplica a los patrones de habla como los acentos y dialectos regionales.
Un portavoz de Meta se negó a hacer más comentarios.
Al igual que Google, Microsoft y Amazon, Meta ha invertido mucho tiempo y dinero en inteligencia artificial. A principios de este mes, Meta anunció más de 20 nuevas características impulsadas por IA que llegarán a su conjunto de plataformas, incluyendo Facebook, Instagram y WhatsApp.
Como defensor del desarrollo responsable de la IA, Meta se asoció recientemente con IBM para lanzar la Alianza de IA, un consorcio de más de 50 empresas, universidades y grupos de reflexión centrados en la innovación y desarrollo de IA de código abierto.
"La Alianza de IA reúne a investigadores, desarrolladores y empresas para compartir herramientas y conocimientos que pueden ayudarnos a todos a progresar, ya sea que los modelos se compartan abiertamente o no", dijo el presidente de Asuntos Globales de Meta, Nick Clegg. "Esperamos trabajar con socios para avanzar en el estado del arte de la IA y ayudar a todos a construir de manera responsable".
Editado por Ryan Ozawa.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.