En Resumen
- OpenAI presentó Voice Engine, una tecnología de clonación de voz que puede replicar patrones de habla humanos con solo 15 segundos de audio.
- La empresa trabaja con Lifespan para ayudar a una paciente a comunicarse utilizando su propia voz generada por IA.
- OpenAI impuso restricciones a Voice Engine, incluyendo una lista de personas que no emulará y políticas de uso para evitar el abuso de la tecnología.
OpenAI, la compañía de inteligencia artificial detrás de la herramienta de inteligencia artificial generativa dominante ChatGPT, ha presentado una nueva tecnología de clonación de voz que llama "Voice Engine". Este modelo de audio puede replicar la voz, entonación y otros patrones de habla distintivamente humanos de una persona basándose en una muestra relativamente pequeña de audio original.
"Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas", dijo la compañía en su publicación de blog.
En comparación, la plataforma de voz de inteligencia artificial ElevenLabs cuenta con una herramienta de clonación de voz instantánea que requiere muestras de al menos un minuto. Para obtener los mejores resultados, se necesita casi 10 minutos de discurso continuo para su nivel de servicio profesional.
La empresa mostró diferentes ejemplos de lo que esta tecnología es capaz de hacer. En un ejemplo, la voz de una joven paciente que perdió gran parte de su capacidad para hablar debido a un tumor cerebral vascular fue clonada utilizando una grabación anterior que hizo para un proyecto escolar. Así es como suena hoy, según OpenAI.
OpenAI trabajó con Lifespan, una organización sin fines de lucro afiliada a la escuela de medicina de la Universidad Brown y los creadores de una herramienta llamada Livox, una aplicación de "comunicación alternativa" diseñada para personas con discapacidades. El equipo pudo trabajar con una grabación que la mujer hizo para una presentación escolar:
Voice Engine pudo proporcionar instantáneamente la capacidad de texto a voz que permitiría a la paciente comunicarse efectivamente con su propia voz:
OpenAI también mostró cómo HeyGen está utilizando su tecnología para generar traducciones con un sonido natural del habla cargada en un idioma específico a otro idioma.
La empresa dice que Voice Engine fue desarrollado por primera vez a finales de 2022 y ya se está utilizando para alimentar las voces preestablecidas disponibles en la API de texto a voz de OpenAI, así como la función de Voz y Lectura en Voz Alta de ChatGPT. Tras los últimos avances, la empresa dice que está siendo cautelosa antes de un lanzamiento más amplio.
"Esperamos iniciar un diálogo sobre la implementación responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades", escribió OpenAI, reconociendo la práctica ampliamente condenada de los "deepfakes". Las voces de celebridades, funcionarios gubernamentales y cada vez más ciudadanos privados están siendo impersonadas con fines nefastos, desde campañas políticas, anuncios falsos y actividades criminales directas. El presidente de EE. UU., Joe Biden, ha estado promoviendo más salvaguardias contra el uso malicioso de las suplantaciones de voz de IA.
De hecho, Meta reveló el verano pasado que su herramienta de voz de IA se estaba reteniendo específicamente debido a los “riesgos potenciales de mal uso”.
"De acuerdo con nuestro enfoque en la seguridad de la IA y nuestros compromisos voluntarios, hemos decidido presentar una vista previa, pero no lanzar ampliamente esta tecnología en este momento", explicó OpenAI.
Incluso antes de su lanzamiento público, OpenAI está imponiendo restricciones a Voice Engine, incluida una lista de personas destacadas que no emulará.
"Creemos que cualquier implementación amplia de la tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz que verifiquen que el hablante original está añadiendo conscientemente su voz al servicio y una lista de voces prohibidas que detecte y evite la creación de voces demasiado similares a figuras prominentes", escribió OpenAI.
Los socios que están probando Voice Engine actualmente han aceptado las políticas de uso de OpenAI, que prohíben la suplantación de otra persona u organización sin consentimiento. Además, la empresa requiere un consentimiento explícito e informado del hablante original, y no permiten a los desarrolladores crear formas para que los usuarios individuales clonen sus propias voces.
“Basándonos en estas conversaciones y en los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si y cómo desplegar esta tecnología a gran escala”, dice la publicación del blog.
Además de Voice Engine, Open AI está trabajando en múltiples proyectos en paralelo. El CEO Sam Altman reveló que la empresa está trabajando en lanzar GPT-5 este año. La empresa también presentó su herramienta generativa de video Sora. La empresa afirma que Sora será el generador de video más avanzado en el mercado, superando a modelos como Pika, Stable Video Diffusion y Runway ML.
Sora actualmente solo está disponible para los "red teamers" o "equipo rojo" reclutado por Open AI para asegurarse de que no pueda ser abusado.
Voice Engine ciertamente podría superar a otras herramientas de clonación de voz, incluidas las de Meta, ElevenLabs, WellSaid Labs y modelos de código abierto como RVC.
Open AI también está trabajando en un proyecto secreto llamado Q* del cual solo se ha filtrado su nombre. Sam Altman se ha negado a dar detalles, pero dijo que el equipo de investigación estaba muy enfocado en encontrar técnicas y enfoques que hagan que la inteligencia artificial razone mejor.
Editado por Ryan Ozawa.