Nuevo 'Motor de Voz' de OpenAI Necesita Solo 15 Segundos Para Clonar Voces

Todavía en pruebas cerradas, la herramienta puede devolverles la voz a las personas—OpenAI reconoce el potencial de abuso.

Por Jose Antonio Lanz

Apr 1, 2024

5 min lectura

Image created by Decrypt using AI

En Resumen

OpenAI presentó Voice Engine, una tecnología de clonación de voz que puede replicar patrones de habla humanos con solo 15 segundos de audio.
La empresa trabaja con Lifespan para ayudar a una paciente a comunicarse utilizando su propia voz generada por IA.
OpenAI impuso restricciones a Voice Engine, incluyendo una lista de personas que no emulará y políticas de uso para evitar el abuso de la tecnología.

OpenAI, la compañía de inteligencia artificial detrás de la herramienta de inteligencia artificial generativa dominante ChatGPT, ha presentado una nueva tecnología de clonación de voz que llama "Voice Engine". Este modelo de audio puede replicar la voz, entonación y otros patrones de habla distintivamente humanos de una persona basándose en una muestra relativamente pequeña de audio original.

"Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas", dijo la compañía en su publicación de blog.

En comparación, la plataforma de voz de inteligencia artificial ElevenLabs cuenta con una herramienta de clonación de voz instantánea que requiere muestras de al menos un minuto. Para obtener los mejores resultados, se necesita casi 10 minutos de discurso continuo para su nivel de servicio profesional.

La empresa mostró diferentes ejemplos de lo que esta tecnología es capaz de hacer. En un ejemplo, la voz de una joven paciente que perdió gran parte de su capacidad para hablar debido a un tumor cerebral vascular fue clonada utilizando una grabación anterior que hizo para un proyecto escolar. Así es como suena hoy, según OpenAI.

OpenAI trabajó con Lifespan, una organización sin fines de lucro afiliada a la escuela de medicina de la Universidad Brown y los creadores de una herramienta llamada Livox, una aplicación de "comunicación alternativa" diseñada para personas con discapacidades. El equipo pudo trabajar con una grabación que la mujer hizo para una presentación escolar:

Voice Engine pudo proporcionar instantáneamente la capacidad de texto a voz que permitiría a la paciente comunicarse efectivamente con su propia voz:

OpenAI también mostró cómo HeyGen está utilizando su tecnología para generar traducciones con un sonido natural del habla cargada en un idioma específico a otro idioma.

La empresa dice que Voice Engine fue desarrollado por primera vez a finales de 2022 y ya se está utilizando para alimentar las voces preestablecidas disponibles en la API de texto a voz de OpenAI, así como la función de Voz y Lectura en Voz Alta de ChatGPT. Tras los últimos avances, la empresa dice que está siendo cautelosa antes de un lanzamiento más amplio.

"Esperamos iniciar un diálogo sobre la implementación responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades", escribió OpenAI, reconociendo la práctica ampliamente condenada de los "deepfakes". Las voces de celebridades, funcionarios gubernamentales y cada vez más ciudadanos privados están siendo impersonadas con fines nefastos, desde campañas políticas, anuncios falsos y actividades criminales directas. El presidente de EE. UU., Joe Biden, ha estado promoviendo más salvaguardias contra el uso malicioso de las suplantaciones de voz de IA.

De hecho, Meta reveló el verano pasado que su herramienta de voz de IA se estaba reteniendo específicamente debido a los “riesgos potenciales de mal uso”.

"De acuerdo con nuestro enfoque en la seguridad de la IA y nuestros compromisos voluntarios, hemos decidido presentar una vista previa, pero no lanzar ampliamente esta tecnología en este momento", explicó OpenAI.

Incluso antes de su lanzamiento público, OpenAI está imponiendo restricciones a Voice Engine, incluida una lista de personas destacadas que no emulará.

"Creemos que cualquier implementación amplia de la tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz que verifiquen que el hablante original está añadiendo conscientemente su voz al servicio y una lista de voces prohibidas que detecte y evite la creación de voces demasiado similares a figuras prominentes", escribió OpenAI.

Los socios que están probando Voice Engine actualmente han aceptado las políticas de uso de OpenAI, que prohíben la suplantación de otra persona u organización sin consentimiento. Además, la empresa requiere un consentimiento explícito e informado del hablante original, y no permiten a los desarrolladores crear formas para que los usuarios individuales clonen sus propias voces.

“Basándonos en estas conversaciones y en los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si y cómo desplegar esta tecnología a gran escala”, dice la publicación del blog.

Además de Voice Engine, Open AI está trabajando en múltiples proyectos en paralelo. El CEO Sam Altman reveló que la empresa está trabajando en lanzar GPT-5 este año. La empresa también presentó su herramienta generativa de video Sora. La empresa afirma que Sora será el generador de video más avanzado en el mercado, superando a modelos como Pika, Stable Video Diffusion y Runway ML.

Sora actualmente solo está disponible para los "red teamers" o "equipo rojo" reclutado por Open AI para asegurarse de que no pueda ser abusado.

Voice Engine ciertamente podría superar a otras herramientas de clonación de voz, incluidas las de Meta, ElevenLabs, WellSaid Labs y modelos de código abierto como RVC.

Open AI también está trabajando en un proyecto secreto llamado Q* del cual solo se ha filtrado su nombre. Sam Altman se ha negado a dar detalles, pero dijo que el equipo de investigación estaba muy enfocado en encontrar técnicas y enfoques que hagan que la inteligencia artificial razone mejor.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Noticias recomendados

Herramienta China de Video de IA Kling 2.1 Añade Función de Audio, Pero ¿Vencerá a Veo 3 de Google?
La plataforma china de videos cortos Kuaishou ha añadido una función de generación de audio a Kling 2.1, su herramienta de creación de videos impulsada por inteligencia artificial, lo que permite a los usuarios producir clips con efectos de sonido sincronizados como pasos, lluvia y ruido ambiental. La función, que se lanzó silenciosamente la semana pasada, está disponible en el modo de imagen a video de Kling, donde los usuarios suben una imagen fija y la plataforma la anima tanto con movimiento...
ComentariosArtificial Intelligence
9 min lectura
Jose Antonio LanzJun 18, 2025
Create an account to save your articles.
'Padrino de la IA' Advierte: Máquinas Superinteligentes Podrían Eliminar a Los Humanos con Bioterrorismo
Geoffrey Hinton, conocido ampliamente como el "Padrino de la IA", emitió su advertencia más severa hasta ahora en una nueva entrevista, advirtiendo que la inteligencia artificial no solo representa una amenaza para los empleos, sino también un riesgo existencial para la humanidad en su conjunto mientras el mundo avanza hacia máquinas superinteligentes. Hablando en el podcast "Diary of a CEO", Hinton describió una visión sombría del futuro, sugiriendo que la IA podría eventualmente decidir que la...
Sin categorizar
4 min lectura
La Desregulación de Drones de Trump Aumenta Temores de Ataques Terroristas Domésticos
A principios de este mes, el presidente Donald Trump firmó un amplio conjunto de órdenes ejecutivas destinadas a desregular los drones comerciales, autos voladores y jets supersónicos, con la promesa de "restaurar la soberanía del espacio aéreo estadounidense". Pero mientras los cielos se abren a la innovación, los expertos en seguridad nacional están haciendo sonar las alarmas: la revolución de los drones ya está siendo militarizada. Desde zonas de guerra en Irán y Ucrania hasta ataques insurge...
NoticiasTecnología
5 min lectura
Jason NelsonJun 16, 2025
Create an account to save your articles.

Coin Prices