En Resumen
- Resemble AI ha lanzado 'Resemble Enhance', una herramienta de código abierto que mejora la calidad del audio histórico mediante la aplicación de inteligencia artificial.
- La herramienta utiliza un enfoque de doble módulo que combina un eliminador de ruido avanzado y un mejorador de voz con IA para eliminar el ruido no deseado y enriquecer la calidad general del audio.
- Resemble Enhance utiliza el modelo de inteligencia artificial UNet como eliminador de sonidos indeseados para separar diferentes tipos de sonidos en una grabación.
Mientras muchas empresas de IA compiten por encontrar formas de utilizar la tecnología para mejorar o incluso crear videos, Resemble AI se enfoca en la fidelidad del audio.
La startup, que también ofrece un generador de voz de IA para que las empresas lo utilicen y creen locuciones realistas similares a las de los humanos, ha lanzado 'Resemble Enhance', una herramienta de código abierto diseñada para mejorar significativamente la calidad del audio histórico.
El nuevo servicio puede tomar una grabación distorsionada y borrosa de un discurso histórico perdido hace mucho tiempo y luego aplicar IA para que suene como si hubiera sido grabado o transmitido ayer.
La empresa canadiense dice que Resemble Enhance se distingue por su enfoque de doble módulo, que combina un sofisticado eliminador de ruido, que elimina los zumbidos y siseos estáticos de fondo, y un mejorador de voz con IA. Esta combinación no solo elimina el ruido no deseado, sino que también enriquece la calidad general del audio.
🎙️Today, we introduce Resemble Enhance🚀 — our latest AI-powered model! Enhance is an open-source speech enhancement model that transforms noisy audio into noteworthy speech!
Read the technical blog: https://t.co/RCp4xi4GqR👩💻#AIVOICE #podcasting #audioengineer pic.twitter.com/kfdGmKlSgB
— Resemble AI (@resembleai) December 14, 2023
Aunque existen otros productos de restauración de audio en el mercado, la combinación de técnicas de Resemble podría ser un diferenciador significativo.
¿Cómo funciona?
El denoiser (o eliminador de sonidos indeseados) de Resemble AI utiliza UNet, un modelo de IA que ayuda a separar los diferentes tipos de sonidos que aparecen en una grabación. Sobresale en filtrar el ruido no deseado de las pistas de audio, dejando solo el discurso como enfoque principal.
Una vez que UNet hace su trabajo, entra en acción el módulo de mejora, que amplía el ancho de banda de audio y corrige las distorsiones. Esta funcionalidad dual, según la compañía, asegura que la salida final no solo esté libre de ruido, sino que también posea la riqueza de las grabaciones contemporáneas.
Como herramienta de código abierto, Resemble Enhance es accesible sin costo alguno, una opción convincente en el tradicionalmente costoso mercado de servicios de restauración de medios.
Los principales beneficiarios de Resemble Enhance son las industrias que dependen de una calidad de audio clara, como la producción de podcasts, el entretenimiento y la educación. Además, esta herramienta ofrece una nueva oportunidad a las grabaciones históricas, brindando posiblemente una visión más clara del pasado.
El lanzamiento de la herramienta se produce cuando la demanda de contenido digital de alta calidad está en su punto más alto. Mientras tanto, la naturaleza de código abierto de Resemble Enhance lo posiciona como una fuerza potencialmente disruptiva en un mercado actualmente dominado por soluciones propietarias de alto costo.
La convergencia de la IA en la mejora de audio y video probablemente abrirá el camino para soluciones de restauración de medios más completas.
Al combinar esta herramienta con otros mejoradores de video que utilizan IA generativa u otros modelos para mejorar y ampliar imágenes y rostros, como GPEN o el conocido GFPGan, los usuarios ahora pueden lograr resultados profesionales con sus propias computadoras con una inversión mínima.
Para experimentar Resemble Enhance, los usuarios pueden visitar el sitio web oficial de Resemble AI o descargar sus modelos desde la página oficial de Github del proyecto.
Editado por Ryan Ozawa.