En marzo de 2024, OpenAI anunció la versión de prueba de su innovador servicio de clonación de voz, Voice Engine. Esta tecnología, capaz de replicar la voz de una persona con tan solo 15 segundos de grabación, ha despertado gran interés en diversos sectores, desde la atención al cliente hasta la terapia del habla. Sin embargo, un año después, la herramienta sigue sin una fecha de lanzamiento definitiva, lo que ha generado especulaciones sobre los motivos de su retraso y el futuro de la clonación de voz con inteligencia artificial (IA).

Retrasos y preocupaciones en torno a Voice Engine

La decisión de OpenAI de no lanzar aún Voice Engine a un público más amplio podría deberse a varias razones. Una de ellas es el temor al mal uso de la tecnología, especialmente en un contexto donde las voces clonadas pueden ser empleadas para fraudes y desinformación. Otro motivo podría ser la regulación emergente en torno a las tecnologías de IA, que podría afectar su despliegue comercial.

Históricamente, OpenAI ha sido criticada por priorizar el lanzamiento rápido de productos innovadores en detrimento de la seguridad. Sin embargo, en esta ocasión, la empresa parece estar adoptando un enfoque más cauteloso. En un comunicado a TechCrunch, un portavoz de la compañía aseguró que continúan evaluando la herramienta con un grupo limitado de socios de confianza. “Estamos aprendiendo cómo nuestros socios están utilizando la tecnología para mejorar la utilidad y seguridad del modelo”, afirmó el representante de OpenAI.

La tecnología detrás de Voice Engine

Voice Engine funciona mediante un modelo de IA que analiza y predice los sonidos más probables que haría un hablante al leer un texto. Además, tiene la capacidad de imitar acentos y estilos de habla, lo que la hace una herramienta poderosa para aplicaciones como la accesibilidad, los asistentes virtuales y la creación de contenido multimedia.

El sistema se basa en la tecnología que impulsa las voces del modo de voz de ChatGPT y la API de conversión de texto a voz de OpenAI. Sin embargo, su lanzamiento ha estado marcado por retrasos desde su fase inicial de desarrollo. Según documentos filtrados, la compañía planeaba abrir el acceso a Voice Engine a un grupo selecto de desarrolladores en marzo de 2024, con tarifas establecidas en $15 por millón de caracteres para voces estándar y $30 para voces en calidad HD.

A última hora, OpenAI decidió posponer el anuncio y restringir el acceso a un grupo aún más reducido de colaboradores. “Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades”, explicó la empresa en su blog.

Un desarrollo que viene de lejos

Voice Engine no es un proyecto reciente. OpenAI lleva desarrollándolo desde 2022 y, según la empresa, ha sido presentado a responsables políticos a nivel global para destacar tanto su potencial como sus riesgos. Actualmente, algunos socios selectos han podido probar la tecnología, como la startup Livox, que desarrolla dispositivos para mejorar la comunicación de personas con discapacidad. Aunque la empresa destacó la calidad de la herramienta, también señaló limitaciones, como la necesidad de conexión a internet.

“La calidad de la voz y la posibilidad de hablar en diferentes idiomas es única, especialmente para nuestros clientes con discapacidades”, comentó Carlos Pereira, CEO de Livox. Sin embargo, la empresa no ha recibido información sobre una posible fecha de lanzamiento ni sobre costos futuros del servicio.

Riesgos y medidas de seguridad

Uno de los principales desafíos de Voice Engine es garantizar su uso responsable. OpenAI ha implementado algunas medidas de seguridad, como la marca de agua en los audios generados para rastrear su origen y el requisito de obtener el consentimiento explícito del hablante original antes de utilizar la herramienta. Además, los desarrolladores deben informar claramente a sus audiencias que las voces son generadas por IA.

No obstante, la aplicación efectiva de estas políticas a gran escala sigue siendo un reto. La verificación de identidad y la creación de una lista de “voces prohibidas” para evitar la clonación de figuras prominentes son proyectos en desarrollo que aún no han sido implementados de manera definitiva.

El auge de las estafas con clonación de voz refuerza la necesidad de regulaciones más estrictas. En 2024, este tipo de fraude se convirtió en una de las prácticas ilícitas de mayor crecimiento, afectando la seguridad bancaria y la privacidad de los usuarios. La creación de deepfakes de celebridades y políticos ha exacerbado el problema, generando preocupaciones sobre la desinformación en redes sociales.

El incierto futuro de Voice Engine

A pesar del prolongado periodo de prueba, OpenAI aún no ha decidido si lanzará Voice Engine al público general. La compañía ha mencionado la posibilidad de mantener el servicio en una escala reducida, lo que podría indicar que las preocupaciones sobre seguridad y regulación pesan más que el potencial comercial de la herramienta.

Mientras tanto, la demanda de tecnologías de clonación de voz sigue creciendo. Empresas de diversos sectores exploran el uso de IA generativa para mejorar la atención al cliente, la accesibilidad y la producción de contenido. La decisión de OpenAI podría marcar un precedente clave en la regulación y desarrollo de este tipo de tecnologías.

Las próximas semanas podrían ser cruciales para determinar el destino de Voice Engine. Si OpenAI decide avanzar con su lanzamiento, deberá demostrar que cuenta con medidas de seguridad robustas para evitar abusos. Si, por el contrario, opta por mantener su acceso restringido, podría estar enviando una señal sobre los desafíos y riesgos que la clonación de voz con IA aún presenta.

You May Also Like

Las críticas falsas en el tráiler de Megalopolis de Lionsgate: ¿Usó IA para generar reseñas negativas de críticos famosos?

Horas después de su lanzamiento, Lionsgate retiró un tráiler para Megalopolis que…

Nuevas reglas del DOT obligarán a las aerolíneas a reembolsar vuelos cancelados o retrasados

El Departamento de Transporte (DOT) ha anunciado cambios significativos que beneficiarán a…

Apple Music Permite Transferir Listas de Reproducción a YouTube Music

Los suscriptores de Apple Music ahora tienen la opción de transferir sus…

¿Qué significa la compra de Level Lock por Assa Abloy para el mercado de cerraduras inteligentes?

Las cerraduras inteligentes pueden ser aún un producto de nicho, pero Assa…

Nintendo Switch 2 proyecta ventas de 15 millones en su primer año fiscal pese a la alta demanda

Nintendo ha presentado su informe de resultados financieros más reciente, el cual…

ESPN, Fox y Warner Bros. se unen para lanzar una aplicación de transmisión deportiva masiva

ESPN, Fox y Warner Bros. se han asociado para lanzar una aplicación…

Google Implementa Solución para Errores de Dispositivos Chromecast no Confiables

Google ha comenzado a implementar una solución para los problemas de dispositivos…

Unihertz Titan 2: el regreso triunfal del teclado físico con 5G, Android 15 y doble pantallaUnihertz Titan 2: el regreso triunfal del teclado físico con 5G, Android 15 y doble pantalla

El nuevo Unihertz Titan 2 moderniza el legado BlackBerry con potencia, productividad…

Apple Lanza Cargador MagSafe Más Rápido para iPhone 16 con Carga Inalámbrica de 25W

Apple ha presentado un nuevo cargador MagSafe más potente durante su evento…

Wyze revela brecha de seguridad: 13,000 clientes accedieron brevemente a hogares ajenos

Wyze, conocida por sus cámaras de seguridad, enfrenta un serio problema de…