En marzo de 2024, OpenAI anunció la versión de prueba de su innovador servicio de clonación de voz, Voice Engine. Esta tecnología, capaz de replicar la voz de una persona con tan solo 15 segundos de grabación, ha despertado gran interés en diversos sectores, desde la atención al cliente hasta la terapia del habla. Sin embargo, un año después, la herramienta sigue sin una fecha de lanzamiento definitiva, lo que ha generado especulaciones sobre los motivos de su retraso y el futuro de la clonación de voz con inteligencia artificial (IA).

Retrasos y preocupaciones en torno a Voice Engine

La decisión de OpenAI de no lanzar aún Voice Engine a un público más amplio podría deberse a varias razones. Una de ellas es el temor al mal uso de la tecnología, especialmente en un contexto donde las voces clonadas pueden ser empleadas para fraudes y desinformación. Otro motivo podría ser la regulación emergente en torno a las tecnologías de IA, que podría afectar su despliegue comercial.

Históricamente, OpenAI ha sido criticada por priorizar el lanzamiento rápido de productos innovadores en detrimento de la seguridad. Sin embargo, en esta ocasión, la empresa parece estar adoptando un enfoque más cauteloso. En un comunicado a TechCrunch, un portavoz de la compañía aseguró que continúan evaluando la herramienta con un grupo limitado de socios de confianza. “Estamos aprendiendo cómo nuestros socios están utilizando la tecnología para mejorar la utilidad y seguridad del modelo”, afirmó el representante de OpenAI.

La tecnología detrás de Voice Engine

Voice Engine funciona mediante un modelo de IA que analiza y predice los sonidos más probables que haría un hablante al leer un texto. Además, tiene la capacidad de imitar acentos y estilos de habla, lo que la hace una herramienta poderosa para aplicaciones como la accesibilidad, los asistentes virtuales y la creación de contenido multimedia.

El sistema se basa en la tecnología que impulsa las voces del modo de voz de ChatGPT y la API de conversión de texto a voz de OpenAI. Sin embargo, su lanzamiento ha estado marcado por retrasos desde su fase inicial de desarrollo. Según documentos filtrados, la compañía planeaba abrir el acceso a Voice Engine a un grupo selecto de desarrolladores en marzo de 2024, con tarifas establecidas en $15 por millón de caracteres para voces estándar y $30 para voces en calidad HD.

A última hora, OpenAI decidió posponer el anuncio y restringir el acceso a un grupo aún más reducido de colaboradores. “Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades”, explicó la empresa en su blog.

Un desarrollo que viene de lejos

Voice Engine no es un proyecto reciente. OpenAI lleva desarrollándolo desde 2022 y, según la empresa, ha sido presentado a responsables políticos a nivel global para destacar tanto su potencial como sus riesgos. Actualmente, algunos socios selectos han podido probar la tecnología, como la startup Livox, que desarrolla dispositivos para mejorar la comunicación de personas con discapacidad. Aunque la empresa destacó la calidad de la herramienta, también señaló limitaciones, como la necesidad de conexión a internet.

“La calidad de la voz y la posibilidad de hablar en diferentes idiomas es única, especialmente para nuestros clientes con discapacidades”, comentó Carlos Pereira, CEO de Livox. Sin embargo, la empresa no ha recibido información sobre una posible fecha de lanzamiento ni sobre costos futuros del servicio.

Riesgos y medidas de seguridad

Uno de los principales desafíos de Voice Engine es garantizar su uso responsable. OpenAI ha implementado algunas medidas de seguridad, como la marca de agua en los audios generados para rastrear su origen y el requisito de obtener el consentimiento explícito del hablante original antes de utilizar la herramienta. Además, los desarrolladores deben informar claramente a sus audiencias que las voces son generadas por IA.

No obstante, la aplicación efectiva de estas políticas a gran escala sigue siendo un reto. La verificación de identidad y la creación de una lista de “voces prohibidas” para evitar la clonación de figuras prominentes son proyectos en desarrollo que aún no han sido implementados de manera definitiva.

El auge de las estafas con clonación de voz refuerza la necesidad de regulaciones más estrictas. En 2024, este tipo de fraude se convirtió en una de las prácticas ilícitas de mayor crecimiento, afectando la seguridad bancaria y la privacidad de los usuarios. La creación de deepfakes de celebridades y políticos ha exacerbado el problema, generando preocupaciones sobre la desinformación en redes sociales.

El incierto futuro de Voice Engine

A pesar del prolongado periodo de prueba, OpenAI aún no ha decidido si lanzará Voice Engine al público general. La compañía ha mencionado la posibilidad de mantener el servicio en una escala reducida, lo que podría indicar que las preocupaciones sobre seguridad y regulación pesan más que el potencial comercial de la herramienta.

Mientras tanto, la demanda de tecnologías de clonación de voz sigue creciendo. Empresas de diversos sectores exploran el uso de IA generativa para mejorar la atención al cliente, la accesibilidad y la producción de contenido. La decisión de OpenAI podría marcar un precedente clave en la regulación y desarrollo de este tipo de tecnologías.

Las próximas semanas podrían ser cruciales para determinar el destino de Voice Engine. Si OpenAI decide avanzar con su lanzamiento, deberá demostrar que cuenta con medidas de seguridad robustas para evitar abusos. Si, por el contrario, opta por mantener su acceso restringido, podría estar enviando una señal sobre los desafíos y riesgos que la clonación de voz con IA aún presenta.

You May Also Like

Google introduce características de IA Gemini en Gmail y aplicaciones de productividad

Google está implementando nuevas capacidades de IA a través de su plataforma…

Juez de Texas Bloquea Prohibición de Acuerdos de No Competencia de la FTC

Un juez federal en Dallas, Texas, ha bloqueado la implementación de la…

Actualización sobre la Interrupción de AT&T: Problemas de Conexión Solucionados

El 27 de agosto de 2024, AT&T experimentó un problema de software…

Ford se dirige a los ‘indecisos’ de los vehículos eléctricos con la oferta de un cargador y la instalación gratuitos

Las ventas de vehículos eléctricos están creciendo, pero muchas personas aún no…

Creadores de TikTok demandan contra ley de desinversión o prohibición

Ocho influyentes de TikTok presentan una demanda para detener una ley que…

Zotac Zone: La Nueva Consola Portátil con Innovación y Potencia

La temporada de consolas portátiles está en pleno apogeo, y el reciente…

Microsoft anuncia evento de inteligencia artificial para Windows y Surface en mayo

Microsoft ha confirmado la realización de un evento especial centrado en la…

Samsung Galaxy S24 Ultra 2024: Más Inteligente, Pantalla Plana y Nuevas Funciones de IA

Descubre las últimas innovaciones del Samsung Galaxy S24 Ultra para el 2024:…

Frustrado intento de financiar programa de subsidios de internet

La reactivación del Programa de Conectividad Asequible se ve comprometida tras quedarse…

Apple Refuerza la Seguridad de iMessage

Apple se encuentra en la vanguardia de la seguridad con el anuncio…