En marzo de 2024, OpenAI anunció la versión de prueba de su innovador servicio de clonación de voz, Voice Engine. Esta tecnología, capaz de replicar la voz de una persona con tan solo 15 segundos de grabación, ha despertado gran interés en diversos sectores, desde la atención al cliente hasta la terapia del habla. Sin embargo, un año después, la herramienta sigue sin una fecha de lanzamiento definitiva, lo que ha generado especulaciones sobre los motivos de su retraso y el futuro de la clonación de voz con inteligencia artificial (IA).

Retrasos y preocupaciones en torno a Voice Engine

La decisión de OpenAI de no lanzar aún Voice Engine a un público más amplio podría deberse a varias razones. Una de ellas es el temor al mal uso de la tecnología, especialmente en un contexto donde las voces clonadas pueden ser empleadas para fraudes y desinformación. Otro motivo podría ser la regulación emergente en torno a las tecnologías de IA, que podría afectar su despliegue comercial.

Históricamente, OpenAI ha sido criticada por priorizar el lanzamiento rápido de productos innovadores en detrimento de la seguridad. Sin embargo, en esta ocasión, la empresa parece estar adoptando un enfoque más cauteloso. En un comunicado a TechCrunch, un portavoz de la compañía aseguró que continúan evaluando la herramienta con un grupo limitado de socios de confianza. “Estamos aprendiendo cómo nuestros socios están utilizando la tecnología para mejorar la utilidad y seguridad del modelo”, afirmó el representante de OpenAI.

La tecnología detrás de Voice Engine

Voice Engine funciona mediante un modelo de IA que analiza y predice los sonidos más probables que haría un hablante al leer un texto. Además, tiene la capacidad de imitar acentos y estilos de habla, lo que la hace una herramienta poderosa para aplicaciones como la accesibilidad, los asistentes virtuales y la creación de contenido multimedia.

El sistema se basa en la tecnología que impulsa las voces del modo de voz de ChatGPT y la API de conversión de texto a voz de OpenAI. Sin embargo, su lanzamiento ha estado marcado por retrasos desde su fase inicial de desarrollo. Según documentos filtrados, la compañía planeaba abrir el acceso a Voice Engine a un grupo selecto de desarrolladores en marzo de 2024, con tarifas establecidas en $15 por millón de caracteres para voces estándar y $30 para voces en calidad HD.

A última hora, OpenAI decidió posponer el anuncio y restringir el acceso a un grupo aún más reducido de colaboradores. “Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades”, explicó la empresa en su blog.

Un desarrollo que viene de lejos

Voice Engine no es un proyecto reciente. OpenAI lleva desarrollándolo desde 2022 y, según la empresa, ha sido presentado a responsables políticos a nivel global para destacar tanto su potencial como sus riesgos. Actualmente, algunos socios selectos han podido probar la tecnología, como la startup Livox, que desarrolla dispositivos para mejorar la comunicación de personas con discapacidad. Aunque la empresa destacó la calidad de la herramienta, también señaló limitaciones, como la necesidad de conexión a internet.

“La calidad de la voz y la posibilidad de hablar en diferentes idiomas es única, especialmente para nuestros clientes con discapacidades”, comentó Carlos Pereira, CEO de Livox. Sin embargo, la empresa no ha recibido información sobre una posible fecha de lanzamiento ni sobre costos futuros del servicio.

Riesgos y medidas de seguridad

Uno de los principales desafíos de Voice Engine es garantizar su uso responsable. OpenAI ha implementado algunas medidas de seguridad, como la marca de agua en los audios generados para rastrear su origen y el requisito de obtener el consentimiento explícito del hablante original antes de utilizar la herramienta. Además, los desarrolladores deben informar claramente a sus audiencias que las voces son generadas por IA.

No obstante, la aplicación efectiva de estas políticas a gran escala sigue siendo un reto. La verificación de identidad y la creación de una lista de “voces prohibidas” para evitar la clonación de figuras prominentes son proyectos en desarrollo que aún no han sido implementados de manera definitiva.

El auge de las estafas con clonación de voz refuerza la necesidad de regulaciones más estrictas. En 2024, este tipo de fraude se convirtió en una de las prácticas ilícitas de mayor crecimiento, afectando la seguridad bancaria y la privacidad de los usuarios. La creación de deepfakes de celebridades y políticos ha exacerbado el problema, generando preocupaciones sobre la desinformación en redes sociales.

El incierto futuro de Voice Engine

A pesar del prolongado periodo de prueba, OpenAI aún no ha decidido si lanzará Voice Engine al público general. La compañía ha mencionado la posibilidad de mantener el servicio en una escala reducida, lo que podría indicar que las preocupaciones sobre seguridad y regulación pesan más que el potencial comercial de la herramienta.

Mientras tanto, la demanda de tecnologías de clonación de voz sigue creciendo. Empresas de diversos sectores exploran el uso de IA generativa para mejorar la atención al cliente, la accesibilidad y la producción de contenido. La decisión de OpenAI podría marcar un precedente clave en la regulación y desarrollo de este tipo de tecnologías.

Las próximas semanas podrían ser cruciales para determinar el destino de Voice Engine. Si OpenAI decide avanzar con su lanzamiento, deberá demostrar que cuenta con medidas de seguridad robustas para evitar abusos. Si, por el contrario, opta por mantener su acceso restringido, podría estar enviando una señal sobre los desafíos y riesgos que la clonación de voz con IA aún presenta.

You May Also Like

La empresa de “abogados robots” enfrenta una multa de $193,000 como parte de la ofensiva de la FTC contra la IA

DoNotPay, una empresa que afirmaba ofrecer el “primer abogado robot del mundo”,…

Roblox lanza traductor de chat AI en tiempo real para juegos multilingües

Roblox presenta innovadora herramienta que permite a los jugadores comunicarse en múltiples…

Críticas a las Nuevas Gafas de Realidad Aumentada de Snap: Un Exingeniero las Califica de “Obviamente Malas”

Las nuevas gafas de realidad aumentada de Snap han sido objeto de…

Chip de $60 Corrige Defecto Antiguo del Super Nintendo y Mejora la Calidad de Video

Nintendo vendió más de 49 millones de consolas Super Nintendo, pero no…

Cómo UTM SE Transforma tu iPad en una PC con Windows XP

Recientemente, Apple aprobó una nueva aplicación llamada UTM SE que permite a…

Científicos descubren un color nunca antes visto llamado ‘olo’ mediante tecnología láser de vanguardia

En un descubrimiento que ha generado asombro en la comunidad científica internacional,…

Tesla enfrenta un desplome de ventas en Europa durante abril de 2025

Las ventas de Tesla en Europa sufren una caída significativa durante el…

Fairly Trained Certificará Modelos de IA Respetuosos con Derechos de Autor

Descubre cómo Fairly Trained, un grupo sin fines de lucro, planea certificar…

Civilization VII: Un Mes Después del Lanzamiento – Opiniones de la Comunidad y Respuestas de los Desarrolladores

​El 11 de febrero de 2025, Firaxis Games lanzó “Sid Meier’s Civilization…

Revisión del Fiido Air: La bicicleta eléctrica urbana más ligera del mundo

¿Buscas una bicicleta eléctrica urbana que combine ligereza, potencia y estilo? Entonces,…