La empresa de inteligencia artificial de Elon Musk, xAI, está progresando en la implementación de entradas multimodales en su chatbot Grok, según documentos públicos para desarrolladores. Esta mejora permitirá a los usuarios cargar imágenes en Grok y recibir respuestas en formato de texto.

El anuncio inicial se realizó en una entrada de blog el mes pasado por parte de xAI, donde se mencionaba que Grok-1.5V ofrecería “modelos multimodales en varios dominios”. Los últimos documentos para desarrolladores indican avances en la entrega de un nuevo modelo.

Los desarrolladores pueden aprovechar un script de Python de ejemplo en los documentos, el cual muestra cómo utilizar la biblioteca del kit de desarrollo de software de xAI para generar respuestas basadas en texto e imágenes. Este script permite la lectura de archivos de imagen, configura un texto de consulta y utiliza el SDK de xAI para generar una respuesta.

Esta actualización representa un gran avance para Grok, lanzado por xAI en noviembre de 2023 y disponible para usuarios que cuentan con la suscripción X Premium Plus. La versión más reciente, Grok 1.5 en marzo, incluyó mejoras en las capacidades de razonamiento.

El modelo está entrenado con datos de texto de fuentes públicas hasta el tercer trimestre de 2023 y conjuntos de datos revisados por humanos, según una publicación de blog de X. Aunque Grok-1 no fue entrenado en datos de X, tiene conocimiento en tiempo real del mundo, incluyendo publicaciones en X.

xAI, fundada por Elon Musk en marzo de 2023, es una compañía relativamente nueva en el campo de la IA y compite con rivales como el ChatGPT de OpenAI. Sin embargo, su modelo Grok 1.5 está cerrando la brecha con GPT-4 en diversos benchmarks, abarcando desde problemas de competición escolar hasta secundaria.

Los chatbots conversacionales multimodales parecen ser la próxima frontera para la IA, con múltiples avances anunciados en eventos como Google I/O y el lanzamiento de GPT-4o por parte de OpenAI. La carencia de capacidades multimodales había dejado a Grok rezagado, hasta ahora.

Leave a Reply

Your email address will not be published. Required fields are marked *

You May Also Like

ZTE impulsa la inteligencia artificial en sus nuevos dispositivos: así son el nubia Z70S Ultra y la tablet nubia Pad Pro

En el competitivo mundo de la tecnología móvil, ZTE ha dado un…

Visor de realidad virtual 3 Body Problem: Una experiencia mágica

El visor de realidad virtual 3 Body Problem ha sido descrito como…

Cómo Netflix cambió su enfoque de competir con HBO a asociarse con la WWE

Netflix, uno de los gigantes del streaming, está redefiniendo su estrategia para…

El Regreso del Viaje Aéreo Supersónico: Boom Realiza Exitoso Primer Vuelo de Prueba

Después de años de anticipación, el demostrador XB-1 de la startup con…

Ford se dirige a los ‘indecisos’ de los vehículos eléctricos con la oferta de un cargador y la instalación gratuitos

Las ventas de vehículos eléctricos están creciendo, pero muchas personas aún no…

Apple redefine sus apps con iOS 26: estas son todas las funciones nuevas que llegan este otoño

Con el lanzamiento programado para este otoño, iOS 26 llega con una…

Microsoft y Midnight Blizzard: Impacto de la Violación de Seguridad y Medidas Tomadas

En marzo, Microsoft alertó al Departamento de Asuntos de Veteranos de EE.UU.…

Google Maps mejora la experiencia de navegación con funciones avanzadas para facilitar la conducción en ciudades

Google Maps, una de las aplicaciones de navegación más utilizadas en el…

Problemas de calidad en vehículos eléctricos: enfoque en el software

Descubre los desafíos que enfrentan los propietarios de vehículos eléctricos según el…

Reddit Restringe Protestas: Moderadores Necesitarán Solicitar Cambio de Subreddit de Público a Privado

Reddit está otorgando mucho más poder a su personal sobre las comunidades…