La empresa de inteligencia artificial de Elon Musk, xAI, está progresando en la implementación de entradas multimodales en su chatbot Grok, según documentos públicos para desarrolladores. Esta mejora permitirá a los usuarios cargar imágenes en Grok y recibir respuestas en formato de texto.

El anuncio inicial se realizó en una entrada de blog el mes pasado por parte de xAI, donde se mencionaba que Grok-1.5V ofrecería “modelos multimodales en varios dominios”. Los últimos documentos para desarrolladores indican avances en la entrega de un nuevo modelo.

Los desarrolladores pueden aprovechar un script de Python de ejemplo en los documentos, el cual muestra cómo utilizar la biblioteca del kit de desarrollo de software de xAI para generar respuestas basadas en texto e imágenes. Este script permite la lectura de archivos de imagen, configura un texto de consulta y utiliza el SDK de xAI para generar una respuesta.

Esta actualización representa un gran avance para Grok, lanzado por xAI en noviembre de 2023 y disponible para usuarios que cuentan con la suscripción X Premium Plus. La versión más reciente, Grok 1.5 en marzo, incluyó mejoras en las capacidades de razonamiento.

El modelo está entrenado con datos de texto de fuentes públicas hasta el tercer trimestre de 2023 y conjuntos de datos revisados por humanos, según una publicación de blog de X. Aunque Grok-1 no fue entrenado en datos de X, tiene conocimiento en tiempo real del mundo, incluyendo publicaciones en X.

xAI, fundada por Elon Musk en marzo de 2023, es una compañía relativamente nueva en el campo de la IA y compite con rivales como el ChatGPT de OpenAI. Sin embargo, su modelo Grok 1.5 está cerrando la brecha con GPT-4 en diversos benchmarks, abarcando desde problemas de competición escolar hasta secundaria.

Los chatbots conversacionales multimodales parecen ser la próxima frontera para la IA, con múltiples avances anunciados en eventos como Google I/O y el lanzamiento de GPT-4o por parte de OpenAI. La carencia de capacidades multimodales había dejado a Grok rezagado, hasta ahora.

Leave a Reply

Your email address will not be published. Required fields are marked *

You May Also Like

Críticas a Apple por su nueva tasa del 27% en la App Store

Desarrolladores y Usuarios en Descontento Los cambios recientes en la App Store…

UE implementa nuevas regulaciones para abordar el problema de moda falsificada en Shein

Shein, una de las principales plataformas de compras en línea, se enfrenta…

Galaxy Z Flip 6 Edición Olímpica de Samsung

Para los Juegos Olímpicos y Paralímpicos de París 2024, Samsung lanzó una…

Cambia tu cena, cambia tu vida: cómo ajustar el horario nocturno puede impactar profundamente tu salud

La forma en que alimentamos nuestro cuerpo ha sido durante mucho tiempo…

YouTube lanza la función de doblaje automático: un cambio revolucionario para la plataforma de videos

En un movimiento que promete transformar la manera en que los usuarios…

Samsung Galaxy Z Fold 7: Filtraciones revelan el nuevo diseño más delgado y elegante antes de su presentación oficial

El mundo de la tecnología móvil está a la expectativa mientras se…

Google lanza la app NotebookLM para Android e iPhone: una nueva experiencia móvil de inteligencia artificial centrada en el conocimiento

En un movimiento estratégico que consolida su visión de llevar la inteligencia…

Microsoft Word mejora su función de pegado predeterminada

Microsoft Word, una de las herramientas de procesamiento de texto más utilizadas…

Bill Gates Anuncia su Nuevo Libro de Memorias: “Código Fuente: Mis Comienzos”

Bill Gates revela detalles íntimos de su vida en su próximo libro…

Reddit se lanza al mercado bursátil y ofrece a sus usuarios más activos la oportunidad de invertir

Reddit está llevando a cabo una estrategia inusual al ofrecer a sus…