En un avance significativo en la robótica inteligente, presentamos Gemini Robotics On-Device, un modelo VLA (visión, lenguaje y acción) de última generación, optimizado para funcionar de manera eficiente directamente en dispositivos robóticos. Este desarrollo forma parte de la familia Gemini, que en marzo lanzó Gemini Robotics, el modelo más avanzado de razonamiento multimodal y comprensión del mundo real llevado al ámbito físico. Ahora, con Gemini Robotics On-Device, se amplían las capacidades para una dexteridad generalizada y rápida adaptación a tareas diversas, sin necesidad de conexión a internet.
Innovación en robótica con inteligencia artificial integrada
Gemini Robotics On-Device representa un paso crucial en la integración de inteligencia artificial en robots bi-brazo, ofreciendo un rendimiento robusto y versátil con bajos requerimientos computacionales. Al operar localmente en el robot, elimina la dependencia de redes de datos, lo que resulta vital para aplicaciones sensibles a la latencia y ambientes con conectividad intermitente o nula.
Este nuevo modelo está diseñado para realizar manipulaciones hábiles y complejas, siguiendo instrucciones en lenguaje natural y ejecutando tareas delicadas como abrir cremalleras o doblar prendas, todo ello con una rapidez y precisión sorprendentes directamente en el dispositivo.
Características principales de Gemini Robotics On-Device
-
Ejecución eficiente y local: Su arquitectura optimizada permite que el modelo funcione completamente en el robot, reduciendo el retraso en la respuesta y aumentando la confiabilidad en entornos difíciles.
-
Adaptación rápida a nuevas tareas: Gracias a un proceso de ajuste fino (fine-tuning), Gemini Robotics On-Device puede aprender nuevas funciones con tan solo 50 a 100 demostraciones, facilitando su aplicación en distintos escenarios.
-
Generalización avanzada: El modelo sobresale en la capacidad de generalizar conocimientos para manejar múltiples tareas con destreza, superando a otros modelos locales en escenarios complejos y fuera de distribución.
-
Interacción natural: Responde a instrucciones en lenguaje humano, facilitando la programación y el control directo de sus acciones.
SDK para desarrolladores: facilitando la innovación
Para acelerar la adopción y personalización, se ha lanzado un kit de desarrollo de software (SDK) que permite a los desarrolladores evaluar Gemini Robotics On-Device en sus propias tareas y entornos. El SDK incluye acceso a un simulador físico avanzado, MuJoCo, que permite probar el modelo en condiciones realistas antes de implementarlo en hardware.
Los desarrolladores interesados pueden acceder a este SDK inscribiéndose en un programa de testers de confianza, una iniciativa que busca construir una comunidad activa para mejorar y ampliar las aplicaciones de esta tecnología.
Resultados de rendimiento y comparación con otros modelos
Las pruebas realizadas muestran que Gemini Robotics On-Device mantiene un nivel elevado de rendimiento en generalización visual, semántica y conductual, destacando en tareas como manipulación de objetos, seguimiento de instrucciones y ejecución de procesos complejos. Su capacidad supera a modelos previos diseñados para funcionar localmente y se acerca a la versión principal de Gemini Robotics que opera con mayores recursos.
Un gráfico de evaluación comparativa indica que, en tareas fuera del conjunto de entrenamiento, Gemini Robotics On-Device tiene una mayor tasa de éxito, particularmente en escenarios con instrucciones multi-paso y manipulación precisa.
Flexibilidad y adaptación a diferentes robots y tareas
Aunque el modelo fue entrenado inicialmente para robots ALOHA, su diseño modular y adaptable le permite extenderse a otras plataformas robóticas. Por ejemplo, se ha adaptado exitosamente a robots bi-brazo Franka FR3 y al robot humanoide Apollo de Apptronik, demostrando habilidades para seguir instrucciones, manejar objetos inéditos y realizar tareas complejas como doblar prendas o ensamblar piezas industriales con alta precisión.
Esta capacidad de ajuste se confirma en estudios donde se muestra que con menos de 100 ejemplos, Gemini Robotics On-Device mejora notablemente su desempeño en siete tareas de manipulación de diversa dificultad, desde cerrar cajas hasta actividades más especializadas.
Impacto y aplicaciones potenciales
Gemini Robotics On-Device abre un abanico de posibilidades en robótica aplicada, especialmente en sectores que requieren respuestas rápidas y precisas sin depender de conexión continua a la nube. Industrias como la manufactura, logística, atención médica y hogares inteligentes pueden beneficiarse de esta tecnología que combina inteligencia artificial avanzada con operación autónoma.
El modelo permite un control más intuitivo y flexible, lo que facilita la integración de robots en entornos humanos variados, desde fábricas hasta domicilios, optimizando tareas repetitivas o complejas con una interfaz amigable basada en lenguaje natural.
Perspectivas para el futuro cercano
Con Gemini Robotics On-Device, la visión de robots autónomos y adaptables se acerca cada vez más a la realidad cotidiana. Su diseño orientado a la eficiencia y adaptabilidad marca un estándar para la próxima generación de robots inteligentes que no dependen de conexiones remotas para funcionar correctamente.
Además, la puesta a disposición del SDK impulsa la innovación en la comunidad de desarrolladores, quienes podrán crear nuevas aplicaciones y mejoras, adaptando el modelo a múltiples contextos y necesidades específicas