Google presentó Gemini 2.5, una versión mejorada de su modelo de inteligencia artificial capaz de interactuar con interfaces digitales como un humano. Gracias a su razonamiento visual y su ejecución iterativa, el sistema puede operar plataformas, completar formularios y organizar tareas de forma autónoma.
El modelo ya está disponible para desarrolladores en vista previa pública a través de la API de Gemini en Google AI Studio y Vertex AI.

Un modelo que actúa y razona como un usuario humano
A diferencia de los sistemas tradicionales, que dependen de APIs estructuradas, Gemini 2.5 puede manipular interfaces gráficas directamente. Esto incluye escribir, hacer clic, desplazarse, usar menús desplegables o navegar entre páginas, incluso dentro de plataformas que requieren inicio de sesión.
- Completa y envía formularios online.
- Navega por sitios web o plataformas colaborativas.
- Clasifica, mueve y organiza elementos según instrucciones del usuario.
Por ejemplo, el sistema puede ordenar notas en un tablero de tareas digital siguiendo indicaciones precisas.
Cómo funciona el modelo Gemini 2.5
El modelo opera mediante la herramienta computer_use incluida en la API de Gemini. Funciona en un ciclo iterativo: el usuario envía una solicitud junto con una captura de pantalla y el historial de acciones recientes. Gemini analiza esos datos, genera una respuesta y ejecuta una acción (como hacer clic o escribir).










