Principales puntos clave:
- La Visión Agéntica permite que Gemini analice imágenes en múltiples etapas, no solo en una observación inicial.
- El modelo puede ejecutar código para recortar, ampliar y anotar imágenes, reduciendo errores y suposiciones.
- Google afirma mejoras constantes de entre 5 % y 10 % en la calidad de los resultados visuales.
El Google anunció la llegada de la Visión Agéntica al Gemini 3 Flash, una nueva capacidad que cambia de forma significativa la manera en que los modelos de inteligencia artificial interpretan imágenes.
En lugar de un análisis único y estático, la IA pasa a investigar la imagen de forma activa, revisando detalles y validando información antes de responder.

De la observación única a la investigación visual
En los modelos tradicionales de visión por computadora, cualquier detalle que pase desapercibido, como un número pequeño o una señal distante, suele obligar a la IA a inferir la respuesta.
Con la Visión Agéntica, Gemini 3 Flash puede volver a examinar la imagen, enfocarse en regiones específicas y extraer información con mayor precisión.
Según Google, este enfoque marca un cambio importante frente a los modelos de última generación que procesan imágenes en una sola pasada.
Pensar, actuar y observar en un ciclo continuo
El funcionamiento de la Visión Agéntica se basa en un ciclo de tres fases. Primero, el modelo piensa y crea un plan a partir de la pregunta del usuario y la imagen inicial.
Luego actúa, generando y ejecutando código Python capaz de modificar la imagen, ya sea recortando, rotando o resaltando áreas clave. Finalmente, observa el resultado de esas acciones, incorpora la nueva imagen a su contexto y produce una respuesta más fundamentada.
Google señala que la simple habilitación de la ejecución de código ya ofrece mejoras notables en casi todos los benchmarks de visión.
Usos prácticos y disponibilidad
Entre los casos de uso destacados se encuentra la validación de planos arquitectónicos, donde la IA puede analizar zonas concretas de un proyecto y verificar su cumplimiento con normativas técnicas.
También se mencionan aplicaciones como la anotación visual de objetos y la resolución de problemas de matemática visual, en los que los cálculos se trasladan a un entorno Python determinista para mayor exactitud.
La Visión Agéntica ya está disponible a través de la API de Gemini en Google AI Studio y en Vertex AI. Google adelantó que trabaja en futuras mejoras para automatizar aún más estas capacidades e integrar nuevas herramientas como la búsqueda web y la búsqueda inversa de imágenes.