Google presenta la Visión Agéntica en Gemini 3 Flash y redefine el análisis de imágenes con IA

Última actualización: 27/01/2026 10:11 pm

3 minutos de lectura

Tópicos

De la observación única a la investigación visual
Pensar, actuar y observar en un ciclo continuo
Usos prácticos y disponibilidad

Principales puntos clave:

La Visión Agéntica permite que Gemini analice imágenes en múltiples etapas, no solo en una observación inicial.

El modelo puede ejecutar código para recortar, ampliar y anotar imágenes, reduciendo errores y suposiciones.

Google afirma mejoras constantes de entre 5 % y 10 % en la calidad de los resultados visuales.

El Google anunció la llegada de la Visión Agéntica al Gemini 3 Flash, una nueva capacidad que cambia de forma significativa la manera en que los modelos de inteligencia artificial interpretan imágenes.

En lugar de un análisis único y estático, la IA pasa a investigar la imagen de forma activa, revisando detalles y validando información antes de responder.

Imagen relacionada con Google presenta la Visión Agéntica en Gemini 3 Flash y redefine el análisis de imágenes con IA

De la observación única a la investigación visual

En los modelos tradicionales de visión por computadora, cualquier detalle que pase desapercibido, como un número pequeño o una señal distante, suele obligar a la IA a inferir la respuesta.

Con la Visión Agéntica, Gemini 3 Flash puede volver a examinar la imagen, enfocarse en regiones específicas y extraer información con mayor precisión.

Según Google, este enfoque marca un cambio importante frente a los modelos de última generación que procesan imágenes en una sola pasada.

Pensar, actuar y observar en un ciclo continuo

El funcionamiento de la Visión Agéntica se basa en un ciclo de tres fases. Primero, el modelo piensa y crea un plan a partir de la pregunta del usuario y la imagen inicial.

Luego actúa, generando y ejecutando código Python capaz de modificar la imagen, ya sea recortando, rotando o resaltando áreas clave. Finalmente, observa el resultado de esas acciones, incorpora la nueva imagen a su contexto y produce una respuesta más fundamentada.

Google señala que la simple habilitación de la ejecución de código ya ofrece mejoras notables en casi todos los benchmarks de visión.

Usos prácticos y disponibilidad

Entre los casos de uso destacados se encuentra la validación de planos arquitectónicos, donde la IA puede analizar zonas concretas de un proyecto y verificar su cumplimiento con normativas técnicas.

También se mencionan aplicaciones como la anotación visual de objetos y la resolución de problemas de matemática visual, en los que los cálculos se trasladan a un entorno Python determinista para mayor exactitud.

La Visión Agéntica ya está disponible a través de la API de Gemini en Google AI Studio y en Vertex AI. Google adelantó que trabaja en futuras mejoras para automatizar aún más estas capacidades e integrar nuevas herramientas como la búsqueda web y la búsqueda inversa de imágenes.

Google presenta la Visión Agéntica en Gemini 3 Flash y redefine el análisis de imágenes con IA

De la observación única a la investigación visual

Pensar, actuar y observar en un ciclo continuo

Usos prácticos y disponibilidad

Deja una respuesta Cancelar la respuesta

Nuevas publicaciones

Gemini 3.1 Pro impulsa las acciones de Alphabet y refuerza su estrategia millonaria en inteligencia artificial

La escasez de chips de memoria frena el avance de la IA, advierte el CEO de Google DeepMind

Google evalúa separar su división de TPUs y acelera ofensiva millonaria para desafiar a Nvidia en la carrera de la IA

El director ejecutivo de DeepMind afirma que el uso descuidado de la IA perjudica la capacidad de razonamiento

Snapseed de Google añade una cámara integrada con controles profesionales al iPhone

FragaNet Media