Google presenta la Visión Agéntica en Gemini 3 Flash y redefine el análisis de imágenes con IA

Rene Fraga
3 minutos de lectura

Principales puntos clave:

  • La Visión Agéntica permite que Gemini analice imágenes en múltiples etapas, no solo en una observación inicial.
  • El modelo puede ejecutar código para recortar, ampliar y anotar imágenes, reduciendo errores y suposiciones.
  • Google afirma mejoras constantes de entre 5 % y 10 % en la calidad de los resultados visuales.

El Google anunció la llegada de la Visión Agéntica al Gemini 3 Flash, una nueva capacidad que cambia de forma significativa la manera en que los modelos de inteligencia artificial interpretan imágenes.

En lugar de un análisis único y estático, la IA pasa a investigar la imagen de forma activa, revisando detalles y validando información antes de responder.

Imagen relacionada con Google presenta la Visión Agéntica en Gemini 3 Flash y redefine el análisis de imágenes con IA

De la observación única a la investigación visual

En los modelos tradicionales de visión por computadora, cualquier detalle que pase desapercibido, como un número pequeño o una señal distante, suele obligar a la IA a inferir la respuesta.

Con la Visión Agéntica, Gemini 3 Flash puede volver a examinar la imagen, enfocarse en regiones específicas y extraer información con mayor precisión.

Según Google, este enfoque marca un cambio importante frente a los modelos de última generación que procesan imágenes en una sola pasada.

Pensar, actuar y observar en un ciclo continuo

El funcionamiento de la Visión Agéntica se basa en un ciclo de tres fases. Primero, el modelo piensa y crea un plan a partir de la pregunta del usuario y la imagen inicial.

Luego actúa, generando y ejecutando código Python capaz de modificar la imagen, ya sea recortando, rotando o resaltando áreas clave. Finalmente, observa el resultado de esas acciones, incorpora la nueva imagen a su contexto y produce una respuesta más fundamentada.

Google señala que la simple habilitación de la ejecución de código ya ofrece mejoras notables en casi todos los benchmarks de visión.

Usos prácticos y disponibilidad

Entre los casos de uso destacados se encuentra la validación de planos arquitectónicos, donde la IA puede analizar zonas concretas de un proyecto y verificar su cumplimiento con normativas técnicas.

También se mencionan aplicaciones como la anotación visual de objetos y la resolución de problemas de matemática visual, en los que los cálculos se trasladan a un entorno Python determinista para mayor exactitud.

La Visión Agéntica ya está disponible a través de la API de Gemini en Google AI Studio y en Vertex AI. Google adelantó que trabaja en futuras mejoras para automatizar aún más estas capacidades e integrar nuevas herramientas como la búsqueda web y la búsqueda inversa de imágenes.

Seguir:
Renê Fraga es fundador de Google Discovery y editor en jefe de Eurisko, un ecosistema editorial independiente dedicado a la tecnología, la ciencia y la innovación. Profesional del marketing digital, con posgrado por la ESPM, sigue de cerca a Google desde la década de 2000 y escribe desde hace más de 20 años sobre tecnología, productos digitales e inteligencia artificial. Fundó Google Discovery en 2006, convirtiéndolo en uno de los principales sitios especializados en Google en Brasil, y fue columnista de TechTudo (Globo.com).
No hay comentarios