Gemini Ultra: La IA de Google que va más allá de palabras e imágenes

Rene Fraga
1 minutos de lectura

Google anunció el lanzamiento de Gemini Ultra, un avanzado modelo de inteligencia artificial (IA) con capacidad de comprensión nativamente multimodal.

A diferencia de otros modelos, como el GPT-4 with Vision de OpenAI, que solo entienden palabras e imágenes, Gemini Ultra fue entrenado en una amplia variedad de conjuntos de datos, incluyendo código, texto en diferentes idiomas, audio, imágenes y vídeos.

The capabilities of multimodal AI | Gemini Demo

Según Eli Collins, vicepresidente de productos de DeepMind, Gemini Ultra puede comprender información «matizada» en texto, imágenes, audio y código, y responder preguntas sobre temas «complicados», especialmente matemáticas y física.

Además, Gemini Ultra puede transcribir el discurso y responder preguntas sobre audio y vídeos, yendo más allá de arte y fotos.

A diferencia del enfoque estándar de entrenar componentes separados para diferentes modalidades, Gemini Ultra fue diseñado para ser nativamente multimodal, permitiéndole manejar tareas de razonamiento complejas y conceptuales de manera más eficiente.

Esta capacidad de comprender y responder a información multimodal compleja marca un avance significativo en el campo de la IA y promete abrir nuevas posibilidades en áreas como traducción, análisis de texto y mucho más.

Seguir:
Renê Fraga es fundador de Google Discovery y editor en jefe de Eurisko, un ecosistema editorial independiente dedicado a la tecnología, la ciencia y la innovación. Profesional del marketing digital, con posgrado por la ESPM, sigue de cerca a Google desde la década de 2000 y escribe desde hace más de 20 años sobre tecnología, productos digitales e inteligencia artificial. Fundó Google Discovery en 2006, convirtiéndolo en uno de los principales sitios especializados en Google en Brasil, y fue columnista de TechTudo (Globo.com).
No hay comentarios