Google anunció el lanzamiento de Gemini Ultra, un avanzado modelo de inteligencia artificial (IA) con capacidad de comprensión nativamente multimodal.
A diferencia de otros modelos, como el GPT-4 with Vision de OpenAI, que solo entienden palabras e imágenes, Gemini Ultra fue entrenado en una amplia variedad de conjuntos de datos, incluyendo código, texto en diferentes idiomas, audio, imágenes y vídeos.
Según Eli Collins, vicepresidente de productos de DeepMind, Gemini Ultra puede comprender información «matizada» en texto, imágenes, audio y código, y responder preguntas sobre temas «complicados», especialmente matemáticas y física.
Además, Gemini Ultra puede transcribir el discurso y responder preguntas sobre audio y vídeos, yendo más allá de arte y fotos.
A diferencia del enfoque estándar de entrenar componentes separados para diferentes modalidades, Gemini Ultra fue diseñado para ser nativamente multimodal, permitiéndole manejar tareas de razonamiento complejas y conceptuales de manera más eficiente.
Esta capacidad de comprender y responder a información multimodal compleja marca un avance significativo en el campo de la IA y promete abrir nuevas posibilidades en áreas como traducción, análisis de texto y mucho más.