Google ha revelado la nueva familia de modelos de inteligencia artificial PaliGemma 2, que incorpora una funcionalidad intrigante y controvertida: la capacidad de «identificar» emociones humanas en imágenes.
Además, este modelo se destaca por ofrecer avances significativos en tareas visuales y lingüísticas.
¿Qué es PaliGemma 2?
Anunciado durante el Google I/O 2024 en mayo, PaliGemma 2 es la evolución del modelo PaliGemma, originalmente diseñado para casos de uso como subtitulado de imágenes y videos cortos, detección y segmentación de objetos, comprensión de texto en imágenes y respuestas visuales a preguntas.
La nueva versión amplía estas capacidades al ofrecer «long captioning», con la habilidad de generar subtítulos detallados y contextualmente relevantes para imágenes. Esto incluye descripciones que van más allá de la identificación de objetos, capturando acciones, emociones y narrativas presentes en las escenas.
El modelo está disponible en tamaños de 3B, 10B y 28B parámetros, con resoluciones de 224px, 448px y 896px, adaptándose a diferentes niveles de necesidades computacionales.
Avances en OCR y otras aplicaciones
Otra novedad es su precisión en reconocimiento óptico de caracteres (OCR) y la capacidad de comprender estructuras y contenidos de tablas en documentos. PaliGemma 2 también sobresale en tareas específicas como:
- Reconocimiento de fórmulas químicas;
- Reconocimiento de partituras musicales;
- Razonamiento espacial;
- Generación de informes de rayos X de tórax.
Google diseñó PaliGemma 2 como un «reemplazo directo» para la versión original, prometiendo mejoras inmediatas en el rendimiento de la mayoría de las tareas, sin necesidad de grandes modificaciones en el código. Además, el modelo es fácilmente ajustable para necesidades específicas, ampliando su utilidad.
Los modelos preentrenados y el código fuente están disponibles en plataformas como Kaggle, Hugging Face y Ollama.
Identificación de emociones: controversias y desafíos
A pesar de los avances técnicos, la funcionalidad de «reconocimiento emocional» ha generado debates éticos y científicos.
Expertos como Sandra Wachter, profesora de ética en IA de la Universidad de Oxford, consideran que esta idea es problemática: «Suponer que podemos leer emociones es tan confiable como pedir consejos a una bola mágica».
Estudios previos han cuestionado la validez científica de esta tecnología, señalando diferencias culturales en la expresión de emociones que pueden limitar la precisión de estos sistemas.
Google asegura haber realizado pruebas rigurosas para minimizar sesgos demográficos en PaliGemma 2 y garantizar bajos niveles de toxicidad en comparación con los estándares del sector.
Sin embargo, sistemas similares en el pasado han mostrado sesgos. Por ejemplo, un estudio del MIT en 2020 destacó discriminaciones contra grupos marginados.
Riesgos e impacto en la sociedad
Para muchos investigadores, la disponibilidad pública de modelos como PaliGemma 2 podría representar riesgos concretos.
Heidy Khlaaf, científica principal del Instituto AI Now, advierte que tecnologías basadas en premisas pseudocientíficas podrían usarse para tomar decisiones injustas en áreas sensibles como seguridad, contratación y control de fronteras.
“La innovación responsable requiere una reflexión constante sobre las consecuencias. Sin eso, corremos el riesgo de un futuro donde nuestras emociones puedan determinar nuestro acceso a derechos y oportunidades”, concluyó Sandra Wachter.