Google y la Universidad de California crean un detector de deepfakes que ve lo que el ojo humano no puede

Rene Fraga
3 minutos de lectura

Puntos clave:

  • El nuevo sistema promete detectar videos falsos incluso cuando no hay rostros visibles.
  • Analiza movimiento, fondo e iluminación para descubrir manipulaciones sutiles.
  • Podría convertirse en una herramienta esencial para periodistas y redes sociales en la lucha contra la desinformación.

La amenaza invisible de los deepfakes

Los videos generados por inteligencia artificial se han vuelto cada vez más realistas y peligrosos. Lo que antes parecía un experimento tecnológico ahora se usa para engañar, imitar voces o rostros y distorsionar la realidad.

Para enfrentar este desafío, Google y la Universidad de California en Riverside se unieron para crear UNITE, siglas de Universal Network for Identifying Tampered and synthEtic videos.

A diferencia de otros detectores, UNITE puede identificar falsificaciones incluso cuando no aparece un rostro en pantalla. Examina fondos, patrones de movimiento y otros detalles minúsculos que el ojo humano no percibe.


Cómo funciona la tecnología del Google detector

El sistema está basado en un modelo de transformers, la misma tecnología que utilizan las grandes inteligencias artificiales de lenguaje y visión. Analiza cada fotograma del video buscando incoherencias espaciales y temporales, indicios típicos de manipulación digital.

UNITE emplea un marco de aprendizaje llamado SigLIP (Sigmoid Loss for Language Image Pre-Training), que permite detectar patrones visuales sin depender de objetos ni personas concretas.

Además, incluye un método innovador denominado “attention-diversity loss”, que hace que el modelo observe distintas zonas del video en lugar de concentrarse solo en los rostros.

Gracias a la colaboración con Google, los investigadores tuvieron acceso a enormes conjuntos de datos y capacidad de cómputo para entrenar el sistema con muchos tipos de falsificaciones, desde intercambios faciales simples hasta videos completamente generados por IA a partir de texto o imágenes.


Por qué UNITE marca la diferencia

El desarrollo de UNITE llega en un momento crucial. Las herramientas de generación de video a partir de texto ya son accesibles y permiten a cualquiera crear falsificaciones convincentes.

Esto plantea riesgos serios para la reputación de personas, empresas e incluso la estabilidad democrática, según el contexto político.

Los resultados se presentaron en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (CVPR) 2025, celebrada en Nashville, Estados Unidos.

El estudio describe la arquitectura y el proceso de entrenamiento del UNITE, destacándolo como el primer detector realmente universal de videos sintéticos y una posible defensa frente a la manipulación digital masiva.

Seguir
Renê Fraga es fundador de Google Discovery y editor en jefe de Eurisko, un ecosistema editorial independiente dedicado a la tecnología, la ciencia y la innovación. Profesional del marketing digital, con posgrado por la ESPM, sigue de cerca a Google desde la década de 2000 y escribe desde hace más de 20 años sobre tecnología, productos digitales e inteligencia artificial. Fundó Google Discovery en 2006, convirtiéndolo en uno de los principales sitios especializados en Google en Brasil, y fue columnista de TechTudo (Globo.com).
No hay comentarios