✨ Puntos clave:
- El contenido creado por IA puede aparecer en Google, siempre que sea preciso, original y revisado por humanos.
- Los modelos Gemini, usados en AI Overviews y AI Mode, realizan un proceso de «grounding» utilizando datos de la búsqueda de Google.
- El entrenamiento de modelos debe evitar aprender exclusivamente de contenido generado por IA para no crear un «bucle de información».
En una entrevista reciente, Gary Illyes, de Google, dejó claro que la empresa no se preocupa por cómo se crea el contenido (ya sea por humanos o por inteligencia artificial), siempre que este mantenga alta calidad, sea preciso y no sea una copia de algo existente.
Según Illyes, el término correcto para la política de la empresa no es «creado por humanos», sino «curado por humanos».
Esto significa que, para Google, el punto central es garantizar que exista supervisión editorial antes de la publicación, validando datos y corrigiendo posibles errores. Illyes también destacó que simplemente declarar que hubo revisión no es suficiente; el proceso debe ocurrir realmente para asegurar confianza y precisión.
Modelos Gemini y el papel del «grounding»
Illyes reveló que tanto AI Overviews (AIO) como AI Mode utilizan modelos Gemini personalizados. Estos sistemas realizan el «grounding», un proceso en el que la IA conecta sus respuestas a datos concretos y verificables del índice de búsqueda de Google.
El objetivo del grounding es reducir errores y alucinaciones, haciendo que las respuestas sean más confiables.
En este proceso, Google Search juega un papel fundamental, ya que devuelve resultados para consultas específicas realizadas por el modelo.
Es importante recordar que, si un sitio bloquea el rastreador Google Extended, Gemini no realizará grounding utilizando sus datos.
Impacto del contenido de IA en el entrenamiento de modelos
Cuando se le preguntó si la creciente cantidad de contenido generado por IA podría «contaminar» los modelos de lenguaje, Illyes respondió que no es una amenaza directa para el índice de búsqueda, pero sí puede ser problemático para el entrenamiento de LLMs (modelos de lenguaje grandes).
El riesgo, según él, radica en crear un ciclo cerrado, en el que los modelos aprendan solo de textos generados por otras IAs, comprometiendo la diversidad y precisión de la información.
Para evitar este problema, Google selecciona cuidadosamente los documentos que ingresan al entrenamiento. Y, para que el contenido de IA sea útil en este proceso, debe ser original, preciso y, preferiblemente, revisado por humanos.