Icono del sitio Google Discovery en Español

¿Por qué tantos sitios web importantes están bloqueando a ChatGPT?

Muchos profesionales de SEO se enfrentan a una gran pregunta: ¿bloquear o no a ChatGPT?

Varios sitios web populares ya han bloqueado a GPTBot, presumiblemente porque no desean que OpenAI recopile sus datos para entrenar sus modelos, al menos no sin compensación. Además, ChatGPT no cita ni enlaza sus fuentes.

Según análisis, los 15 sitios web más populares que han bloqueado a ChatGPT son: Amazon.com, Quora.com, NYTimes.com, Shutterstock.com, WikiHow.com, CNN.com, Foursquare.com, Healthline.com, Scribd.com, BusinessInsider.com, Reuters.com, MedicalNewsToday.com, GoodHousekeeping.co, Amazon.co.uk y Tumblr.com.

Sin embargo, es interesante notar que, aunque muchos sitios bloquean a GPTBot, no bloquean a CCbot, el rastreador de Common Crawl.

Parte de los datos de entrenamiento utilizados por OpenAI, Google y otros proviene de Common Crawl.

Existen algunas excepciones notables que bloquean ambos bots, como New York Times, que claramente no desea que su contenido se utilice para entrenar sistemas de IA.

Otros sitios populares que bloquean tanto a GPTBot como a CCbot incluyen Shutterstock.com, Reuters.com y GoodHousekeeping.com.

Como mínimo, 62 de los 1.000 sitios web principales han bloqueado a CCBot. Es importante señalar que 241 archivos robots.txt de los 1.000 sitios no fueron identificados ni inspeccionados como parte de este análisis.

Salir de la versión móvil