¿Por qué tantos sitios web importantes están bloqueando a ChatGPT?

Última actualización: 26/08/2023 4:22 pm

1 minutos de lectura

Muchos profesionales de SEO se enfrentan a una gran pregunta: ¿bloquear o no a ChatGPT?

Varios sitios web populares ya han bloqueado a GPTBot, presumiblemente porque no desean que OpenAI recopile sus datos para entrenar sus modelos, al menos no sin compensación. Además, ChatGPT no cita ni enlaza sus fuentes.

Según análisis, los 15 sitios web más populares que han bloqueado a ChatGPT son: Amazon.com, Quora.com, NYTimes.com, Shutterstock.com, WikiHow.com, CNN.com, Foursquare.com, Healthline.com, Scribd.com, BusinessInsider.com, Reuters.com, MedicalNewsToday.com, GoodHousekeeping.co, Amazon.co.uk y Tumblr.com.

Sin embargo, es interesante notar que, aunque muchos sitios bloquean a GPTBot, no bloquean a CCbot, el rastreador de Common Crawl.

Parte de los datos de entrenamiento utilizados por OpenAI, Google y otros proviene de Common Crawl.

Existen algunas excepciones notables que bloquean ambos bots, como New York Times, que claramente no desea que su contenido se utilice para entrenar sistemas de IA.

Otros sitios populares que bloquean tanto a GPTBot como a CCbot incluyen Shutterstock.com, Reuters.com y GoodHousekeeping.com.

Como mínimo, 62 de los 1.000 sitios web principales han bloqueado a CCBot. Es importante señalar que 241 archivos robots.txt de los 1.000 sitios no fueron identificados ni inspeccionados como parte de este análisis.

PorRene Fraga

Seguir

Renê Fraga es fundador de Google Discovery y editor en jefe de Eurisko, un ecosistema editorial independiente dedicado a la tecnología, la ciencia y la innovación. Profesional del marketing digital, con posgrado por la ESPM, sigue de cerca a Google desde la década de 2000 y escribe desde hace más de 20 años sobre tecnología, productos digitales e inteligencia artificial. Fundó Google Discovery en 2006, convirtiéndolo en uno de los principales sitios especializados en Google en Brasil, y fue columnista de TechTudo (Globo.com).