OpenAI ha presentado el GPTBot, un rastreador web diseñado para mejorar el rendimiento de modelos de IA como GPT-4.
Al navegar por la web, el GPTBot puede potencialmente mejorar la precisión y la seguridad de estos modelos.
El funcionamiento del GPTBot se detalla en una publicación en el blog de OpenAI, centrándose en su función de filtrado de datos.
Esta función está diseñada para excluir contenidos protegidos por muros de pago, fuentes que recopilan información personal identificable (PII) y textos que violan políticas.
Teniendo en cuenta problemas relacionados con la recopilación de datos, infracción de derechos de autor y violaciones de privacidad en el pasado, OpenAI ha implementado medidas que permiten a los sitios limitar el acceso del GPTBot a su contenido, ya sea mediante el bloqueo de direcciones IP o ajustes en el archivo Robots.txt.
Funciones adicionales de exclusión, como desactivar el historial de conversaciones, brindan a los usuarios un mayor control sobre sus datos personales accesados por la IA.
Sin embargo, actualmente no hay opción para excluir contenido del conjunto de datos utilizado para entrenar modelos como el ChatGPT 3.5 y 4.
Los propietarios de sitios que deseen evitar que el GPTBot acceda a su contenido pueden modificar el archivo Robots.txt para gestionar los permisos del rastreador web.
Esto les permite determinar qué secciones de su sitio el GPTBot puede o no puede acceder.