Sitios webs acusan a la startup IA Anthropic de violar los protocolos de seguridad de datos
Freelancer ha acusado a Anthropic, la startup de inteligencia artificial detrás de los grandes modelos de lenguaje Claude, de ignorar su protocolo robots.txt de «no rastrear» para extraer los datos de sus sitios web. Mientras tanto, el director ejecutivo de iFixit, Kyle Wiens, dijo que Anthropic ha ignorado la política del sitio web que prohíbe el uso de su contenido para el entrenamiento de modelos de IA. Matt Barrie, director ejecutivo de Freelancer, dijo a The Information que ClaudeBot de Anthropic es «el raspador más agresivo con diferencia». Su sitio web supuestamente recibió 3,5 millones de visitas del rastreador de la compañía en un lapso de cuatro horas, lo que es «probablemente unas cinco veces el volumen del rastreador de IA número dos». De manera similar, Wiens publicó en X/Twitter que el bot de Anthropic llegó a los servidores de iFixit un millón de veces en 24 horas. «No sólo estás tomando nuestro contenido sin pagar, sino que estás ocupando nuestros recursos devops», escribió.
En junio, Wired acusó a otra empresa de inteligencia artificial, Perplexity, de rastrear su sitio web a pesar de la presencia del Protocolo de exclusión de robots, o robots.txt. Un archivo robots.txt normalmente contiene instrucciones para los rastreadores web sobre qué páginas pueden y no pueden acceder. Si bien el cumplimiento es voluntario, los robots malos lo ignoran en su mayoría.
Después de que salió el artículo de Wired, una startup llamada TollBit que conecta empresas de inteligencia artificial con editores de contenido informó que no es sólo Perplexity el que está eludiendo las señales de robots.txt. Si bien no mencionó nombres, Business Insider dijo que se enteró de que OpenAI y Anthropic también estaban ignorando el protocolo.
Barrie dijo que Freelancer intentó rechazar las solicitudes de acceso del bot al principio, pero finalmente tuvo que bloquear el rastreador de Anthropic por completo”. En cuanto a iFixit, Wiens dijo que el sitio web ha activado alarmas por alto tráfico y que su gente se despertó a las 3 a. m. debido a las actividades de Anthropic. El rastreador de la compañía dejó de rastrear iFixit después de agregar una línea en su archivo robots.txt que no permite el bot de Anthropic, en particular.
Las empresas de IA utilizan rastreadores para recopilar contenido de sitios web que pueden utilizar para entrenar sus tecnologías de IA generativa. Como resultado, han sido objeto de múltiples demandas, y los editores los acusan de infracción de derechos de autor. Para evitar que se presenten más demandas, empresas como OpenAI han llegado a acuerdos con editores y sitios web. Los socios de contenido de OpenAI, hasta ahora, incluyen News Corp, Vox Media, Financial Times y Reddit. Wiens de iFixit parece abierto a la idea de firmar un acuerdo para los artículos del sitio web de cómo reparar, y le dice a Anthropic en un tweet que está dispuesto a tener una conversación sobre la concesión de licencias de contenido para uso comercial.
Vía – Engadget