Logo de Internet Archive | INTERNET ARCHIVE

TW
0

Internet Archive ha confirmado que la caída de su servicio, que tuvo lugar a finales del pasado fin de semana, se debió a la sobrecarga de sus servidores por una empresa que estaba entrenando su modelo de inteligencia artificial (IA) con datos y archivos de su servicio.

Internet Archive es una gran biblioteca digital sin fines de lucro, creada en San Francisco (Estados Unidos) en 1996, que nació con el objetivo de recopilar todo tipo de materiales, que van desde las páginas web hasta grabaciones, así como videojuegos y obras literarias.

Desde el pasado domingo usuarios de esta librería de contenido de libre acceso han asegurado tener problemas a la hora de acceder a su servicio, cuando se encontraron con el mensaje 'Server Error 502'. Una de las causas más comunes por las que se produce esta falla es que el sistema esté fuera de servicio o caído por una sobrecarga de sus servidores.

La compañía también lo confirmo el lunes a través de Twitter, donde indicó que archive.org estaba temporalmente inactivo y que estaban trabajando por resolver el problema. Entonces, también adelantó que se había registrado una "segunda ráfaga de tráfico abusivo de un cliente de Amazon Web Services (AWS)".

Internet Archive puntualizó entonces que este error aparentemente se debía a la labor «de una empresa de inteligencia artificial que recolecta textos» de su librería de contenido «a un ritmo extremo». Al poco, la empresa confirmó el restablecimiento de su servicio.

En ese tuit, la empresa dio más detalles y sugirió que era posible que la responsabilidad de la caída de su servicio se debiese a «un usuario ansioso» y no a una empresa de IA, como se creía inicialmente.

Finalmente, el ingeniero y fundador de Internet Archive, Brewster Kahle, compartió lo sucedido a través del blog de este servicio, donde aclaró que IA recibió «miles de solicitudes por segundo» para sus archivos de Reconocimiento Óptico de Caracteres (OCR).

El OCR es el proceso por el que se convierte una imagen de texto en un formato de texto que pueden leer las máquinas. Además, se puede emplear para convertir imágenes en documentos de texto con su contenido como datos de texto.

Según Kahle, las encargadas de enviar dichas peticiones eran 64 direcciones IP hospedadas en la plataforma AWS de Amazon, que habrían provocado la caída de su página web a nivel global «durante aproximadamente una hora».

Tras recuperar el servicio bloqueando esas direcciones IP, su servicio volvió a registrar un colapso por otras 64 direccciones que "iniciaron el mismo tipo de actividad un par de horas después«. Si bien descubrieron cómo limitar de nuevo estos 'hosts', no pudo evitar otra interrupción de »aproximadamente una hora".

La compañía ha recomendado utilizar sus materiales «a granel», es decir, comenzando con una cantidad asumible e ir aumentando según las necesidades de los usuarios. En caso de precisar de un gran volumen de archivos de libre disposición, ha aconsejado que se contacte con ellos para hacerlo de forma segura y controlada, con el objetivo de evitar el colapso de sus servicios.