Ciencia en tus manos

La Universidad de Kyoto pierde 77 TB de datos debido a un error de copia de seguridad (actualización)

No hay comentarios Share:

Un error al hacer una copia de seguridad del sistema de archivos de una de las supercomputadoras HP Cray utilizadas por la universidad de kyoto resultó en la pérdida de más de 34 millones de archivos que constituyen 77 trabytes de datos.

Un duro golpe para la prestigiosa Universidad de Kyoto en Japón. Un incidente que afectó el proceso de respaldo de datos de una de sus supercomputadoras resultó en la pérdida de 77 TB de datos y 34 millones de archivos eliminados por error. «Desde las 5:32 pm del 14 de diciembre de 2021 hasta las 12:43 pm del 16 de diciembre de 2021, el sistema de supercomputadoras se ha vuelto grande debido a un error en el programa de respaldo», explicó la universidad.

“Se produjo un error en el programa que respalda el almacenamiento del sistema de supercomputadora fabricado por Hewlett Packard Japón, lo que provocó que el script no funcionara correctamente. Como resultado, algunos datos del almacenamiento en disco de respaldo de alta capacidad se han eliminado inadvertidamente ”, dijo HPE. El proveedor admitió su error y se disculpó con los usuarios. La universidad opera la supercomputadora HP Cray y los sistemas de almacenamiento DataDirect ExaScaler.

Supercalculador de la Universidad de Kioto

Sistemas de almacenamiento y HPC utilizados por la Universidad de Kyoto. (crédito: Universidad de Kioto)

Una actualización de secuencia de comandos que sale mal

Originalmente, la actualización de la secuencia de comandos para la supercomputadora de la Universidad de Kyoto estaba destinada a proporcionar más «visibilidad y legibilidad», incluido un comando de búsqueda para eliminar registros de más de 10 días. Pero esta actualización no salió como estaba planeado. «Se sobrescribió un script de shell de recuperación de archivos y se volvió a cargar otro mientras se ejecutaba, lo que provocó que el comando de búsqueda se ejecutara con variables indefinidas con la consecuencia de eliminar los archivos de la supercomputadora LARGE0», explicó HPE. en un informe.

«El proceso de respaldo está actualmente detenido, pero planeamos reanudarlo a fines de enero después de solucionar el problema y tomar medidas para evitar que vuelva a suceder», dijo la universidad. «Es difícil tomar medidas integrales con respecto a la posibilidad de pérdida de archivos debido a fallas en el equipo o desastres, por lo que incluso si es un usuario, haga una copia de seguridad de los archivos importantes en otro sistema». Más que nunca, la regla 3-2-1 es esencial, es decir, 3 copias de datos en 2 medios diferentes, 1 de las cuales se guarda en otro lugar.

Este artículo fue actualizado el 04/01/2022 sobre el origen del incidente.

También te puede gustar