Fracaso de Facebook: una sucesión de hechos desafortunados

hace 2 años

Un comando mal escrito, una herramienta de auditoría que falla en un sistema DNS que obstaculiza los esfuerzos de restauración de la red y una seguridad mejorada del centro de datos, son la serie de eventos que causaron la interrupción de siete horas de Facebook.

Según Facebook, la causa raíz de la interrupción del lunes fue el resultado de un mantenimiento de rutina que salió mal, lo que provocó que sus servidores DNS fueran inaccesibles. Pero fue primero toda la columna vertebral de Facebook que colapsó. Para empeorar las cosas, la pérdida de DNS impidió a los ingenieros de Facebook acceder de forma remota a los dispositivos que necesitaban para restaurar la red. Por lo tanto, tuvieron que ir físicamente a los centros de datos para reiniciar manualmente los sistemas.

Índice

Lecciones de un desastre de almacenamiento en la nube
Un error de mantenimiento de rutina
DNS, un solo punto de falla
Gestión de DNS demasiado centralizada
Las lecciones para aprender

Lecciones de un desastre de almacenamiento en la nube

La obligación de intervenir manualmente ciertamente ha ralentizado las operaciones, pero son las reglas de seguridad del centro de datos las que evitan cualquier intrusión lo que ha complicado aún más las cosas. “Es difícil entrar, y una vez dentro, el hardware y los enrutadores se han configurado de tal manera que cualquier modificación es complicada, incluso con acceso físico al hardware”, explicó Santosh Janardhan, vicepresidente. presidente de ingeniería e infraestructura de Facebook en un blog.

Así que tomó un tiempo, pero después de que se restauraron los sistemas, la red volvió a la normalidad. Sin embargo, el proceso de restauración de servicios para clientes que se ejecutan en la red también tomó tiempo, ya que reactivar todos estos servicios al mismo tiempo podría causar otra ronda de interrupciones. "Los centros de datos han informado reducciones en el consumo de energía del orden de decenas de megavatios, y la repentina reversión de este bajo consumo presentó un riesgo significativo para los equipos eléctricos, pero también para los cachés", escribió Janardhan. . En total, la red social no estuvo disponible durante siete horas y cinco minutos.

Un error de mantenimiento de rutina

Fue el hecho de que Facebook tomara parte de su red troncal fuera de línea para el mantenimiento lo que fue el verdadero detonante de la interrupción. “Durante una de estas operaciones de mantenimiento de rutina, se emitió una orden para evaluar la disponibilidad de la capacidad total de la red troncal y, sin querer, dejó fuera de servicio todas nuestras conexiones troncales, desconectando los centros de datos. de Facebook en todo el mundo ”, explicó Santosh Janardhan. Esto no era de esperar, sobre todo porque la red social incluso había puesto en marcha una herramienta para clasificar los pedidos que pudieran provocar un fallo catastrófico de este tipo, pero el desfile no funcionó. “Nuestros sistemas están diseñados para auditar este tipo de pedidos y evitar tales errores, pero un error en nuestra herramienta de auditoría impidió que se bloqueara el pedido”, escribió Janardhan. Una vez que se produjo la interrupción, DNS estaba condenado.

DNS, un solo punto de falla

Según Angélique Medina, gerente de marketing de productos de Cisco ThousandEyes, que monitorea el tráfico y las interrupciones de Internet, es una respuesta automatizada a la interrupción de la red troncal que parece haber dejado fuera de servicio al DNS. El sistema de nombres de dominio responde a las solicitudes para traducir los nombres de sitios web a direcciones IP, y Facebook aloja sus propios servidores de nombres DNS. “La arquitectura está diseñada para ampliar o reducir el servicio DNS en función de la disponibilidad de los servidores”, explicó la Sra. Medina. “Cuando la disponibilidad del servidor cayó a cero debido a una interrupción de la red, esos servidores dejaron de servicio todos sus servidores DNS”, agregó.

Este desmantelamiento se logró mediante los servidores de nombres DNS de Facebook, que enviaron mensajes a los enrutadores del Protocolo de puerta de enlace fronteriza de Internet (BGP), que almacenan información sobre qué rutas utilizar para llegar a direcciones IP específicas. A los enrutadores se les recuerdan regularmente estas rutas para que sepan cómo dirigir el tráfico de manera adecuada. Los servidores DNS de Facebook enviaron mensajes BGP que deshabilitaron las rutas anunciadas por sí mismos, lo que hizo imposible resolver el tráfico en la red troncal de Facebook. “La consecuencia de todo esto es que nuestros servidores DNS se volvieron inaccesibles, aunque todavía estaban operativos. Esto hizo imposible que el resto de Internet encontrara nuestros servidores ”, escribió Santosh Janardhan.

Gestión de DNS demasiado centralizada

Incluso si los servidores DNS todavía fueran accesibles desde Internet, los clientes de Facebook habrían perdido el servicio porque la red a la que estaban tratando de conectarse no funcionaba. Desafortunadamente para Facebook, sus propios ingenieros también han perdido el acceso a los servidores DNS, que son esenciales para que sus plataformas de administración remota lleguen a los sistemas troncales fallidos. “Facebook no utiliza su servicio de DNS solo para sus sitios web destinados a los clientes”, explica también Angélique Medina.

“También lo utilizan para sus propias herramientas y sistemas internos. El hecho de que estuviera completamente fuera de servicio impidió a los operadores o ingenieros de redes acceder a los sistemas que necesitaban para resolver el problema ”, agregó. "En una arquitectura más robusta, los servicios de DNS se duplicarían para que un servicio pueda respaldar al otro", agregó. “Por ejemplo, Amazon, y más precisamente su servicio DNS en AWS, utiliza dos servicios externos, Dyn y UltraDNS, para su DNS”, recordó la Sra. Medina.

Las lecciones para aprender

El incidente parece indicar que la arquitectura de Facebook no siguió las mejores prácticas de la red. “¿Por qué el DNS fue efectivamente el único punto de falla? »Pregunta Angélique Medina. “Si la falla es únicamente el resultado del DNS y no hay un DNS de respaldo, entonces existe un temor real a una falla prolongada. Es por eso que la redundancia del DNS es una de las lecciones importantes que se pueden aprender de la falla de Facebook ”, concluyó la Sra. Medina. Este último también hace un comentario general sobre las fallas de otros proveedores de servicios.

"A menudo, estas fallas se deben a una gran cantidad de interdependencias dentro de la red, por lo que un pequeño problema en una parte de la arquitectura del servicio puede afectar a toda la arquitectura", dijo. -ella explica. “La mayoría de las empresas gestionan muchos servicios internos, lo que puede tener consecuencias no deseadas. Este aspecto quizás preocupa más a los técnicos, pero creo que merece ser subrayado ”.

Si quieres conocer otros artículos parecidos a Fracaso de Facebook: una sucesión de hechos desafortunados puedes visitar la categoría Otros.

Otras noticias que te pueden interesar