Ciencia en tus manos

Una mirada retrospectiva al desglose total de Facebook

No hay comentarios Share:

La principal causa de la interrupción mundial de los servicios de Facebook, WhatsApp, Instagram y Messenger durante casi seis horas parece ser una actualización inoportuna del Protocolo de puerta de enlace fronteriza en sus enrutadores externos.

» Ciertamente, algo debe salir mal con Facebook cuando la empresa se ve obligada a recurrir a su competidor, Twitter, para comunicarse con sus usuarios. Este comentario de Mike Proulx, vicepresidente y director de investigación de Forrester, es particularmente cruel con la plataforma de Mark Zuckerberg, que cayó durante seis horas el 4 de octubre. El problema es más profundo que las obvias fallas de DNS de Facebook. El servicio de Instagram propiedad de Facebook también estaba caído, y sus servicios de DNS, que están alojados en Amazon en lugar de ser internos a la red de Facebook, estaban en funcionamiento. Se pudo acceder a Instagram y WhatsApp, pero mostraban fallas HTTP 503 (no hay servidor disponible para la solicitud), lo que indica que si el DNS funcionaba y los equilibradores de carga de servicio estaban disponibles, los servidores de aplicaciones que deberían alimentar los equilibradores de carga no lo estaban.

Dane Knecht, vicepresidente de Cloudflare, informó que se han eliminado todas las rutas BGP para Facebook. BGP, abreviatura de Border Gateway Protocol, es el sistema mediante el cual una red determina la mejor ruta a otra red. Sin rutas BGP a la red de Facebook, los propios servidores DNS de Facebook eran inaccesibles, al igual que los servidores de aplicaciones faltantes para Instagram, WhatsApp y Oculus VR, que son propiedad de Facebook. “Durante los últimos dos años, Facebook ha consolidado su ecosistema de aplicaciones dispares en una única infraestructura de red troncal. Este enfoque permite a la empresa ganar eficiencia operativa y aislarse de un posible desmantelamiento por parte de los reguladores. Pero también expone a Facebook al riesgo de concentración. Un solo evento de riesgo que cae en cascada, como viejas luces navideñas: si una de ellas se apaga, todas las demás se apagan. Esta estrategia se produce a expensas de la redundancia y socava la resiliencia de la empresa. También irrita a los consumidores que no quieren un perfil de redes sociales unificado en toda la familia de aplicaciones de Facebook ”, dice Mike Proulx en una publicación.

Otros fracasos por venir

Una explicación apoyada por Usman Muzaffar, vicepresidente a cargo de ingeniería en Cloudflare: “Por lo que entendemos, la interrupción de Facebook se debe a un problema de configuración de BGP y, en nuestra experiencia, generalmente son errores y no ataques”. Por su parte, ThousandEyes indicó en su blog que “la aplicación de Facebook era globalmente inaccesible por una falla en la resolución de DNS”. Apenas optimista, Mike Proulx afirma que “el fracaso de Facebook hoy no fue el primero y no será el último. Es un recordatorio para los anunciantes para que implementen planes de mitigación proactivos para evitar quedarse atascados tratando de averiguar qué hacer en este momento ”. Deja la última palabra para Renee murphy, Analista senior de Forrester: “El riesgo está en todas partes, incluso en los protocolos de red. »

También te puede gustar