Interrupción de Facebook causada por un solo error

Por

La interrupción de Facebook del 4 de octubre, que derribó Facebook Messenger, Instagram y WhatsApp, así como el servicio principal, fue el resultado de un error de los propios ingenieros de redes de la compañía.

El error llevó a que todos los servicios de Facebook fueran inaccesibles, con una analogía que lo comparó con una falla en los servicios de «control de tráfico aéreo» para el tráfico de red…

La interrupción afectó a todas las plataformas propiedad de Facebook, según datos de Downdetector y Twitter. Esto incluye Instagram, Facebook, WhatsApp y Facebook Messenger […] Si bien algunas interrupciones de Facebook, Instagram y WhatsApp solo afectaron a ciertas regiones geográficas, los servicios estuvieron caídos en todo el mundo.

Parecía que el problema podría estar relacionado con DNS, los servidores de nombres de dominio que le dicen a los dispositivos qué direcciones IP usar para acceder a los servicios, pero no estaba claro qué había sucedido exactamente, y si se trataba de un hackeo externo, una acción maliciosa de un insider o un error catastrófico.

Facebook aclaró que fue un error:

“Nuestros equipos de ingeniería han aprendido que los cambios de configuración en los enrutadores troncales que coordinan el tráfico de red entre nuestros centros de datos causaron problemas que interrumpieron esta comunicación. Esta interrupción en el tráfico de red tuvo un efecto en cascada en la forma en que nuestros centros de datos se comunican, deteniendo nuestros servicios.”

Los informes dicen que los empleados de nivel inferior tuvieron que obtener acceso físico a los centros de datos y luego confiar en las instrucciones paso a paso de ingenieros senior para deshacer el error. Para complicar esto, que las redes no hayan estado disponibles significaba que los sistemas de acceso a las puertas de Facebook también estaban fuera de línea, impidiendo físicamente el acceso.

Cómo entender la interrupción de Facebook

Sin duda, obtendremos la historia completa con el tiempo, pero la opinión de consenso que surge es que el problema fue una combinación de configuración de servidor de nombres de dominio (DNS) y protocolo de puerta de enlace de frontera (BGP).

La mejor forma de explicar el tráfico de red es que funciona como el de los aviones. Tu dispositivo quiere volar a facebook.com. El avión primero necesita conocer las coordenadas GPS del aeropuerto de destino, es decir, la dirección IP a la que debe conectarse. Obtiene esa información preguntando a un DNS, que le dice que facebook.com se encuentra en (por ejemplo) 66.220.144.0.

Para llegar al destino final, el servidor real que puede realizar la tarea que desea hacer, depende de una especie de sistema de control de tráfico aéreo para el tráfico de red, y ese es el BGP. El BGP le dice a tu dispositivo en qué ruta volar a través de los diversos servidores a tu destino final.

Parece que Facebook perdió por completo sus sistemas BGP, por lo que no había forma de que Facebook le dijera a los dispositivos cómo llegar a su destino.

Y eso incluyó que los propios ingenieros de Facebook llegaran a los sistemas que necesitaban para deshacer el error.

Además, una fuente informada sugiere que no hubo ningún problema con el DNS de Facebook, en lugar de que la pérdida de BGP significa que no había forma de llegar a los servidores de nombres de dominio de la compañía.

La interrupción tiene enormes implicaciones

Si esto fuera solo gente que no puede publicar videos de gatos durante unas horas, eso sería una cosa. Pero WhatsApp es efectivamente una pieza crítica de la infraestructura de comunicaciones en muchos países, utilizada rutinariamente para la comunicación entre pacientes y médicos, por ejemplo, y utilizada por muchos para pagos.

El apagón prolongado ha llamado la atención sobre cuán vulnerable es el mundo entero a fallas de esta naturaleza.