Un guasto al sistema informatico che gestisce la 'spina dorsale' di Facebook. Questa sarebbe la causa del blackout che ha messo fuori uso, per oltre 7 ore, il social network e tutti i servizi ad esso connessi, compresi Instagram e WhatsApp. Lo spiega, in un post sul blog ufficiale degli ingegneri di Facebook, Santosh Janardhan, vice presidente del gruppo.
"Il traffico dati tra tutte le strutture informatiche di Facebook è gestito da router, che determinano dove indirizzare i dati in entrata e in uscita. Nell'ampio lavoro quotidiano di manutenzione, i nostri ingegneri hanno spesso bisogno di mettere offline parte della dorsale, ad esempio quando riparano una linea in fibra, devono aggiungere capacità di banda o aggiornare il software dei router". Durante una delle attività di gestione, è stato emesso un comando per valutare la tenuta della 'spina dorsale' del colosso. Un errore nel sistema, un bug, ha impedito di ripristinare immediatamente i data center di Facebook a livello globale, lasciandoli offline. Come sottolinea Santosh Janardhan, la prima disconnessione ne ha create altre a catena, il che ha reso la situazione particolarmente critica. "Tutto è successo molto velocemente - continua - e mentre i nostri ingegneri lavoravano per capire cosa stava succedendo, hanno dovuto affrontare l'impossibilità di accedere ai data center con i normali mezzi, perché le reti non funzionavano, e l'indisponibilità degli strumenti che usiamo normalmente per indagare i blackout".
Facebook è preparata a scenari critici del genere grazie alle esercitazioni 'tempesta', che simulano un grave guasto del sistema, mettendo offline un servizio, un data center o un'intera regione. "Da qui in poi, il nostro compito è rafforzare i nostri test, esercitazioni e resilienza generale, per assicurarci che eventi come questo accadano il più raramente possibile".