Amazon Web Services: tutti i dettagli sulle cause dei problemi a Netfix, Instagram e Pinterest

Durante le ultime ore Amazon ha pubblicato un dettagliato resoconto relativo agli eventi che si sono verificati lo scorso fine settimana e che hanno causato l’interruzione dei servizi offerti da Netfix, Instagram e Pinterest conseguenzialmente ad una violenta tempesta che ha colpito la zona nord della Virgina.

Stando a quanto reso noto la piattaforma cloud di Amazon, unitamente alle problematiche facenti riferimento alla mancanza di elettricità, ha avuto ulteriori intoppi dovuti al riavvio dei server.

Nel dettaglio, i data center che costituiscono l’infrastruttura degli Amazon Web Services sfruttano un sistema di alimentazione a doppio backup e quando si verifica un’interruzione di corrente o un picco di tensione così come quello dello scorso week end entrano in funzione prima i generatori di corrente e, eventualmente, gli UPS che sono collegati ai server.

La scorsa settimana, però, un data center è rimasto senza alimentazione per circa una decina di minuti poiché il generatore non ha fornito una tensione stabile e gli UPS si sono esauriti nel giro di poco tempo.

I 10 minuti in questione hanno causato non pochi problemi ad Amazon: le istanze EC2 sono infatti tornate online soltanto diverse ore dopo a causa di un collo di bottiglia nel processo di boot dei server ed i volumi di storage EBS sono stati attivati circa 60 minuti dopo.


Tenendo conto però del fatto che l’interruzione di corrente si è verificata durante la scrittura dei dati i volumi erano in uno stato inconsistente per cui per far si che venissero ripristinati mediante le copie di backup sono state necessarie altre ore.

Unitamente a tutto ciò un bug ha poi colpito le istanze ELB che agiscono distribuendo tra le istanze EC2 il traffico diretto ad un indirizzo IP per cui durante l’interruzione di corrente hanno cominciato a distribuire il caricao tra i server.

Il bug, una volta ripristinato il corretto stato del data center, ha attivato la procedura che consente di aumentare la dimensione delle istanze generando quindi un sovraccarico dell’intera infrastruttura.

Un ulteriore bug a livello software ha poi impedito il ripristino automatico dei backup di alcuni database.

La situazione, come hanno avuto modo di notare tantissimi utenti, è poi tornata stabile solo diverse ore dopo.

Photo Credits | Flickr

Via | Neowin