Amazon a prabusit o parte a internetului martea trecuta si explica de ce

Amazon a prabusit o parte a internetului martea trecuta si explica de ce

Cei mai multi dintre noi cunoastem Amazon cel mai bine pentru serviciile sale de comert electronic, care ne permit sa comandam cu usurinta aproape orice de pe internet in zilele noastre – de la alimente la haine si mobila – cu livrare gratuita, cu doar cateva clicuri pe Amazon Prime. Tocmai acest lucru l-a facut pe Jeff Bezos cel mai bogat om din lume (pana de curand) si continua sa adune cei mai multi bani; dar Amazon face mult, mult mai mult decat comert cu amanuntul.

De fapt, se intampla sa controleze si 33% din internet, care ruleaza pe serverele Amazon AWS (Amazon Web Services) – ceea ce il plaseaza cu mult deasupra chiar si a Google si Microsoft atunci cand vine vorba de servicii web profitabile.

Iar martea trecuta, o parte a internetului, impreuna cu Amazon.com, a disparut pentru o vreme, cand serverele Amazon din Virginia de Nord (unde se afla unul dintre cele mai mari, precum si primul centru de date AWS din istorie) au suferit o cadere neasteptata. Timpul de intrerupere a durat aproximativ sapte ore, incepand in jurul orei 7:30 AM PST, iar reteaua a fost in cele din urma complet restabilita la ora 14:22 PM PST.

in timpul intreruperii prelungite, intregul eveniment a fost invaluit in mister: putine detalii au fost impartasite cu privire la care a fost cauza exacta a intregii situatii si cand vor reveni lucrurile la normal. Cu toate acestea, la cateva zile dupa eveniment, Amazon a publicat un repot destul de detaliat cu privire la ceea ce s-a intamplat pe 7 decembrie.

Amazon a prabusit o parte a internetului martea trecuta si explica de ce

Dupa cum se pare, a fost vorba de o cadere foarte neobisnuita care a afectat sistemele de monitorizare AWS, despre care Amazon spune ca a intarziat semnificativ capacitatea echipei de salvare tehnica de a intelege si de a diagnostica problema in primele cateva ore. Mai mult, Amazon spune ca „congestia retelei a impiedicat ca instrumentele noastre de Service Health Dashboard sa treaca in mod corespunzator in regiunea de rezerva”.

Amazon spune ca lucreaza din greu la actualizarea sistemelor pentru a preveni ca echipa tehnica (si, prin urmare, clientii AWS) sa mai fie lasata in intuneric, in cazul in care vor aparea probleme tehnice sau intreruperi viitoare.

Pe langa faptul ca a trimis portiuni semnificative de internet offline, intreruperea Amazon a afectat si servicii de mare anvergura precum Netflix, Disney+, Ticketmaster si altele.

Multe dispozitive inteligente care se bazeaza pe o conexiune la internet pentru a functiona au incetat, de asemenea, sa mai functioneze temporar, cum ar fi asistentul inteligent Alexa, aspiratoarele Roomba (via CNBC), camerele de securitate, litierele inteligente pentru pisici si chiar monitoarele pentru bebelusi – ceea ce, lasand la o parte toate celelalte neplaceri, a reprezentat o problema semnificativa de siguranta.

Iata o parte din postarea Amazon pe site-ul sau, publicata vineri:

La ora 7:30 AM PST, o activitate automatizata de extindere a capacitatii unuia dintre serviciile AWS gazduite in reteaua principala AWS a declansat un comportament neasteptat din partea unui numar mare de clienti din interiorul retelei interne. Acest lucru a dus la un val mare de activitate de conectare care a coplesit dispozitivele de retea dintre reteaua interna si reteaua principala AWS, ceea ce a dus la intarzieri in comunicarea dintre aceste retele.

Aceste intarzieri au crescut latenta si erorile pentru serviciile care comunicau intre aceste retele, ceea ce a dus la si mai multe incercari de conectare si reincercari. Acest lucru a dus la congestie persistenta si la probleme de performanta pe dispozitivele care conecteaza cele doua retele.

Aceasta congestie a avut un impact imediat asupra disponibilitatii datelor de monitorizare in timp real pentru echipele noastre de operatiuni interne, ceea ce a afectat capacitatea acestora de a gasi sursa congestiei si de a o rezolva.

in schimb, operatorii s-au bazat pe jurnale pentru a intelege ce se intampla si au identificat initial erori DNS interne ridicate. Deoarece DNS-ul intern este fundamental pentru toate serviciile si se credea ca acest trafic contribuie la congestie, echipele s-au concentrat pe mutarea traficului DNS intern departe de caile de retea congestionate. La ora 9:28 AM PST, echipa a finalizat aceasta activitate, iar erorile de rezolutie DNS s-au recuperat complet. […]

Am luat mai multe masuri pentru a preveni repetarea acestui eveniment. Am dezactivat imediat activitatile de scalare care au declansat acest eveniment si nu le vom relua pana cand nu vom implementa toate masurile de remediere. Sistemele noastre sunt scalate in mod adecvat, astfel incat nu va fi nevoie sa reluam aceste activitati pe termen scurt. Clientii nostri de retea au comportamente de retragere a cererilor bine testate, care sunt concepute pentru a permite sistemelor noastre sa se refaca in urma acestor tipuri de evenimente de congestie, dar o problema latenta a impiedicat acesti clienti sa se retraga in mod adecvat in timpul acestui eveniment.

Aceasta cale de cod a fost in productie de multi ani, dar activitatea de scalare automata a declansat un comportament neobservat anterior. Dezvoltam o solutie pentru aceasta problema si ne asteptam sa implementam aceasta modificare in urmatoarele doua saptamani. De asemenea, am implementat o configuratie suplimentara a retelei care protejeaza dispozitivele de retea potential afectate chiar si in fata unui eveniment de congestie similar. Aceste remedieri ne dau incredere ca nu vom mai asista la o repetare a acestei probleme.

Similar Posts

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *