AWS: Evo, kaj je šlo narobe v našem velikem izpadu računalništva v oblaku

Spletne storitve Amazon (AWS) redko nepričakovano odpovejo, vendar lahko pričakujete podrobno razlago, ko pride do večjega izpada.

Posebno poročilo

Upravljanje Multiclouda

Za podjetja je lažje kot kdaj koli prej sprejeti pristop v več oblakih, saj si AWS, Azure in Google Cloud Platform delijo stranke. Tukaj je pogled na težave, prodajalce in orodja, vključena v upravljanje več oblakov.

Preberi zdaj

Po navedbah Razlaga AWS o tem, kaj je šlo narobe, je bil vir izpada napaka v njegovem notranjem omrežju, ki gosti "temeljne storitve", kot je aplikacija/storitev spremljanje, notranja storitev domenskih imen AWS (DNS), avtorizacija in deli nadzora omrežja Elastic Cloud 2 (EC2) letalo. DNS je bil v tem primeru pomemben, saj je sistem, ki se uporablja za prevajanje človeku berljivih domenskih imen v številske internetne (IP) naslove.

GLEJ: Imeti enega samega ponudnika v oblaku je tako zadnje desetletje

Notranje omrežje AWS podpira dele glavnega omrežja AWS, s katerim se povezuje večina strank, da zagotovijo svoje vsebinske storitve. Običajno, ko se glavno omrežje poveča, da zadosti povečanemu povpraševanju po virih, se mora notranje omrežje sorazmerno povečati prek omrežnih naprav, ki upravljajo

prevajanje omrežnih naslovov (NAT) med obema omrežjema.

Vendar pa v torek prejšnji teden skaliranje med omrežjem ni potekalo gladko, saj so naprave AWS NAT v notranjem omrežju postale "preobremenjene", blokiranje prevajalskih sporočil med omrežji s hudimi posrednimi učinki za več storitev, usmerjenih v stranke, ki tehnično niso bile neposredno vplivalo.

"Ob 7:30 zjutraj po pacifiškem standardnem času avtomatizirana aktivnost za povečanje zmogljivosti ene od storitev AWS, ki gostuje v glavnem omrežju AWS sprožil nepričakovano vedenje velikega števila odjemalcev znotraj notranjega omrežja,« pravi AWS v svojem posmrtno.

"To je povzročilo velik porast povezovalne dejavnosti, ki je preobremenila omrežne naprave med njimi notranje omrežje in glavno omrežje AWS, kar povzroči zamude pri komunikaciji med njima omrežja."

Zamude so spodbudile zakasnitve in napake za temeljne storitve, ki se pogovarjajo med omrežji, kar je sprožilo še več neuspelih poskusov povezovanja, ki so nazadnje privedli do "stalnih težav z zastoji in zmogljivostjo" v notranjem omrežju naprave.

Ker je povezava med obema omrežjema blokirana, je interna operativna ekipa AWS hitro izgubila vidnost svojih storitev spremljanja v realnem času in so se bili prisiljeni zanašati na dnevnike preteklih dogodkov, da bi ugotovili vzrok za zastoji. Potem ko so ugotovili porast notranjih napak DNS, so ekipe preusmerile notranji promet DNS stran od blokiranih poti. To delo je bilo zaključeno dve uri po začetnem izpadu ob 9:28 zjutraj po pacifiškem standardnem času.

To je ublažilo vpliv na storitve, namenjene strankam, vendar ni v celoti popravilo prizadetih storitev AWS ali odblokiralo prezasedenosti naprav NAT. Poleg tega ekipa za notranje operacije AWS še vedno ni imela podatkov o spremljanju v realnem času, kar je posledično upočasnilo okrevanje in obnovo.

Poleg pomanjkanja vidnosti v realnem času so bili ovirani notranji sistemi uvajanja AWS, kar je ponovno upočasnilo sanacijo. Tretji glavni vzrok njegovega neoptimalnega odziva je bila zaskrbljenost, da bi popravek za komunikacije med notranjim in glavnim omrežjem motil druge storitve AWS, usmerjene v stranke, ki niso bile prizadete.

»Ker so številne storitve AWS v glavnem omrežju AWS in uporabniške aplikacije AWS še vedno delovale Običajno smo želeli biti zelo premišljeni pri izvajanju sprememb, da ne bi vplivali na delujoče delovne obremenitve," AWS je rekel.

Na katere storitve za stranke AWS je to vplivalo?

Prvič, glavno omrežje AWS ni bilo prizadeto, zato delovne obremenitve strank AWS "niso bile neposredno prizadete", pravi AWS. Namesto tega so na stranke vplivale storitve AWS, ki so odvisne od njegovega notranjega omrežja.

Vendar pa so bili posredni učinki napake v notranjem omrežju daleč naokoli za storitve AWS, obrnjene k strankam, in vplivali vse od storitev računalništva, vsebnikov in distribucije vsebine do baz podatkov, virtualizacije namizja in optimizacije omrežja orodja.

Oblak

Kaj je digitalna transformacija? Vse, kar morate vedeti
Primerjava najboljših ponudnikov oblakov: AWS, Azure, Google Cloud itd
6 najboljših poceni storitev spletnega gostovanja: poiščite cenovno ugodno možnost
Kaj je računalništvo v oblaku? Tukaj je vse, kar morate vedeti

Nadzorne ravnine AWS se uporabljajo za ustvarjanje in upravljanje virov AWS. Te nadzorne ravnine so bile prizadete, ker gostujejo v notranjem omrežju. Torej, medtem ko primerki EC2 niso bili prizadeti, so bili prizadeti API-ji EC2, ki jih stranke uporabljajo za zagon novih primerkov EC2. Višje zakasnitve in stopnje napak so bili prvi učinki, ki so jih stranke opazile ob 7.30 zjutraj po pacifiškem standardnem času.

GLEJ: Varnost v oblaku leta 2021: poslovni vodnik po osnovnih orodjih in najboljših praksah

Ker te zmožnosti ni več, so imele stranke težave z Amazon RDS (storitve relacijske baze podatkov) in Amazon EMR big podatkovno platformo, medtem ko stranke s storitvijo upravljane virtualizacije namizja Amazon Workspaces niso mogle ustvariti novega virov.

Podobno AWS-ovi Elastic Cloud Balancers (ELB) niso bili neposredno prizadeti, a ker so bili API-ji ELB, stranke niso mogle dodajati novih primerkov obstoječim ELB-jem tako hitro kot običajno.

API-ji Route 53 (CDN) so bili prav tako oslabljeni za pet ur, kar je strankam preprečilo spreminjanje vnosov DNS. Prišlo je tudi do napak pri prijavi v konzolo AWS, zakasnitev, ki je vplivala na storitve Amazon Secure Token Services za storitve identitete tretjih oseb, zamude v CloudWatch in oslabljen dostop do veder Amazon S3, tabel DynamoDB prek končnih točk VPC in težave pri priklicu Lambde brez strežnika funkcije.

Incident 7. decembra si deli vsaj ena lastnost z večjim izpadom, ki se je zgodil ob tem času lani: AWS je preprečil hitro komunikacijo s strankami o incidentu prek nadzorne plošče AWS Service Health.

"Poškodba naših nadzornih sistemov je odložila naše razumevanje tega dogodka in prezasedenost omrežja oslabil naše orodje Service Health Dashboard, da bi se pravilno preklopilo v našo regijo pripravljenosti,« AWS pojasnil.

Poleg tega se kontaktni center za podporo AWS opira na interno omrežje AWS, zato osebje med peturno motnjo ni moglo ustvariti novih primerov z običajno hitrostjo.

AWS pravi, da bo v začetku leta 2022 izdal novo različico svoje nadzorne plošče Service Health Dashboard, ki bo delovala v več regijah, da bi "zagotovila, da ne bomo imeli zamud pri komunikaciji s strankami."

Izpadi v oblaku se dogajajo. Google Cloud je imel svoj delež vozovnic in Microsoft Oktober je moral pojasniti svoj osemurni izpad. Čeprav so izpadi redki, so opomnik, da je javni oblak morda zanesljivejši od običajnih podatkovnih centrov, vendar gredo stvari narobe, včasih katastrofalnoin lahko vpliva na številne kritične storitve.

"Nazadnje se želimo opravičiti za vpliv, ki ga je ta dogodek povzročil za naše stranke," so sporočili iz AWS. »Čeprav smo ponosni na svojo zgodovino razpoložljivosti, se zavedamo, kako pomembne so naše storitve za naše stranke, njihove aplikacije in končne uporabnike ter njihova podjetja. Vemo, da je ta dogodek pomembno vplival na številne stranke. Naredili bomo vse, kar je v naši moči, da se iz tega dogodka naučimo in ga uporabimo za dodatno izboljšanje naše razpoložljivosti."

Programska oprema za podjetja

Naslednji velik izziv ChatGPT: Pomagati Microsoftu pri boju z Googlovim iskanjem

Kdaj bo Microsoft prenehal podpirati vašo različico sistema Windows ali Office?

Tehnika v letu 2023: 6 novih prednostnih nalog za vaš ožji izbor

14 najboljših storitev spletnega gostovanja: katera je prava za vaše spletno mesto?

Naslednji velik izziv ChatGPT: Pomagati Microsoftu pri boju z Googlovim iskanjem
Kdaj bo Microsoft prenehal podpirati vašo različico sistema Windows ali Office?
Tehnika v letu 2023: 6 novih prednostnih nalog za vaš ožji izbor
14 najboljših storitev spletnega gostovanja: katera je prava za vaše spletno mesto?