Прекъсванията на услугата AWS пораждат съмнения относно надеждността

  • Oct 31, 2023

Прекъсвания, възникнали в един от облачните региони на Amazon Web Services, засегнаха популярния агрегатор Reddit, платформата за разработчици Heroku и други зависими от AWS сайтове

Прекъсванията на услугите, които засегнаха един регион в глобалния облак на Amazon, възпрепятстваха услугите на Reddit, Heroku и други зависими от облака сайтове и накара Reddit да постави под съмнение надеждността на Amazon Web Услуги.

Периодът на неравностойно обслужване настъпи периодично в четвъртък и продължи в петък, засягайки компонента Elastic Compute Cloud (EC2) на региона на източното крайбрежие на САЩ на Amazon Web Services (AWS).

Amazon AWS Reddit

Прекъсванията на услугата AWS причиниха прекъсване на Reddit. Кредит: ZDNet UK

Проблемите започнаха с увеличени закъснения в Обеми за еластично блоково съхранение (EBS). в региона в 2:45 ч. PDT (9:45 ч. GMT). Този проблем беше разрешен в 5:20 сутринта. В 20:54 AWS съобщи, че проблемите с връзката отново са засегнали региона. В 23:17 ч. AWS съобщи, че те произтичат от „неправилно работещо мрежово устройство“ и че мрежовата свързаност впоследствие е възстановена. Проблемите се появиха отново в 1:00 сутринта в петък с висока латентност и проценти на грешки за EBS API. Към момента на писане AWS не беше разкрил източника на този проблем.

„През това време клиентите може да са имали изчакване при извършване на тези повиквания или при опит за стартиране на нови екземпляри на EC2 в региона US-EAST-1. Продължаваме да наблюдаваме услугата“, пише AWS в нея табло за управление на здравето на услугата.

Засегнати сайтове

Продукт платформа като услуга Хероку, който работи на Amazon Web Services започна да се влияе от проблемите около 19:53 PDT в четвъртък. Той страдаше от мрежови проблеми, които доведоха до повишени нива на грешки за уеб заявки към неговата платформа и използване на неговите инструменти. Прекъсването продължи около три часа.

„Много приложения продължават да функционират нормално, но поради периодичния характер на проблема е трудно да се каже кои приложения са засегнати“, Heroku написа в 21:52ч.

Популярна агрегаторна услуга Reddit, която съобщи за един милиард показвания на страници на месец, също беше засегнат от престоя на AWS. Закъсненията причиниха „пълно спиране“ на сървърите на Reddit, зависими от AWS, системният администратор на Reddit Джейсън Харви написа в публикация в блог.

Спирането доведе до периодичен престой на сървърите, като проблемите бяха разрешени около 4 сутринта PDT. Проблемите обаче възникнаха отново в 10 сутринта в AWS EBS, което доведе до каскадна поредица от повреди в Reddit, поради грешни процеси на репликация в неговите бази данни.

„Все още проучваме защо репликацията е неуспешна. Всичко, което знаем, е, че определено се счупи, когато EBS дисковете на мастерите започнаха да имат проблеми“, пише Харви.

„Постоянен източник на провал“

Като следствие от прекъсването, Reddit обмисля мигриране на основните си услуги извън AWS EBS към хранилище, което е директно свързано с неговите екземпляри EC2. Reddit прекара последните няколко седмици в работа по мигрирането на една от основните си бази данни – a База данни Cassandra — в локално хранилище.

„Докато локалното хранилище има много по-малко функционалност от EBS, надеждността на локалното хранилище превъзхожда предимствата на [AWS] EBS“, пише Харви.

EBS на Amazon предизвикват смях по отношение на производителност и надеждност. Amazon трябва да ги поправи сега или Reddit трябва да се оттегли от EC2. – Дейвид Кинг, бивш програмист на Reddit

„Дори преди сериозното прекъсване снощи, претърпяхме произволни дискове, които се влошават няколко пъти седмично. Въпреки че разполагаме с защити за намаляване на латентността на малък набор от дискове чрез използване на Raid-0 ивици, честотата на влошаване стана много неприятна“, пише Харви.

Въпреки това, бивш Програмистът на Reddit Дейвид Кинг публикувано в Reddit дискусионна дъска в петък относно престоя, казвайки, че „EBS на Amazon са буре за смях по отношение на производителност и надеждност и са постоянен (и най-големият) източник на неуспех в Reddit“.

„Amazon трябва да ги поправи сега или Reddit трябва да се оттегли от EC2. За съжаление преместването е толкова огромен проект, че колкото и Reddit да няма персонал... несъстоятелно е в краткосрочен план както да поддържаме сайта работещ, така и да управляваме проекти като мигриране на центрове за данни“, пише Кинг, който използва името „ketralnis“ на сайта.

ZDNet UK се свърза с AWS за коментар относно тази история, но не получи отговор към момента на писане.


Вземете най-новите технологични новини и анализи, блогове и рецензии. доставени директно във входящата ви кутия с ZDNet UK. бюлетини.