Перебої в роботі AWS викликають сумніви в надійності

  • Oct 31, 2023

Збої, які сталися в одному з хмарних регіонів Amazon Web Services, вразили популярний агрегатор Reddit, платформу розробників Heroku та інші сайти, залежні від AWS.

Перебої в роботі сервісів, що вразили один регіон у глобальній хмарі Amazon, заважали службам Reddit, Heroku та інших веб-сайтів, що залежать від хмари, і змусив Reddit засумніватися в надійності Amazon Web Послуги.

Період нерівного обслуговування відбувався з перервами в четвер і тривав у п’ятницю, впливаючи на компонент Elastic Compute Cloud (EC2) Amazon Web Services (AWS) у регіоні східного узбережжя США.

Amazon AWS Reddit

Перебої в роботі AWS призвели до простою Reddit. Авторство: ZDNet UK

Проблеми почалися із збільшення затримок Томи Elastic Block Storage (EBS). в регіоні о 2:45 за тихоокеанським літнім часом (9:45 за Гринвічем). Цю проблему було вирішено о 5:20 ранку. О 20:54 AWS повідомила, що в регіоні знову виникли проблеми з підключенням. О 23:17 AWS повідомила, що вони виникли через «мережевий пристрій, що не працює», і що згодом підключення до мережі було відновлено. Проблеми знову виникли о 1:00 у п’ятницю з високою затримкою та частотою помилок для API EBS. На момент написання статті AWS не розкрила джерело цієї проблеми.

«Протягом цього часу клієнти могли зіткнутися з тайм-аутами під час виконання цих дзвінків або під час спроби запустити нові екземпляри EC2 у регіоні US-EAST-1. Ми продовжуємо стежити за роботою сервісу», – йдеться в повідомленні AWS інформаційна панель справності служби.

Постраждалі сайти

Продукт «платформа як послуга». Героку, котрий працює на Amazon Web Services почалися проблеми приблизно о 19:53 за тихоокеанським літнім часом у четвер. У нього виникли проблеми з мережею, що призвело до збільшення кількості помилок для веб-запитів до його платформи та використання його інструментів. Перебої тривали близько трьох годин.

«Багато додатків продовжують нормально функціонувати, але через періодичний характер проблеми важко визначити, які додатки вплинули», — сказав Героку. написав о 21:52.

Популярний сервіс-агрегатор Reddit, про який повідомляється над один мільярд переглядів сторінок на місяць, також вплинув час простою AWS. Затримки спричинили «повну зупинку» серверів Reddit, залежних від AWS, заявив системний адміністратор Reddit Джейсон Харві написав у дописі в блозі.

Зупинка призвела до періодичного простою серверів, і проблеми були вирішені приблизно о 4 ранку за тихоокеанським літнім часом. Однак проблеми знову виникли о 10 ранку в AWS EBS, що призвело до каскадної серії збоїв у Reddit через неправильні процеси реплікації в його базах даних.

«Ми все ще з’ясовуємо, чому не вдалося реплікувати. Все, що ми знаємо, це те, що він точно зламався, коли почалися проблеми з дисками EBS на майстер-класах», — написав Харві.

«Постійне джерело невдачі»

Через час простою Reddit планує перенести свої основні служби з AWS EBS у сховище, яке безпосередньо під’єднано до екземплярів EC2. Останні кілька тижнів Reddit працював над перенесенням однієї зі своїх основних баз даних — a База даних Cassandra — на локальне сховище.

«Хоча локальне сховище має набагато меншу функціональність, ніж EBS, надійність локального сховища переважує переваги [AWS] EBS», — написав Харві.

Системи EBS від Amazon викликають сміх з точки зору продуктивності та надійності. Amazon має виправити це зараз, або Reddit має відійти від EC2. – Девід Кінг, колишній програміст Reddit

«Навіть до серйозного збою минулої ночі ми стикалися з випадковими деградаціями дисків кілька разів на тиждень. Хоча у нас є засоби захисту для зменшення затримки на невеликому наборі дисків за допомогою смуг Raid-0, частота деградації стала дуже неприємною», – написав Харві.

Однак колишній Програміст Reddit Девід Кінг опубліковано на Reddit дискусійна дошка в п'ятницю щодо простою, сказавши, що «системи EBS Amazon викликають сміх з точки зору продуктивності та надійності та є постійним (і найбільшим) джерелом збоїв у Reddit».

«Amazon має виправити це зараз, або Reddit має відійти від EC2. На жаль, переїзд — це такий величезний проект, що такий же брак персоналу, як Reddit... у короткостроковій перспективі неможливо як підтримувати сайт, так і запускати такі проекти, як міграція центрів обробки даних», – написав Кінг, який використовує на сайті назву «ketralnis».

ZDNet UK звернувся до AWS, щоб отримати коментар щодо цієї історії, але на момент написання статті не отримав відповіді.


Отримуйте останні новини та аналіз технологій, блоги та огляди. доставлено безпосередньо до вашої скриньки з ZDNet Великобританії. інформаційні бюлетені.