Amazon: Hier erfahren Sie, was den großen AWS-Ausfall letzte Woche verursacht hat

AWS erklärt, wie das Hinzufügen einer geringen Kapazitätsmenge zu Kinesis-Servern Dutzende von Diensten stundenlang lahmlegte.

Amazon Web Services (AWS) hat die Ursache erklärt der großflächige Stromausfall am vergangenen Mittwoch, was mehrere Stunden lang Tausende von Online-Diensten Dritter beeinträchtigte.

Besondere Funktion

Sonderbericht: Managing the Multicloud (kostenloses PDF)

Mehr Unternehmen als je zuvor nutzen mehrere Cloud-Anbieter. In diesem Sonderbericht bietet ZDNet Best Practices für die Verwaltung mehrerer Clouds sowie praktische Ratschläge zur Auswahl der richtigen Anbieter und Tools, die Sie bei der Verwaltung einer Multicloud-Umgebung unterstützen.

Lies jetzt

Während Dutzende von AWS-Diensten betroffen waren, gab AWS an, dass der Ausfall in der Region Nord-Virginia, US-Ost-1, aufgetreten sei. Dies geschah nach einer „kleinen Kapazitätserweiterung“ seiner Front-End-Flotte von Kinesis-Servern.

Kinesis wird von Entwicklern sowie anderen AWS-Diensten wie CloudWatch und Cognito-Authentifizierung verwendet, um Daten- und Videostreams zu erfassen und sie über AWS-Plattformen für maschinelles Lernen auszuführen.

SEHEN: Richtlinie für grüne Energie im IT-Rechenzentrum (TechRepublic Premium)

Das Front-End des Kinesis-Dienstes übernimmt die Authentifizierung, Drosselung und verteilt Arbeitslasten über einen Datenbankmechanismus namens Sharding an seinen Back-End-„Arbeitspferd“-Cluster.

Wie AWS in einer ausführlichen Zusammenfassung des Ausfalls feststellt, die Erweiterung der Kapazität löste den Ausfall aus, war aber nicht die eigentliche Ursache dafür. AWS fügte nach 2:44 Uhr PST eine Stunde lang Kapazität hinzu und danach alle Server im Kinesis-Frontend Die Flotte begann, die maximale Anzahl an Threads zu überschreiten, die in der aktuellen Betriebssystemkonfiguration zulässig ist.

Der erste Alarm wurde um 5:15 Uhr PST ausgelöst und die AWS-Ingenieure verbrachten die nächsten fünf Stunden damit, das Problem zu beheben. Kinesis wurde um 22:23 Uhr PST vollständig wiederhergestellt.

Amazon erklärt, wie die Front-End-Server Daten über sein Kinesis-Back-End verteilen: „Jeder Server in der Front-End-Flotte verwaltet einen Cache mit Informationen, einschließlich Mitgliedsdetails und Shard-Besitz für die Back-End-Cluster, genannt a Shard-Map.“

Laut AWS werden diese Informationen durch Aufrufe eines Mikroservices erhalten, der die Mitgliedschaftsinformationen verkauft. Abrufen von Konfigurationsinformationen von DynamoDB und kontinuierliche Verarbeitung von Nachrichten von anderen Kinesis-Frontends Server.

„Für die [Kinesis]-Kommunikation erstellt jeder Front-End-Server Betriebssystem-Threads für jeden der anderen Server in der Front-End-Flotte. Bei jeder Erweiterung der Kapazität erfahren die Server, die bereits Mitglieder der Flotte sind, vom Beitritt neuer Server und richten die entsprechenden Threads ein. Es dauert bis zu einer Stunde, bis ein bestehendes Front-End-Flottenmitglied neue Teilnehmer kennenlernt.“

Da die Anzahl der Threads die Betriebssystemkonfiguration überstieg, hatten die Front-End-Server „nutzlose Shard-Maps“ und waren nicht in der Lage, Anfragen an Kinesis-Back-End-Cluster weiterzuleiten. AWS hatte die zusätzliche Kapazität, die das Ereignis auslöste, bereits zurückgesetzt, hatte jedoch Bedenken, das Thread-Limit zu erhöhen, falls dies die Wiederherstellung verzögern sollte.

Als ersten Schritt hat AWS auf größere CPU- und Speicherserver umgestellt und die Gesamtzahl der Server und Threads reduziert, die jeder Server für die Kommunikation innerhalb der Flotte benötigt.

Es testet außerdem eine Erhöhung der Thread-Anzahl-Grenzwerte in seiner Betriebssystemkonfiguration und arbeitet daran, „die Kaltstartzeit für die Front-End-Flotte radikal zu verbessern“.

CloudWatch und andere große AWS-Dienste werden in eine separate, partitionierte Front-End-Flotte verlagert. Es wird auch an einem umfassenderen Projekt gearbeitet, um Fehler in einem Dienst davon abzuhalten, andere Dienste zu beeinträchtigen.

SEHEN: AWS eröffnet eine weitere Cloud-Computing-Region

AWS hat auch die Verzögerungen bei der Aktualisierung seines Service Health Dashboards während des Vorfalls eingeräumt, sagt jedoch Dies lag daran, dass das Tool, mit dem die Support-Techniker das öffentliche Dashboard aktualisieren, davon betroffen war Ausfall. Während dieser Zeit wurden die Kunden über das Personal Health Dashboard aktualisiert.

„Bei einem Ereignis wie diesem posten wir normalerweise im Service Health Dashboard. Zu Beginn dieser Veranstaltung konnten wir das Service Health Dashboard nicht aktualisieren, weil „Das Tool, mit dem wir diese Updates veröffentlichen, nutzt Cognito, das von diesem Ereignis betroffen war“, so AWS sagte.

„Wir möchten uns für die Auswirkungen entschuldigen, die dieses Ereignis für unsere Kunden verursacht hat.“

Amazonas

So verwandeln Sie Ihr altes Fire-Tablet in eine Echo Show

Tauschen Sie Ihre Altgeräte gegen Amazon-Geschenkkarten ein. Hier ist wie

Die besten Amazon-Tablets: Play with Fire

Amazon Kindle Scribe-Rezension: Sieben Monate später ist es nahezu perfekt

So verwandeln Sie Ihr altes Fire-Tablet in eine Echo Show
Tauschen Sie Ihre Altgeräte gegen Amazon-Geschenkkarten ein. Hier ist wie
Die besten Amazon-Tablets: Play with Fire
Amazon Kindle Scribe-Rezension: Sieben Monate später ist es nahezu perfekt