Die Microsoft Cloud Azure-Devops war vergangene Woche für 10 Stunden nicht erreichbar – zumindest von Brasilien aus. Ein peinlicher Fehler hätte zusätzlich beinahe dafür gesorgt, dass etliche Einträge der Kundinnen und Kunden verschwunden sind.
Microsoft Cloud mit Screenshot-Automation
Der Totalausfall in Südbrasilien ereignete sich am 24. Mai von 12:10 bis 22:31 Uhr und sorgte dafür, dass etliche Kund*innen ihrer Arbeit nicht nachgehen konnten. Aber was war passiert? Von besagter Microsoft Cloud werden im Laufe der Zeit automatisch Screenshots erstellt. Dafür sorgt eine Automation in der Programmierung. Diese Aufnahmen müssten stets zu einer bestimmten Zeit vorgenommen werden, damit Microsoft in der Lage ist, Probleme zu erkennen und das Produkt zu verbessern. Eine weitere Automation sorgt dafür, dass diese Bildschirmaufnahmen nach einiger Zeit wieder gelöscht werden.
An besagten Tag Ende Mai kam es dann zu einem Fauxpas, der genau diese Programmierung betraf. Eigentlich hatte man eine umfangreiche Änderung in der Datenbankstruktur geplant. Dazu führte man einen sogenannten Pull Request. Diese Arbeitsanweisung sorgt in Softwareprojekten dafür, dass bisheriger Code geändert oder überschrieben wird.
In besagtem Code befanden sich auch die Automatisierungen zum Erstellen und späteren Löschen der Screenshots. Durch einen Tippfehler wurde diese Automatisierung jedoch so umgeschrieben, dass sie eben keine alten Screenshots mehr löscht. Stattdessen wurde der Azure SQL Server entfernt. Die Datenbank der Microsoft Cloud war entsprechend nicht mehr vorhanden.
Daten mussten manuell wieder hergestellt werden
„Die Bedingungen, unter denen dieser Code ausgeführt wird, sind selten und wurden von unseren Tests nicht ausreichend abgedeckt.“, gesteht Microsoft ein. Für die Kundinnen und Kunden bedeutete das, dass alle Daten auf der Microsoft Cloud und damit etliche IT-Projekte gelöscht wurden.
Zum Glück wurde der Fehler bereits nach 20 Minuten entdeckt. Jedoch kam erschwerend hinzu, dass der Server nicht automatisch wieder hergestellt werden konnte. Stattdessen mussten die Anpassungen der Microsoft Cloud manuell rückgängig gemacht werden.
Microsoft beteuert, dass der Tippfehler in jedem Falle ausgemerzt wurde. Zudem haben die Entwicklerinnen und Entwickler einen Test geschrieben, der diesen Fehler vor dem Pull Request prüft und entsprechend vorab warnen kann. Zudem trifft man weitere Sicherheitsvorkehrungen, damit Daten künftig nicht mehr einfach gelöscht werden und die Kundschaft auch weiterhin auf die Microsoft Cloud zugreifen kann.
Quelle: Azure DevOps
Seit dem 24. Februar 2022 herrscht Krieg in der Ukraine. Hier kannst du den Betroffenen helfen.