18 November 2024

Welche Schritte sollten unternommen werden, um Ausfälle wie den CrowdStrike‑Vorfall zu vermeiden?

Der Vorfall mit CrowdStrike hat die Anfälligkeit globaler IT-Systeme und die Bedeutung solider Software-Update-Prozesse deutlich gemacht. „Um die Auswirkungen möglicher unerwarteter Fehler zu minimieren, sollte der Administrator die volle Kontrolle über den gesamten Aktualisierungsprozess haben“, erklärt ein Experte von Stormshield. Er empfiehlt außerdem eine Lösung, die in dieser Phase angewendet werden sollte.

Der „Blue Screen of Death“ (BSOD), also das Ergebnis eines Softwarefehlers bei CrowdStrike, trat laut Schätzungen auf etwa 8,5 Millionen Geräten weltweit auf. Luftfahrt, Bankenwesen oder Gesundheitswesen – Probleme betrafen fast 60 % der Unternehmen der Fortune-500-Liste, die in vielen Schlüsselbranchen tätig sind.

Ein Vorfall, der außer Kontrolle geriet

Das große Ausmaß der Störung war mit der Popularität dieser Lösungen, insbesondere in den USA, und der gleichzeitigen, automatischen Aktualisierung von CrowdStrike und dem MS Windows-System verbunden. Schätzungen zufolge belaufen sich die Verluste, die durch die Verwirrung verursacht wurden, auf Milliarden von US-Dollar.

Der CrowdStrike-Vorfall hat uns wertvolle Lehren für die Zukunft geliefert und die Notwendigkeit ständiger Verbesserungen von Sicherheitsprozeduren sowie die Bereitschaft auf potenzielle Bedrohungen aufgezeigt, die nicht unbedingt von feindlichen Aktionen ausgehen müssen

Aleksander Kostuch

Ingenieur bei Stormshield, Hersteller von IT-Sicherheitslösungen.

Bevor CrowdStrike eine Lösung für das Problem lieferte, tauchten die ersten Methoden zur Umgehung des Fehlers auf. Für Unternehmen – die in großem Umfang von den betroffenen Lösungen Gebrauch machten – bestand die größte Herausforderung jedoch im direkten Zugriff auf die beschädigten Maschinen.

Die Reparatur erforderte manuelle Eingriffe, wie das Starten der Computer im abgesicherten Modus und das Löschen bestimmter Systemdateien. Der Helpdesk konnte das Problem nicht aus der Ferne beheben, da der eingefrorene Computer physisch erreicht werden musste. In den meisten internationalen Unternehmen wird die IT-Betreuung jedoch ausgelagert und oft von einem anderen Land aus durchgeführt. Auf den persönlichen Besuch eines Technikers musste gewartet werden, was zu einem langanhaltenden Ausfall von Diensten und enormen Verlusten führte. Der gesamte Prozess war einfach zeitaufwändig, was die Situation in Unternehmen, die die Festplattenverschlüsselung BitLocker verwenden, noch komplizierter machte

Aleksander Kostuch

Ingenieur bei Stormshield

Updates sind entscheidend, aber testen Sie sie in einer Testumgebung

Eine grundlegende Regel, die Unternehmen und ihre IT-Administratoren zur Minderung der Auswirkungen ähnlicher Vorfälle befolgen sollten, ist die vollständige Netzwerkkontrolle über jede wichtige Aktualisierung. Diese sollte eine individuelle Entscheidung darüber umfassen, ob EDR-Software oder Firmware-Updates auf den Geräten installiert werden. Selbstverständlich ist im Hinblick auf maximale Sicherheit eine korrekte Update-Politik von entscheidender Bedeutung. Das beschriebene Beispiel zeigt jedoch, dass der Teufel im Detail stecken kann.

Wir sollten zwar auf Updates achten, aber gleichzeitig die Regel befolgen, dass neue Softwareversionen nicht automatisch auf allen Geräten implementiert werden sollten. Der Administrator sollte sie zuerst in einer Pilotgruppe testen. Die Einrichtung einer Testgruppe ist eine der besten Praktiken, um die Auswirkungen potenzieller Fehler zu minimieren. Wir implementieren das Update in einer geschlossenen Umgebung, und wenn nach einem festgelegten Zeitraum, der den Best Practices entspricht, ein Bluescreen oder ein anderes Systemproblem auftritt, kann die Massenaktualisierung gestoppt werden, und der Fehler legt nicht den Betrieb der gesamten Organisation lahm

Aleksander Kostuch

Ingenieur bei Stormshield

Der Experte rät, wie man eine Testumgebung für Software-Updates organisiert

Eine Testumgebung sollte von der Produktionsumgebung isoliert sein, damit mögliche Probleme die restliche Infrastruktur nicht beeinträchtigen. Hier sind 8 Grundsätze, an denen sich IT-Administratoren orientieren sollten:

Wählen Sie eine Gruppe von Geräten aus, die als erste die Updates erhalten, wobei Sie repräsentative Geräte verschiedener Hardwaretypen und Konfigurationen auswählen, um die Produktionsumgebung möglichst genau nachzubilden. Es ist sinnvoll, sowohl ältere als auch neuere Geräte in die Pilotgruppe aufzunehmen, um potenzielle Probleme in einem breiteren Spektrum zu identifizieren.
Simulieren Sie in der Testumgebung reale Belastungen und typische Nutzungsszenarien, um zu prüfen, wie sich das Update auf die Systemleistung und Stabilität auswirkt. Simulationen können verschiedene Aktivitäten umfassen, wie das Arbeiten mit großen Dateien, intensive Netzwerknutzung oder funktionale Tests, die spezifisch für die jeweilige Organisation sind.
Sammeln Sie detaillierte Protokolle, die eine schnelle Identifizierung und Diagnose von Problemen ermöglichen, wie etwa automatisches Berichten von Vorfällen oder kritischen Fehlern. Dies hilft, schnell auf Probleme zu reagieren.
Definieren Sie Verfahren und Tools, die es ermöglichen, problematische Updates schnell aus der Testumgebung zurückzunehmen, bevor sie in größerem Umfang eingeführt werden. Dies kann das Erstellen von Systemwiederherstellungspunkten, Backups, das Nutzen von Ersatzpartitionen oder Snapshots von virtuellen Maschinen vor dem Einspielen der Updates umfassen.
Neben den Standardtests sollten auch Notfallszenarien getestet werden, wie etwa die Wiederherstellung des Systems nach einem Ausfall, der Neustart nach einem Bluescreen (BSOD) oder die Datenwiederherstellung aus einem Backup. Dies bereitet auf die schlimmsten Szenarien vor.
Dokumentieren Sie potenzielle Risiken und die entsprechenden Maßnahmen für den Umgang mit Problemen sorgfältig.
Führen Sie vor jedem Update eine Risikoanalyse durch, um die Kritikalität des Updates und dessen Auswirkungen auf die Organisation zu bewerten sowie potenzielle Risiken und Vorteile des Rollouts abzuwägen.
Bei Updates mit hohem Risiko ist es ratsam, die Benutzer und Dienstanbieter im Voraus zu informieren und sicherzustellen, dass technischer Support während der Übergangsphase verfügbar ist.

Es ist erwähnenswert, dass die Software die Wahl zwischen manuellen und kontrollierten Updates sowie vollständig automatischen Updates ermöglicht. Dies ist bei den meisten EDR-Programmen, ähnlich wie CrowdStrike Falcon oder Stormshield Endpoint Security, der Fall, die die Möglichkeit manueller Updates bieten. Obwohl die Nutzung dieser Option mehr Engagement erfordert, kann sie viele Vorteile bringen

Aleksander Kostuch

Ingenieur bei Stormshield

Planen Sie, wie Sie im Falle eines Ausfalls vorgehen werden

Experten von Stormshield weisen auf die Bedeutung von Prozessen und Dokumenten in Bezug auf Pläne zur Aufrechterhaltung des Geschäftsbetriebs (BCP – Business Continuity Plan) und Verfahren zur Wiederherstellung des Zugriffs auf Daten und IT-Systeme nach einem Ausfall (DR – Disaster Recovery) hin. Neben digitalen Vorfällen können auch Naturkatastrophen, Brände oder Vandalismus die Ursache für Ausfälle sein.

Das frühzeitige Erstellen von Plänen zur Aufrechterhaltung des Geschäftsbetriebs ist für Unternehmen von entscheidender Bedeutung. Diese Pläne legen fest, wie das Unternehmen im Krisenfall weiterarbeiten wird, selbst wenn es in eine andere Niederlassung umziehen muss. Natürlich reicht es nicht aus, die Pläne nur vorzubereiten, sie müssen regelmäßig getestet und an die aktuellen Betriebsbedingungen des Unternehmens angepasst werden.

Paweł Śmigielski

Country Manager Stormshield in Polen

information stormshield

Zurück

Piotr Zielaskiewicz
product manager STORMSHIELD

Haben Sie Fragen?
Nehmen Sie Kontakt auf:
zielaskiewicz.p@dagma.pl
32 259 11 38