Letzte Woche wurden Millionen von Windows-Rechnern aufgrund eines fehlerhaften Updates von CrowdStrike zum Stillstand gebracht. Der Vorfall, von dem rund 8,5 Millionen Geräte betroffen waren, wurde auf einen Fehler in der Testsoftware zurückgeführt.
Das fehlerhafte Update rutschte durch den Validierungsprozess und führte zu zahlreichen Abstürzen. Dieses CrowdStrike-Problem hat das Unternehmen dazu veranlasst, bei zukünftigen Updates strengere Tests und eine verbesserte Fehlerbehandlung durchzuführen.
Das CrowdStrike-Problem hat Microsoft-Ausfall erreicht
Das jüngste Fiasko von CrowdStrike ist kein Einzelfall CrowdStrike-Problem; es steht im Einklang mit den größeren Herausforderungen der Technologiebranche. Auch Microsoft erlitt deswegen einen wichtigen Ausfall, der das Chaos so weit verschärfte, dass es Länder betraf. Obwohl die Ursachen des Microsoft-Ausfalls unterschiedlich waren, verdeutlichten die gleichzeitig auftretenden Probleme die fragile Natur von Cloud-Diensten und die Welleneffekte von Softwarefehlern. Letztendlich war das CrowdStrike-Problem der Auslöser. Solche Vorfälle unterstreichen die Notwendigkeit robuster Test- und Validierungsprozesse in allen Bereichen.
Was ist ein CrowdStrike-Ausfall?
Die Falcon-Software von CrowdStrike ist ein wichtiges Tool für Unternehmen und bietet robusten Schutz vor Malware und Sicherheitsverletzungen auf Millionen von Windows-Rechnern. Das CrowdStrike-Problem entstand, als ein routinemäßiges Update der Inhaltskonfiguration, das Telemetriedaten über potenzielle Bedrohungen sammeln sollte, stattdessen einen katastrophalen Absturz verursachte. Dieses Update war Teil des Rapid Response Content, einer kleinen 40 KB großen Datei, die nicht richtig funktionierte und zu weit verbreiteten Systemausfällen führte. Das sieht aus wie alte Viren. Es ist, als hätte man ein „Esel“-Ton und ein endloser Strom bedeutungsloser Warnmeldungen erklingen, und Ihr Computer fährt unfreiwillig herunter.
Die Anatomie des Ausfalls
Das CrowdStrike-Problem hing damit zusammen, dass Rapid Response Content den Falcon-Sensor aktualisierte, um die Malware-Erkennung zu verbessern. Dieses spezielle Update enthielt problematische Inhaltsdaten, die aufgrund eines Fehlers den Content Verifier passieren konnten. CrowdStrike sagt, dass es normalerweise sowohl automatisierte als auch manuelle Tests für seine Updates durchführt. Quick Response Content wurde jedoch nicht denselben gründlichen Tests wie andere Updates unterzogen oder schaffte es irgendwie, den Test zu bestehen, was zu dem katastrophalen Absturz führte.
Wie konnte alles schiefgehen?
Das CrowdStrike-Problem lässt sich auf eine falsche Annahme hinsichtlich der Zuverlässigkeit ihres Content Validators zurückführen. Im März ließ eine neue Bereitstellung von Template Types CrowdStrike glauben, ihr Validierungsprozess sei narrensicher. Dieses Vertrauen erwies sich jedoch als fehl am Platz. Der problematische Rapid Response Content wurde in den Content Interpreter des Sensors geladen und löste eine Speicherausnahme aufgrund von zu wenig Speicher aus, die Windows nicht verarbeiten konnte, was zum berüchtigten Blue Screen of Death (BSOD) führte.
Wann begann der CrowdStrike-Ausfall? Zeitleiste des Problems
Das CrowdStrike-Problem trat an einem Freitag auf, einem Tag, an dem Unternehmen normalerweise am Wochenende ihren Betrieb einstellen. Der Zeitpunkt hätte nicht schlechter sein können, da es in zahlreichen Organisationen zu sofortigen Störungen führte. Das fehlerhafte Update, das eigentlich die Sicherheit verbessern sollte, legte stattdessen die Systeme lahm und verursachte erhebliche Ausfallzeiten und Frustration.
Erste Reaktion und Schadensbegrenzung
CrowdStrike identifizierte schnell die problematische Rapid Response Content-Datei als Ursache des Problems. Trotz der schnellen Identifizierung war der Schaden bereits angerichtet. Unternehmen, die auf CrowdStrike Falcon angewiesen waren, mussten sich beeilen, die Auswirkungen des Absturzes einzudämmen. Die Dringlichkeit der Situation veranlasste CrowdStrike, einen detaillierten Post Incident Review (PIR) zu veröffentlichen, in dem die Grundursache und ihr Plan zur Verhinderung zukünftiger Vorfälle dargelegt wurden.
Verpflichtungen zur Vermeidung zukünftiger Probleme
Als Reaktion auf das CrowdStrike-Problem hat das Unternehmen mehrere Maßnahmen versprochen, um sicherzustellen, dass sich ein solches Desaster nicht wiederholt. Dazu gehören:
- Erweiterte Tests: Implementierung lokaler Entwicklertests, Inhaltsaktualisierungs- und Rollback-Tests, Stresstests, Fuzzing und Fehlerinjektion.
- Verbesserte Fehlerbehandlung: Verbesserung der Fehlerbehandlungsfunktionen des Content Interpreter im Falcon-Sensor.
- Gestaffelte Bereitstellung: Aktualisierungen werden schrittweise für größere Teile der Installationsbasis bereitgestellt, anstatt sie sofort bereitzustellen.
Was ist CrowdStrike Falcon? Der Beschützer in Frage
CrowdStrike Falcon ist die Software, die im Mittelpunkt dieses Problems steht. Es handelt sich um eine Cloud-basierte Plattform, die Endpunktschutz bietet und Antivirus, Bedrohungsinformationen sowie Endpunkterkennung und -reaktion (EDR) kombiniert. Die Hauptfunktion der Software besteht darin, vor Malware und Sicherheitsverletzungen zu schützen, was sie zu einem wichtigen Tool für Unternehmen weltweit macht.
So funktioniert Falcon
Falcon funktioniert, indem es Sensoren auf Kernelebene in Windows-Rechnern einsetzt. Diese Sensoren überwachen kontinuierlich verdächtige Aktivitäten und nutzen KI und maschinelles Lernen, um die Erkennungsfunktionen zu verbessern. Updates dieser Sensoren, wie der Rapid Response Content, sind entscheidend, um einen aktuellen Schutz vor neuen Bedrohungen aufrechtzuerhalten.
Die Rolle von Rapid-Response-Inhalten
Rapid Response Content-Updates sind darauf ausgelegt, das Verhalten der Falcon-Sensoren zu optimieren, damit diese neue Formen von Malware erkennen können. Diese Updates sind normalerweise klein und schnell zu implementieren, was sie zu einem wesentlichen Bestandteil der Funktionalität von Falcon macht. Das CrowdStrike-Problem hat jedoch die potenziellen Risiken aufgezeigt, wenn diese Updates nicht gründlich validiert werden.
Das Ministerium und die Cybersecurity and Infrastructure Security Agency (@CISAgov) arbeiten mit CrowdStrike, Microsoft und unseren Partnern auf Bundes-, Landes- und lokaler Ebene sowie im Bereich der kritischen Infrastruktur zusammen, um Systemausfälle umfassend zu bewerten und zu beheben.
— Heimatschutzministerium (@DHSgov) 19. Juli 2024
Lehren aus dem CrowdStrike-Problem
Das CrowdStrike-Problem ist eine deutliche Erinnerung daran, wie wichtig robuste Test- und Validierungsprozesse sind. Obwohl das Unternehmen mehrere Maßnahmen zur Verhinderung künftiger Vorfälle skizziert hat, wird die Tech-Community die Entwicklung zweifellos genau beobachten. Die Gewährleistung der Zuverlässigkeit von Sicherheitssoftware ist von größter Bedeutung, und das CrowdStrike-Problem hat deutlich gemacht, was damit auf dem Spiel steht.
Das CrowdStrike-Problem unterstreicht die heikle Balance zwischen schnellen Updates und Systemstabilität. Da Unternehmen in puncto Sicherheit weiterhin stark auf derartige Software angewiesen sind, werden die aus diesem Vorfall gewonnenen Erkenntnisse für die Gestaltung zukünftiger Praktiken und Protokolle von entscheidender Bedeutung sein.
Bildnachweis: Scoop-Nachrichtengruppe
Source: Crashkurs zum Thema CrowdStrike