Software Berater Logo Software Berater #neuland seit 1993

A little less concentration, please

Vor zwei Tagen war der Ausfall von gleich zwei wichtigen IT-Lieferanten Ursache dafür, dass weltweit Flughäfen, Krankenhäuser und Verwaltungen nicht mehr funktionierten. Das Timing war unglücklich, um es vorsichtig zu formulieren. Natürlich ist es jetzt einfach, Microsoft und Crowdstrike auszulachen – aber ist das tatsächlich die Erkenntnis, die wir daraus ziehen sollten?

some screens showing the Windows BSOD, foto by x.com/CSchachat
Ausgefallene Terminals am Flughafen Detroit. Foto via x.com/CSchachat

Wie es scheint, war Microsoft selbst dabei von den Softwareproblemen betroffen, was zum Ausfall zahlreicher Microsoft365 Dienste am 19. Juli 2024 führte. Das ursächliche Problem mit der Crowdstrike Software “Falcon” ist von anderer, erschreckender Qualität. Kurz erklärt:

Crowdstrike ist ein amerikanischer Softwarehersteller. Deren Produkt “Falcon Sensor” ist eine Art Antivirensoftware unter Windows, und wird von mehr als 23.000 Unternehmen und Behörden eingesetzt. Das technische Problem bestand in fehlerhaftem Code, der per automatischem Update auf die Endgeräte geschickt wurde und dort in Form eines “Ring 0” Windows-Kernel-Treibers den berühmten “blue screen of death (BSOD)” verursachte. Weil die Schutzmaßnahmen gegen fehlerhaften Code auf dieser niedrigsten Ebene nicht mehr greifen. Wenn kaputt, dann kaputt.

Und da der Hersteller seine Updates mit großer Geschwindigkeit direkt an zahlreiche Endgeräte ausspielt, waren all diese Kassensysteme, Displays, Terminals, Server und vieles anderes betroffen.

Fun fact: Crowdstrike verbietet die Nutzung des Produktes per AGB in “kritischer Infrastruktur”1. 😎

Noch spannender als die rechtliche Bewertung finde ich Fragen wie diese:

  • Warum läuft auf so vielen POS Displays, Terminals & Co Windows? Und nicht Linux?
  • Wie kann die Infrastruktur eines einzelnen Herstellers weltweit2 derart signifikanten Einfluss haben?
  • Warum werden Updates nicht in Wellen verbreitet, sondern scheinbar “alles für alle sofort”?
  • Warum nutzt kritische deutsche Infrastruktur amerikanische Cloudservices im unattended-updates-Modus?
  • Warum läuft remote aktualisierbarer Code in Ring 0?
  • Führt der wirtschaftliche Schaden iHv geschätzt 24 Mrd USD zu einem Umdenken?

Auch wenn gewisse notorische Lautsprecher bereits verkündet haben, Crowdstrike von all ihren Systemen gelöscht zu haben – im Großen und Ganzen wird sich vermutlich wenig bewegen. Aber es wäre hilfreich, die IT hier und da zu diversifizieren. Wenn alle zusammen ihr Glück auf eine einzelne Karte setzen – what could possibly go wrong? Welche Macht und Verantwortung gestehen wir einem einzelnen Hersteller zu?

Wie rechtfertigen CIOs und CISO weltweit, dieses Risiko einzugehen?

  1. https://steigerlegal.ch/2024/07/21/crowdstrike-agb-kritische-infrastruktur/

  2. Nur Russland meldete, nicht betroffen zu sein. Weil die Sanktionen dies verhinderten.