IBM Cloud: Vierte Großstörung durch IAM-Ausfälle

IBM Cloud: Vierte Großstörung seit Mai – IAM-Ausfälle offenbaren Architektur-Schwächen

IBM Cloud wurde von einer vierten Großstörung seit Mai getroffen: Authentifizierungsausfälle im IAM blockierten den Zugriff auf 41 Dienste über Konsole, CLI und API. Analysten sehen systemische Schwächen in der Control-Plane.

Marcel Schönfelder

IT-Freelancer & Inhaber

IBM Cloud ist seit Mai 2025 von einer Serie kritischer Ausfälle betroffen, die wiederholt das zentrale Identity & Access Management (IAM) lahmlegten. Bei der mittlerweile vierten als kritisch eingestuften Störung konnten Unternehmensnutzer über Konsole, CLI und API nicht mehr auf ihre Cloud-Dienste zugreifen. Mit 41 betroffenen Services und der höchsten Alarmstufe Severity One (Sev-1) deuten Branchenanalysten die Vorfälle nicht als isolierte Einzelfälle, sondern als Zeichen systemischer Fragilität in IBMs Control-Plane-Architektur.

Was ist passiert

Die Störungsserie begann am 20. Mai 2025 mit einem rund zweistündigen Ausfall. Es folgten weitere kritische Vorfälle Anfang Juni 2025 – darunter eine Unterbrechung von über 14 Stunden am 3. Juni sowie weitere Ausfälle am 4. und 5. Juni. Auslöser der schwerwiegendsten Episode waren laut Recherchen Updates am Cloud-Logs-Service, die interne Traffic-Muster erzeugten, welche das IAM überforderten. Da die Authentifizierungsschicht ausfiel, war der Zugriff auf zahlreiche nachgelagerte Dienste blockiert.

Betroffen waren je nach Vorfall zwischen rund 27 und 54 Services; in der Spitze waren 41 Dienste gleichzeitig beeinträchtigt. Dazu zählten unter anderem Virtual Private Cloud, Kubernetes, Databases, der AI Assistant, Watson, DNS sowie Hyper Protect Crypto Services. Zeitweise war auch das Support-Portal selbst unterbrochen, was die Eskalation für betroffene Kunden zusätzlich erschwerte. Die Wiederherstellung der Dienste dauerte im schwersten Fall rund 14 Stunden.

Charakteristisch für die Serie war, dass nicht ein einzelner Dienst, sondern die übergreifende Authentifizierungsebene betroffen war. Dadurch wirkten sich die Vorfälle breit über das gesamte Service-Portfolio aus, statt sich auf einzelne Komponenten zu beschränken.

Einordnung

Industrie-Analysten sehen in der Häufung der Vorfälle ein strukturelles Muster: Wenn ein Update an einem nachgelagerten Dienst wie dem Cloud-Logs-Service genügt, um die zentrale Authentifizierung in die Knie zu zwingen, deutet das auf eine zu enge Kopplung und fehlende Isolierung in der Control Plane hin. Das IAM ist als zentraler Engpass besonders kritisch, weil ein Ausfall hier praktisch alle abhängigen Services unzugänglich macht – unabhängig davon, ob diese selbst noch funktionsfähig wären.

Hinzu kommt, dass die Vorfälle innerhalb weniger Wochen mehrfach auftraten. Diese zeitliche Dichte unterscheidet die Episode von einem einmaligen Zwischenfall und verschärft die Frage nach der grundsätzlichen Belastbarkeit der zugrunde liegenden Architektur.

Zur Marktperspektive: IBM Cloud hält mit rund 2 Prozent Marktanteil eine vergleichsweise kleine Position gegenüber den Hyperscalern AWS (etwa 30 Prozent) und Microsoft Azure (etwa 21 Prozent). Wiederholte Sev-1-Ausfälle innerhalb weniger Wochen belasten das Zuverlässigkeitsvertrauen und liefern Argumente für eine Cloud-Diversifikation – gerade für Enterprise-Kunden mit Produktionsworkloads.

Als längerfristige Maßnahmen nennen Analysten eine Architektur-Überprüfung der Control Plane rund um IAM und Authentifizierung, Redundanzverbesserungen bei der Integration des Logs-Service sowie eine Load-Balancing-Optimierung für Traffic-Spitzen. IBM hat den Wiederherstellungsprozess jeweils eingeleitet und die Dienste nach der Spitzen-Störung nach rund 14 Stunden wiederhergestellt.

Für wen ist das relevant

Kritisch sind die Vorfälle für IBM-Cloud-Kunden weltweit über mehrere Regionen hinweg. Enterprise-Anwender waren in der Spitze über 14 Stunden vom Ressourcen-Management abgeschnitten; Produktionsworkloads und Datenpfade waren beeinträchtigt. Wer geschäftskritische Anwendungen auf IBM Cloud betreibt, sollte die eigene Abhängigkeit vom IAM bewerten und prüfen, welche Workloads bei einem erneuten Authentifizierungsausfall stillstehen würden.

Konkret empfehlen Fachleute, Multi-Cloud- und Failover-Strategien zu evaluieren, Notfallpläne zu überprüfen und kritische Datenpfade gegen einen einzelnen Control-Plane-Ausfall abzusichern. Das wiederholte Ausfallmuster erhöht das Geschäftsrisiko und macht robuste Ausweichkonzepte für betroffene Organisationen zur Pflicht.

Quellen

Weiterführende Informationen bei Network World, Fierce Network, Greyhound Research sowie im offiziellen IBM Cloud Status.

Was ist passiert

Einordnung

Für wen ist das relevant

Quellen

Weiter lesen

Joplin mit Docker installieren: Quelloffene Notiz- und To-do-App mit selbst gehostetem Server

Penpot mit Docker installieren: Open-Source-Designtool als Figma-Alternative selbst hosten

Super Productivity mit Docker installieren: Fortgeschrittene To-do- und Zeiterfassungs-App selbst hosten