Cloudflare-Störung: Ein Netzwerkfehler mit Dominoeffekt
Cloudflare-Ausfall legt ChatGPT, X und weitere Dienste lahm. Ursache war ein interner Fehler in der Bot-Abwehr. Was passiert ist – und warum.
Ein Rechtefehler bei Cloudflare stoppte zentrale Internetdienste. Der Ausfall zeigt die Verwundbarkeit digitaler Infrastruktur.
Foto: Smarterpix / MichaelVi
Am Dienstag kam es weltweit zu Ausfällen zahlreicher Onlinedienste. Betroffen waren unter anderem ChatGPT, X, Discord, Perplexity, Truth Social und mehrere große Unternehmensseiten wie ikea.com. Ursache war kein Angriff, sondern ein interner Fehler beim Infrastrukturanbieter Cloudflare.
Cloudflare ist tief in das Funktionieren des modernen Internets eingebettet. Die Dienste des Unternehmens beschleunigen Webseiten, filtern schädliche Datenströme und blockieren automatisierte Anfragen. Fällt diese Schicht aus, spüren das Millionen Nutzende direkt – so wie an diesem Tag.
Cloudflare veröffentlichte inzwischen eine detaillierte Analyse. Sie zeigt: Eine fehlerhafte Änderung an internen Zugriffsrechten löste eine Kettenreaktion aus, die zentraler kaum hätte ausfallen können.
Inhaltsverzeichnis
Wie alles begann – und warum der Fehler so schwer zu fassen war
Laut Cloudflare-Chef Matthew Prince begann der Ausfall um 12:28 Uhr MEZ. Zunächst sah es nach einer klassischen Überlastung aus. Verschärft wurde die Lage durch einen kuriosen Zufall: Die extern gehostete Statusseite des Unternehmens ging zeitgleich offline. Damit fehlte das wichtigste Diagnosewerkzeug.
Prince schreibt dazu in seinem Blogeintrag: „Wir dachten zuerst, wir würden angegriffen.“
Der Verdacht kam nicht von ungefähr. Erst wenige Tage zuvor hatte Microsoft eine rekordgroße Angriffswelle öffentlich gemacht. Auch bei Cloudflare kursierte der Verdacht, dass ein Botnetz „Muskeln zeigen wolle“, wie Prince in einem internen Chat mutmaßte. Doch die Spur führte in eine ganz andere Richtung.
Der eigentliche Auslöser: Eine Datei wächst außer Kontrolle
Cloudflare beschreibt den technischen Kern des Problems so: Eine interne Datenbank, in der Zugriffseigenschaften gespeichert werden, erhielt durch eine Änderungen an den Zugriffsrechten plötzlich viel mehr Einträge als vorgesehen. Eine einzelne Datei wurde dadurch zu groß – und genau diese Datei ist essenziell für ein System, das Cloudflare zur Bewertung von automatisierten Zugriffen nutzt.
Dieses System arbeitet mit maschinellen Lernverfahren und ordnet jeder Anfrage einen „Bot Score“ zu. Er soll einschätzen, wie wahrscheinlich es sich um einen Bot handelt. Die übergroße Datei führte jedoch dazu, dass die Berechnung falsche Ergebnisse lieferte.
Konsequenz:
- Einige Dienste wurden blockiert, weil das System fälschlicherweise massenhaft Bot-Anfragen erkannte.
- Andere Dienste waren nicht betroffen, weil sie nicht auf genau diese Sicherheitskomponente setzen.
Cloudflare erklärt: „Die Datei enthält Merkmale von Anfragen, die bei der Bewertung helfen. Nachdem sie zu groß geworden war, wurden Bot-Scores falsch berechnet.“ Kurz gesagt: Das System hielt plötzlich zu viele Anfragen für Bots – und blockierte legitimen Verkehr.
Warum das Internet plötzlich ruckelte
Cloudflare ist für viele Webseiten ein unsichtbarer, aber zentraler Vermittler. Die wichtigsten Komponenten:
- Content Delivery Network (CDN): Inhalte liegen auf weltweit verteilten Servern, was Ladezeiten reduziert.
- Firewall und Bot-Abwehr: Systeme filtern schädlichen Traffic, verhindern DDoS-Angriffe und blockieren Bots.
Als Teile dieses Geflechts ausfielen, waren die Effekte sofort sichtbar.
In Deutschland berichteten Nutzende schon kurz nach Mittag von massiven Störungen. Besonders auffällig: Sogar allestörungen.de – eigentlich ein Portal für Ausfallmeldungen – war zeitweise selbst kaum erreichbar.
Ein Beispiel für die Fehlermeldungen war: „Lassen Sie challenges.cloudflare.com zu, um fortzufahren.“ Diese Hinweise zeigten deutlich, dass die Cloudflare-Prüfmechanismen ins Stocken geraten waren.
Zwischen Hoffnung und Frust – ein unruhiger Nachmittag
Gegen 15:42 Uhr meldete Cloudflare intern, dass eine korrigierte Konfiguration verteilt werde. Doch die Situation blieb volatil.
- In Düsseldorf war ChatGPT um 16:25 Uhr weiterhin nicht erreichbar.
- Um 16:38 Uhr funktionierte der Dienst nach einem Cache-Löschen wieder.
Diese Unterschiede zeigen: Die Störung traf einzelne Regionen und Dienste unterschiedlich stark. Manche Services liefen zwischendurch wieder, andere fiel kurz darauf erneut aus.
Warum dauerte die Lösung fast sechs Stunden?
Cloudflare brauchte etwa 1,5 Stunden, um den Fehler überhaupt zu identifizieren.
Ab 14:30 Uhr konzentrierte sich das Team auf die fehlerhafte Datei.
- Innerhalb einer Stunde wurde die fehlerhafte Version gestoppt.
- Minuten später war die interne Infrastruktur wieder funktionsfähig.
- Die vollständige Stabilisierung dauerte jedoch bis kurz nach 18 Uhr – knapp sechs Stunden nach Beginn der Störung.
Prince schreibt dazu: „Angesichts der Bedeutung von Cloudflare für das Internet ist jeder Ausfall inakzeptabel. Wir wissen, dass wir Sie heute enttäuscht haben.“
Wenn ein Unternehmen das Netz bremst
Dass ein Fehler bei einem einzelnen Anbieter so viele Dienste lahmlegt, ist kein neues Phänomen – aber eines, das mit zunehmender Digitalisierung brisanter wird.
Cloudflare hatte bereits in der Vergangenheit große Ausfälle:
- Juli 2019: Ein Softwarefehler legte Tausende Seiten für 30 Minuten lahm.
- Juni 2022: Probleme in 19 Rechenzentren sorgten für einen internationalen Ausfall.
Erst vor vier Wochen führte ein Problem bei Amazons AWS zu massiven globalen Störungen – Signal war kurzzeitig nicht erreichbar.
Ein Beitrag von: