Online-Dienste: Die größten Ausfälle in der Geschichte des Internets

Downtimes im Internet sind keine Seltenheit. Diese betreffen meist jedoch nur einen kleinen Nutzerkreis und sind in der Regel schnell behoben. Es geht aber auch anders: Bühne frei für die größten Ausfälle der Online-Dienste in der Geschichte des Internets.

Im Oktober sorgte ein über Stunden andauernder Ausfall von facebook, WhatsApp und Instagram für Frust bei den Usern.

Foto: panthermedia.net/ AntonioGuillem

In einer Welt, in der die Digitalisierung zur treibenden Kraft für Innovation wird, laufen in der Regel alle damit verbundenen Online-Dienste einwandfrei. Doch dass selbst die größten Global Player nicht vor Ausfällen gefeit sind, zeigte Facebook nach einem 24-Stunden-Blackout bereits im Jahr 2008 und am vergangenen Montag (04.10.2021) erneut. Während rund 3,5 Milliarden Nutzer weder die Social-Media-Plattformen Facebook und Instagram, noch den Instantmessenger Whatsapp nutzen konnten, wurde im Hintergrund fieberhaft nach der Ursache gesucht. Doch nicht nur extern erreichbare Online-Dienste sind dabei ausgefallen, sondern auch interne Technik, wie zum Beispiel digitale Türschlösser – was die Suche nach der Fehlerquelle zusätzlich erschwerte. Erst nach einer Zeitspanne von rund sechs Stunden wurde das Problem behoben und die Nutzer konnten wie gewohnt auf die betroffenen Online-Dienste zugreifen.

Online-Dienste: Anything that can go wrong will go wrong

Zwar liegen für verschiedenste Szenarien Notfallpläne bei den meisten Unternehmen auf, aber sobald etwas Unvorhersehbares eintritt, folgt meistens ein informationstechnischer Super-GAU. Frei nach Murphys Gesetz wird alles, was schiefgehen kann, auch irgendwann schiefgehen. Trotzdem werden Unsummen in eine möglichst ausfallsichere und stabile IT-Infrastruktur investiert, um eine knapp 100-prozentige Uptime zu garantieren. Viele Rechenzentren beinhalten nämlich auch systemrelevante Server, zum Beispiel für öffentliche Dienste oder Zahlungsdienstleister – und hier wird ein Ausfall in der Regel kostspielig. Vor allem dann, wenn dieser mehrere Stunden oder gar Tage andauert. Solche Vorfälle gibt es viele. Wir haben für Sie die die größten Ausfälle von Online-Diensten in der Geschichte des Internets recherchiert und nach Downtime sortiert.

Slack funktioniert nicht: So lösen Sie das Problem

Online-Dienste: Die 10 größten Ausfälle

Platz	Unternehmen	Online-Dienst(e)	Downtime	Jahr	Standort
1	OVHCloud	CDN, .fr-Domains u. a.	rund 2 Wochen	2021	Frankreich
2	Apple	Online-Dienst Mobileme	rund 2 Wochen	2008	USA
3	Regierung	Breitband und Mobilfunk	9 Tage bis über 1 Jahr	2019	Indien
4	Microsoft	MSN Messenger	rund 1 Woche	2001	USA
5	AOL	großflächige Störung	rund 19 Stunden	1996	USA
6	Hostway	zahlreiche Webseiten und Online-Dienste	rund 15 Stunden	2007	USA
7	Facebook	Facebook, Whatsapp und Instagram	rund 6 Stunden	2021	USA
8	Rackspace	zahlreiche Webseiten und Online-Dienste	rund 5 Stunden	2007	USA
9	Dyn	Netflix, Amazon, Twitter u. a.	mehrere Stunden	2016	USA
10	Fastly	US-Nachrichtenagenturen u. a.	rund 1 Stunde	2021	USA

Top Stellenangebote

Zur Jobbörse

Platz 10: Fastly (Juni 2021)

Am 8. Juni 2021 waren einige große Webseiten und Online-Services für etwa eine Stunde lang nicht erreichbar. Betroffen waren unter anderem große US-Nachrichtenagenturen wie die New York Times, CNN sowie die Financial Times, aber auch beliebte Online-Dienste wie Reddit, Twitch, Shopify und etliche Seiten von Amazon. Doch nicht nur Webseiten unabhängiger Medien und Unternehmen waren vorübergehend vom Netz getrennt, sondern auch das Bürgerportal der britischen Regierung und die Internetseite des Weißen Hauses.

WhatsApp Web: So nutzen Sie den Messenger auf dem Desktop

Grund dafür war ein Ausfall des US-amerikanischen Cloudbetreibers Fastly, Inc. Viele namhafte Dienste und Webseiten sind an das Content Delivery Network (CDN) des global agierenden Anbieters angebunden, weshalb die internationalen Knotenpunkte als wichtiger Akteur des Internets dienen. Glaubt man den Aussagen des Unternehmens, ist die Ursache für den Totalausfall auf einen unentdeckten Softwarefehler zurückzuführen, der zufällig von einem Kunden durch eine gültige Konfigurationsänderung ausgelöst worden sei.

Platz 9 der ausgefallenen Online-Dienste: Dyn (Oktober 2016)

Mit dem größten DDoS-Angriff der Geschichte sah sich der US-amerikanische DNS-Anbieter Dyn im Oktober 2016 konfrontiert. Bei einem DDoS-Angriff (Distributed Denial of Service) handelt es sich um einen gemeinsamen Angriff vieler Rechner weltweit auf ein bestimmtes Ziel, zum Beispiel einen Provider oder gar ein ganzes Land. Hier wird ein riesiges Ausmaß an Datenverkehr generiert, sodass das Ziel keine Bandbreite mehr für den tatsächlichen Internetverkehr übrighat. Dessen Adresse ist dabei entweder gar nicht mehr oder nur nach langer Wartezeit von außen erreichbar. Der Angriff auf Dyn erreichte eine Rate von rund 500 GBit/s, sodass viele dort gehostete Webseiten und Dienste nicht mehr zur Verfügung standen.

Der Ausfall dauerte nur wenige Stunden und wurde neben konventionellen Rechnern außerdem durch gekaperte internetfähige Geräte wie Drucker, IP-Kameras und sogar Babyfone verursacht. Millionen von Nutzern konnten deshalb nicht mehr auf Angebote wie Netflix, Amazon, Ebay, Twitter oder CNN zugreifen. Neben dem verursachten Chaos sorgte die Attacke für gravierende Umsatzeinbußen.

Platz 8: Rackspace (November 2007)

Der Managed Hosting Provider Rackspace war am 13. November 2007 für etwa fünf Stunden nicht erreichbar. Der Grund dafür lag in einer Verkettung ungünstiger Ereignisse mit einem außer Kontrolle geratenen SUV als Hauptakteur. Der diabeteskranke Lenker verlor während der Fahrt das Bewusstsein und war nicht mehr in der Lage, das Fahrzeug am Straßenrand zu halten, sondern beschleunigte immer weiter. Über den Bordstein einer T-Kreuzung raste das Vehikel über einen Erdwall und wurde dadurch zum fliegenden Geschoss. Dabei übersprang der SUV in einer filmreifen Szene mehrere geparkte Autos, bis dieser an einem Leistungstransformator für die Kühlaggregate des Unternehmens zum Stillstand kam. Die Stromversorgung quittierte daraufhin sofort ihren Dienst und Notstromgeneratoren sprangen an. Beim Umschalten der Stromquellen fiel eines der Kühlsysteme aus, sodass Mitarbeiter dieses neu starten mussten.
Zu diesem Zeitpunkt wusste noch niemand, was da eigentlich passiert war. Erst die Einsatzkräfte informierten Rackspace über den Vorfall, sodass die für gewöhnlich durch den nun defekten Transformator versorgten Kühlsysteme erneut heruntergefahren werden mussten. Grund dafür war die anlaufende Personenbergung aus dem SUV und die Gefahr eines Stromschlags für die Einsatzkräfte. Eine weitere Unterbrechung der Kühlsysteme während des Hochfahrens war aber nicht vorgesehen, sodass die Kompressoren nicht ohne Weiteres ihren Dienst verrichten konnten. Daraus resultierten viele überhitzte Serversysteme und eine folgende Notabschaltung der gesamten IT.

Whatsapp: Änderung der Gruppeneinstellung? Das steckt hinter dem Kettenbrief

Lesen Sie auch:

Schweigepflicht in Unternehmen

Betriebsgeheimnisse im Bewerbungsgespräch: Was Sie sagen dürfen – und was tabu ist

Ranking Einkommensstudie

In diesen Städten und Regionen verdienen Ingenieure am meisten

Platz 7: Facebook Online-Dienste Stunden nicht erreichbar (Oktober 2021)

Der größte Ausfall des weltweit bekannten und genutzten Social-Media-Dienstes ereignete sich Anfang Oktober 2021 und stellte die stundenlange Unterbrechung des Dienstes im Jahr 2008 in den Schatten. Vom jüngsten Serverausfall waren nämlich weitaus mehr Nutzer betroffen, da nicht nur Facebook selbst, sondern außerdem die Dienste WhatsApp und Instagram in Mitleidenschaft gezogen wurden. Die Dauer, bis alle Plattformen wieder wie gewohnt erreichbar waren, lag bei rund 6 Stunden.

Der Auslöser für den weltweiten Ausfall aller Facebook-Rechenzentren lag in einem simplen Befehl, der die Backbone-Stabilität, also die Verbindung zwischen den einzelnen Knotenpunkten prüfen soll. Hier verhinderte jedoch ein Fehler in der Programmierung, dass der Befehl auch wieder gestoppt wird. Auf diese Weise wurde daraufhin jegliche Serververbindung gekappt und gleich noch ein weiteres Problem geschaffen. Es konnten keine DNS-Anfragen mehr von den Servern aufgelöst werden, sodass – vereinfacht betrachtet – die Techniker nicht von der Ferne aus zugreifen konnten. Aus diesem Grund mussten Technikerteams direkt an den jeweiligen Serverstandort entsandt werden und diesen auch erst einmal betreten können. Die Zugangssysteme waren nämlich ebenfalls blockiert und die fehlerhaft konfigurierten Router zusätzlich softwareseitig gesichert.

Platz 6: Hostway (August 2007)

Der Klassiker schlechthin: Ein Rechenzentrum zieht von Standort A nach Standort B und alles geht schief. Nein, hier handelt es sich nicht um ein Déjà-vu, sondern um mitunter einen der häufigsten Gründe für umfassende Serverausfälle. Vor allem nämlich in Zeiten, in denen Hochgeschwindigkeitsnetze noch nicht so verbreitet waren wie heute. Natürlich waren Rechenzentren auch damals bestmöglich angebunden, jedoch stellte sich ab einer bestimmten Datenmenge der Transport über den physischen Highway als schneller und effizienter heraus.

Bei einer Distanz von rund 440 km kann aber einiges zu Bruch gehen, vor allem, wenn die 3.700 Server möglichst schnell ankommen sollen. Der Provider hatte darauf nämlich mit einer großen Anzahl an Hardwareausfällen zu kämpfen. Trotz der Tatsache, dass Ersatzkomponenten und -server vor Ort zur Verfügung standen, konnte ein großer Teil des Dienstleistungsspektrums nicht ohne weitere Einbußen wiederhergestellt werden. Das große Problem des Standortwechsels von Miami nach Tampa (Florida, USA) lag auch darin, dass keine Back-up-Site für Notfälle eingerichtet wurde und dadurch Kosten eingespart werden sollten. Aufgrund der langen Downtime von etwa 15 Stunden sowie einer stockenden Kommunikation mit den Kunden sorgte die Aktion aber eher für Frust als für verbesserte Servicequalität. Letztere war nämlich der Vorwand für den Umzug.

Platz 5: AOL (August 1996)

Zwar dauerte der Ausfall des weltbekannten US-amerikanischen Internetanbieters AOL (America Online) nur 19 Stunden an, jedoch waren rund 6,3 Millionen Kunden davon betroffen. Der Unmut der Nutzerbasis war dementsprechend hoch und AOL entschädigte den Ausfall mit einem ganzen Tag Online-Kontingent – die Abrechnung erfolgte 1996 schließlich noch im Minutentakt. Für den Provider entpuppte sich der Ausfall gleich als doppelt suboptimal. Die Systeme fielen nämlich kurz vor der Präsentation der Quartalsgewinne aus.

Der Grund für die Probleme lag an einer veralteten und ineffizienten Methode, E-Mails abzuarbeiten. Die Technologie, die dahinter steckte, war auf den ansteigenden Mailversand nicht mehr ausgerichtet, sodass die Zahl der Mailserver vervielfacht werden musste. Es fehlte jedoch ein funktionierender Lastenausgleich. Der einzig Existierende bei AOL war mit 10 MBit/s angebunden und konnte die Lastspitzen nicht stemmen. Die Lösung lag folgend in der Umstellung auf neue Softwaresysteme, die für den weiteren Betrieb (und eine Expansion) notwendig waren. Der Dienst stürzte direkt bei der Installation ab und war erst am folgenden Tag wieder vollständig erreichbar. Betroffen waren nicht nur Privatkunden, sondern auch damalige Online-Größen wie die New York Times oder die Chicago Tribune.

Platz 4: Microsoft MSN Messenger (Juli 2001)

Der MSN Messenger war lange Zeit das Kommunikationstool schlechthin. Facebook und WhatsApp gab es noch nicht, Smartphones waren nur in Form eines Nokia Communicators erhältlich und mobiles Internet für die breite Masse nicht leistbar. Umso mehr trifft es die Online-Community, wenn der beliebte Online-Messaging-Dienst einmal nicht erreichbar ist. Im Juli 2001 dauerte der Ausfall rund eine Woche, in der keine oder nur eingeschränkte Kommunikation möglich war. Zudem waren manche Kontaktlisten verschwunden, sodass sich Betreiber Microsoft gezwungen sah, die Server zur Problembehebung vom Netz zu nehmen. Vor allem stellte sich dabei heraus, dass durch den Ausfall einige dauerhafte Schäden entstanden sind – zum Beispiel ließen sich die Kontaktlisten vieler Nutzer nicht mehr wiederherstellen.

Microsoft zufolge nahm das Problem bei einem defekten Festplattencontroller in einem der Datenbankserver seinen Anfang. Ebenso schlugen die Versuche fehl, ein früheres Backup wiederherzustellen, da sich die Backupsysteme ebenfalls quer stellten. Genauere Informationen gab der Anbieter aber nicht preis. Es folgt jedoch das Versprechen, zukünftig einen besseren Service zu bieten. Es folgten weitere Ausfälle in den Jahren 2003 und 2005. Im April 2013 wurde MSN letztendlich eingestellt und zu Skype migriert.

Platz 3 der ausgefallenen Online-Dienste: Regierung von Indien (August 2019)

Nicht immer sind Ausfälle und Shutdowns von Online-Diensten einem technischen Defekt geschuldet. In wenigen Fällen werden Dienste absichtlich vom Netz genommen und vereinzelt kommt es vor, dass Regierungen den gesamten Zugang zum Internet sperren – so zum Beispiel in Indien im August 2019. Zu dieser Zeit verabschiedete die indische Regierung ein neues Staatsbürgerschaftsgesetz, um Migranten aufzunehmen. Dabei wurde mit umfassenden Protesten gerechnet, sodass Indien präventiv für 9 Tage in einem Großteil des Landes jeglichen Zugang zum World Wide Web kappte. Kontroversen und Empörungen sollten auf diese Art und Weise keine Plattform zur Verfügung stehen.

Die Zahl der betroffenen Nutzer beläuft sich auf rund 50 Millionen. Die strenge Zensurmaßnahme der Regierung dauerte in der Region Kaschmir noch weitaus länger – nämlich über ein Jahr. Indien führt demnach die Liste der herbeigeführten Internet-Shutdowns an. Alleine im Jahr 2020 fanden von insgesamt 155 flächendeckenden Shutdowns 109 in Indien statt, in denen nicht nur Breitbandanschlüsse, sondern häufig sogar das Mobilfunknetz deaktiviert wurde.

Platz 2: Apple Mobileme (Juli 2008)

Manch einer wird sich langsam die Frage stellen, was im Jahr 2008 wohl alles schiefgelaufen ist, da sich die großen Ausfälle um diese Jahreszahl herum manifestieren. Die Gründe dafür lassen sich aber nicht so einfach erkennen. Im Juli 2008 fällt Mobileme, Apples kostenpflichtiger Dienst für die Verwaltung und Synchronisierung von Daten zwischen iPhones, Macs und PCs für rund zwei Wochen aus. Betroffen waren dabei sowohl Kontakt- und Kalenderdaten als auch in weiterer Folge diverse E-Mail-Funktionen. Das ging sogar so weit, dass nicht nur Daten auf den Geräten veraltet waren, sondern sogar E-Mails verloren gingen. Dazu kommt, dass sogar die Datumsangaben von Mails verändert angezeigt wurden, nachdem neue Server ihren Betrieb aufnahmen.

Ein denkbar suboptimaler Start für eine eigentlich innovative Funktion. Apple entschuldigte sich aufgrund der anhaltenden Probleme laufend mit Gratismonaten für die Nutzung des Dienstes. Doch auch hier kursieren Meldungen, dass es Probleme bei der Inanspruchnahme dieser Verlängerung gab. Dem Gründer Steve Jobs zufolge wurde Mobileme zu früh gestartet und sollte eigentlich völlig anders funktionieren. Worin der Fehler letztendlich lag und wie viele Nutzer tatsächlich von den Problemen betroffen waren, ist nicht bekannt.

Platz 1: OVHCloud CDN (März 2021)

Für den größten Ausfall unseres Rankings der größten Ausfälle von Online-Diensten in der Geschichte des Internets hat ein Großbrand in einem Rechenzentrum des französischen Betreibers OVHCloud in Straßburg gesorgt. Dabei ist eines von insgesamt vier Rechenzentren komplett ausgebrannt. Zudem erfasste das Feuer ein weiteres Servergebäude des Clusters, welches aber nicht komplett abbrannte. Die anderen beiden wurden jedoch vorsorglich heruntergefahren. Das Unternehmen ist mit 32 Rechenzentren weltweit eines der größten Cloudanbieter Europas.

Laut eines Reports des in Großbritannien ansässigen Internet-Dienstleistungsunternehmens Netcraft waren wegen des Vorfalls rund 3,6 Millionen Webseiten mit 464.000 verschiedenen Domains betroffen. Darunter befanden sich Webseiten von Online-Banken, Webmail-Dienste, Nachrichtenseiten und zahlreiche Online-Shops. Doch auch staatliche Institutionen verschiedener Länder, wie zum Beispiel das Exportzentrum der walisischen Regierung und die Webseite der KFZ-Zulassungsbehörde des Vereinigten Königreichs, waren für eine Zeit lang nicht mehr erreichbar. Wenig überraschend hat es aber vor allem Webseiten mit der Domainendung .fr erwischt. OVHCloud konnte die meisten Probleme innerhalb von 2 Wochen beseitigen. Einige Daten jedoch sind für immer verloren. Ein Beispiel hierfür sind Spielerdaten des Survival-Computerspiels Rust.

Weiterer außergewöhnlicher Ausfall: Wettrennen gegen die Zeit – Peer 1 (Oktober 2012)

Während Ende Oktober 2012 Hurrikan Sandy über die Ostküste der USA fegte, hatten zahlreiche Unternehmen in New York mit Stromausfällen zu kämpfen. Eine Sturmflut aus Salzwasser wälzte sich über große Teile von Manhattan und setzte viele Keller unter Wasser. Auch der Webhoster Peer 1 blieb davon nicht verschont. Für Stromausfälle gab es selbstredend einen Notfallplan, der aber nicht unbedingt zu Ende gedacht war. Die Notstromgeneratoren befinden sich im 18. Stockwerk des Bürogebäudes und sollten demnach vor jeglichen Gefahren geschützt sein. Darin lag auch nicht das Problem, die Generatoren waren zu diesem Zeitpunkt voll funktionstüchtig. Die Treibstofftanks sowie die Kraftstoffpumpen im Keller waren jedoch bereits geflutet. Die Generatoren liefen kurz an und der Provider setzte seine Kunden von der bevorstehenden Abschaltung seiner Dienste in Kenntnis.

Dazu kam es aber am Ende doch nicht, sodass dieser Kandidat unserer Liste einen Sonderstatus und trotzdem eine ehrenwerte Erwähnung erhält. Es folgt nämlich ein abenteuerliches Wettrennen gegen den Stromhunger der Server und den Treibstoffverbrauch der Notstromgeneratoren. Die Mitarbeiter des Unternehmens bildeten eine Eimerbrigade vom Keller bis in den 17. Stock zum Tagestank. Anbieter wie SquareSpace stellten ebenfalls Personal für die Aktion zur Verfügung, sodass der Serverbetrieb bis zur Wiederherstellung des Stromnetzes aufrechterhalten werden konnte.

Online-Dienste: Zerbrechlich wie Ware in einem Porzellanladen

Das hohe Nutzeraufkommen im WWW im Allgemeinen und bei digitalen Plattformen im Speziellen sorgt bei zahlreichen Providern und Rechenzentren für eine kontinuierlich steigende Auslastung. Hängen nun gleich mehrere Online-Dienste an einem einzigen Rechenzentrum, ist der Schaden bei einem Ausfall mitunter sehr hoch. Deshalb geht der Trend bereits seit Jahren in Richtung Dezentralisierung. Große, weltweit agierende Online-Konzerne betreiben Serverstandorte über den gesamten Globus verteilt. Fällt ein Rechenzentrum aus, wird der Datenverkehr über die weiteren Standorte geleitet, sodass der Nutzer im Regelfall nichts davon merkt.

In fünf Schritten zum professionellen Social-Media-Profil

Natürlich kann im Rahmen von Wartungs- oder Routinemaßnahmen auch Einiges bei Online-Diensten schief gehen. Und meistens tritt immer das ein, womit am wenigsten gerechnet wird. In Zukunft wird also die detaillierte und umfassende Ausarbeitung von Notfallplänen einen wichtigen Beitrag zur Ausfallsicherheit von Systemen leisten. Sobald ein Szenario bereits nach einem bestimmten Schema abläuft, können Techniker und weitere involvierte Personen den Schaden geringhalten und Fehler ohne Umwege korrigieren.

Ein Beitrag von: