KI sagt das Wetter voraus, aber nicht die Katastrophen

KI-Wettermodelle liefern präzise Alltagsprognosen, unterschätzen jedoch Extremwetter. Warum hybride Modelle aus KI und Physik Vorteile bieten.

Älteres Gebäude mit Turm am Fluss, umgeben von Bäumen, steht im Hochwasser.

Extremwetterereignisse sollen möglich besser vorhergesagt werden können. KI-basierte Wettervorhersagemodelle stoßen da an ihre Grenzen, hat eine Studie ergeben. Im Bild eine Hochwasser der Mosel, das den ehemaligen Fährturm in Schweich umspült.

Foto: picture alliance/dpa | Harald Tittel

Die KI kann das schneller genauso gut – das zumindest ist schon mal Tenor, wenn es um Feld-Wald-Wiesen-Wettervorhersagen geht. KI-Wettervorhersagemodelle wie GraphCast oder Pangu-Weather liefern diese schnellen und präzisen Prognosen. Ein Team von Forschern an Universitäten aus der Schweiz und Deutschland hat untersucht, ob und wie genau diese Modelle extreme Wetterereignisse prognostizieren können.

Fazit: Ja, können sie, aber nicht so gut. Zumindest was Hitze-, Kälte- und Windrekorde angeht. Denn das wurde untersucht. Der Grund dafür aber liegt tiefer, nämlich in der KI-Methodik selbst. Die basiert auf maschinellem Lernen. Die KI lernt dabei anhand von so genannten Trainingsdaten. Alles, was die abdecken, da kann die KI glänzen. Was diese Daten nicht abdecken – und das ist bei Extremereignissen per Definitionem der Fall – da kann sie Probleme bekommen.

Wichtigste Ergebnisse des Berichts zum Querlesen
Warum KI-Wettermodelle bei Extremwetterereignissen schlecht aussehen können
Wie sich die KI-Wettermodelle selbst optimieren
Methodik: Wie wurden die KI-Wettermodelle untersucht?
KI-Wettermodelle sind gut - von Ausnahmen abgesehen
Wie sich das Training von KI-Wettermodellen verbessern ließe
Studie zu KI-Wettermodellen bringt eigentlich nichts überraschend neues
Die Zukunft gehört hybriden Systemen aus KI- und klassischen Wettermodellen

Wichtigste Ergebnisse des Berichts zum Querlesen

KI-Wettermodelle unterschätzen Intensität und Häufigkeit von rekordhaften Wetterereignissen. Konkret zeigen KI-Modelle Schwächen, wenn es um die Vorhersagen von extremen Hitze-, Kälte- und Windrekorden geht.
Die untersuchten KI-Modelle werden trainiert mit mit historischen Wettermustern. Sie haben daher Schwierigkeiten, wenn sie Ereignisse vorhersagen sollen, die außerhalb dieses bekannten Bereichs liegen.
Laut Expertin und Experten ist nicht zu erwarten, dass KI-Modelle bei den extremsten Wetterereignissen gut funktionieren. Dafür kommen diese Wetterereihggnisse in den Trainingsdaten zu selten vor. Das aber sei angesichts des Klimawandels, bei dem Wetterextreme zunehmen, eine große Herausforderung
Besserung ist aber in Sicht. Zum einen lassen sich KI-Wettermodelle anders trainieren, zum zweiten durch hybride Wettervorhersagmodelle. Hybridmodelle vereinen das beste aus beiden Welten, den klassischen numerischen Modellen und den KI-Modellen.

Warum KI-Wettermodelle bei Extremwetterereignissen schlecht aussehen können

Markus Donat, ICREA Professor und Gruppenleiter Klimaschwankungen und Klimawandel am Barcelona Supercomputing Center in Spanien, erklärt die Ausgangslage der Studie: „KI-Modelle verstehen die Physik nicht. Sie lernen ausschließlich aus den Daten, die ihnen vorliegen. Aus diesem Grund schneiden sie im Allgemeinen unter Bedingungen am besten ab, die ihrem Training ähneln. Vergleichbar mit großen Sprachmodellen wie ChatGPT sind KI-basierte Wettervorhersagen gut darin, das Gelernte zu kopieren und in verschiedenen Varianten zu reproduzieren.“

Top Stellenangebote

Zur Jobbörse

Aus Sicht der Statistik liegt hier ein „Out-of-Sample-Problem“ vor. Ein Modell sieht auf den zur Verfügung gestellten Daten gut aussieht, mit denen es entwickelt wurde. Bei neuen, nicht verwendeten Daten funktioniert das aber deutlich schlechter. „Rein datengetriebene Modelle lernen aus der Vergangenheit. Was dort nicht aufgetaucht ist, können sie zunächst schlechter abbilden“, so Nicole Ludwig, Professorin für Intelligente Energiesysteme am Institut für Informatik an der Universität Augsburg.

Wie sich die KI-Wettermodelle selbst optimieren

Roland Potthast, Direktor für Meteorologische Analyse und Modellierung am Deutschen Wetterdienst (DWD) in Offenbach erklärt eingehender, wie KI-Modelle sich in der Trainingsphase selbst verbessern: „KI‑Modelle optimieren während des Trainings eine Verlustfunktion (Strafterme). Die Modelle werden mit einer Auswahl von meteorologischen Fällen konfrontiert, sogenannten Reanalysen“ In der vorliegenden Studie waren das Daten des Datensatzes ERA5 aus den Jahren 1979 bis 2017 (s. Kasten). ERA5 steht für „ECMWF Reanalysis, 5th generation“, also der fünfte Reanalysedatensatz des European Centre for Medium-Range Weather Forecasts (Europäisches Zentrum für mittelfristige Wettervorhersage).

„Daraus lernen sie und passen dabei ihre Vorhersagen an diese Situationen an“, erklärt Potthast. Er sieht derzeit zwei wichtig Schritte, um KI-Modelle insbesondere für High-Impact-Situationen, so die Fachsprache für Extremwetterereignisse, zu verbessern:

Lesen Sie auch:

Besorgniserregende Studie

Wo landet weltweit am meisten Plastikmüll in der Natur?

RANKING

Die 10 größten Klimasünder der Welt

38 Jahre nach der Katastrophe

Tschernobyl heute: zwischen Krieg, Rückbau und Strahlenbelastung

Temperaturen über 30 Grad Celsius

Hitzewelle in Deutschland: Sind Sie darauf vorbereitet?

38 Jahre nach der Katastrophe

Tschernobyl heute: zwischen Krieg, Rückbau und Strahlenbelastung

Extremereignisse in ihrer Repräsentation im Trainingsdatensatz angemessen zu berücksichtigen
Die Verlustfunktion gezielt auf Extremereignisse anzupassen.

Methodik: Wie wurden die KI-Wettermodelle untersucht?

Am Anfang stand die Idee, einen Benchmark-Datensatz für die KI-Wettermodelle für lokale Hitze-, Kälte- und Windrekorde zu entwickeln.

Historische Basis dieses Datensatz sind ERA5-Reanalysedaten aus den Jahren 1979 bis 2017.
Mit diesen Daten wurden die KI-Modelle trainiert.
Testzeitraum waren die Jahre 2018 bis 2020, um die Extremereignisse zu analysieren, die über die im Benchmark-Datensatz erfassten Rekorde hinausgingen. Zum Beispiel die Hitzewellen in Sibirien und den USA im Jahr 2020.
Die KI-Modelle sollten also Vorhersagen für Ereignisse treffen, die außerhalb der in den Trainingsdaten abgedeckten Erfahrungen lagen.
Vergleichsmodell war das HRES-Modell (High Resolution Forecast) des europäischen Wettermodells IFS des European Centre for Medium-Range Weather Forecasts (ECMWF).
Ergebnis war, dass die Prognosen der KI-Wettermodelle verglichen mit denen des numerischen HRES-Modells nicht so präzise waren.

KI-Wettermodelle sind gut – von Ausnahmen abgesehen

Die Aussage, KI-Modelle könnten gar keine Extremwetterereignisse vorhersagen, trifft die Studie nicht. Sie wäre laut Potthast auch falsch: „KI‑Modelle können schon heute Extremereignisse vorhersagen und bewegen sich damit auch außerhalb ihres Trainingsdatenbereichs. Dass aktuelle KI‑Modelle stärker geglättete Vorhersagen liefern als physikalische Modelle, beruht auf der Art der beim Training eingesetzten Strafterme und ist zu erwarten“. Es gebe ja die oben genannten Ansätze, die darauf abzielten, das KI-Training besser auf Extremereignisse auszurichten.

Sebastian Sippel, Juniorprofessor für Klima-Attribution am Institut für Meteorologie der Universität Leipzig, betont mit Blick auf die Studie, dass es wichtig sei zu sehen, dass KI-Wettermodelle die tatsächlich eingetretenen Rekorde nicht nur zu schwach, sondern auch zu selten voraussagen würden. „Dies ist ein wichtiges Ergebnis für die Bewertung von KI-Wettermodellen. Es zeigt, dass auf KI-basierenden Modellen, also datenbasierter Extrapolation, bei solchen extremen Ereignissen nicht uneingeschränkt vertraut werden kann.“ Eine Schlussfolgerung, die nicht ganz unerwartet sei, so Sippel gegenüber dem Sience Media Center in einer Stellungnahme zur Studie. Denn Vorhersagen von KI-Modellen hätten häufig die Tendenz, Extreme zu unterschätzen. „Dennoch ist meines Erachtens der deutliche Unterschied zwischen KI-Modellen und dem physikalischen Modell bemerkenswert.“ Die Physik und damit die physikalischen Modelle bleiben laut Sippel „das zentrale Werkzeug für die Prognose von Extremereignissen, insbesondere im Kontext des Klimawandels“.

Wie sich das Training von KI-Wettermodellen verbessern ließe

Alarmismus gegen KI-basierte Wettermodelle – dafür taugt die Studie allerdings nicht. Denn sie beschäftigt sich nur mit den Extremwetterereignissen. Darauf weist Martin Schultz hin, Leiter der Forschungsgruppe Earth System Data Exploration sowie Co-Leiter des Bereichs Large Scale Data Science am Forschungszentrum Jülich. „Es besteht die Gefahr, dass die Rezeption dieser Studie zu Falschaussagen führt. Es geht in der Veröffentlichung ganz konkret um ‚record-breaking extremes‘. Das sind die letzten zwei Prozentpunkte einer Häufigkeitsverteilung.“ In der Praxis, zeigt Schultz auf, ist mit KI-basierten Wettermodellen inzwischen viel möglich: „Die aktuellen KI-Wettermodelle können Ereignisse bis etwa zum 95. Perzentil sehr gut vorhersagen– das sind schon sehr heftige Stürme“.

Schultz weist auf eine Möglichkeit hin, die KI-Wettermodelle schon im Training gezielt in Richtung Extremwetterprognose zu verbessern. Und zwar durch den Einsatz synthetischer Daten. „Dieser Ansatz wird in anderen Disziplinen erfolgreich eingesetzt. Hierzu braucht man dann klassische numerische Modelle, welche eine genügende Fallzahl solcher Extremereignisse in guter Qualität produzieren können.“

Studie zu KI-Wettermodellen bringt eigentlich nichts überraschend neues

Im Prinztip sind diese Ergebnisse zu erwarten gewesen, darauf weist Niklas Boers hin, Professor für Erdsystemmodellierung an der Technische Universität München. „Im Grunde genommen sind Machine-Learning-Modelle nicht in der Lage, über ihre Trainingsverteilung hinaus zu extrapolieren“. Das betreffe aber nicht nur die Wettervorhersagen, sondern so Boers, besonders auch Klimaprognosen. „Dies gilt insbesondere, wenn versucht wird, auf historischen Daten trainierte Modelle des maschinellen Lernens für Klimaprognosen einzusetzen. Diese können unmöglich die Merkmale zukünftiger extremer Wetterereignisse erlernen.“

Nicole Ludwig weist darauf hin, dass die untersuchten KI-Modelle technologisch nicht mehr die Speerspitze der Entwicklung darstellten. Das sei entscheidend für die Einordnung: Die getesteten Modelle GraphCast, Pangu-Weather und Fuxi gehörten „nicht mehr zur aktuellen Generation an KI-Wettermodellen“. Sie seien „alle deterministisch. Das heißt, sie berechnen eine einzelne Vorhersage ohne jede Unsicherheitsangabe“. Neuere, probabilistische und generative Modelle wie beispielsweise AIFS-CRPS des ECMWF aber seien nicht untersucht worden. „Dieses Modell erzeugt explizit Ensembles möglicher Wetterverläufe und sollte besser geeignet sein, um Extreme vorherzusagen“.

Die Zukunft gehört hybriden Systemen aus KI- und klassischen Wettermodellen

Grundsätzlich aber hat die Schwäche bei Extremen strukturelle Gründe, und generell, so Ludwig, hätten physikbasierte Modelle einen konzeptuellen Vorteil: Sie lösten Erhaltungsgleichungen und seien dadurch nicht an die Grenzen des Beobachteten gebunden. „Das macht sie nicht zur universell besseren Lösung, denn sie sind rechenintensiv und haben eigene systematische Fehler. Aber KI-Modelle müssen noch besser darin werden, in ungesehene Zustände zu extrapolieren.“

Der Deutsche Wetterdienst favorisiert für die Zukunft Wettervorhersagemodelle, die mit beiden Technologien arbeiten. „Eine Kombination beider Welten in einem hybriden Vorhersagesystem erscheint als Königsweg“, so DWD-Forscher Potthast. Der DWD will daher in Zukunft physikalische und KI‑basierte Vorhersagen in einem Gesamtsystem kombinieren. Man habe bereits mit dem Aufbau eines kombinierten Ensemble-Systems begonnen: das globales KI‑System AICON des DWD laufe Potthast zufolge operationell bereits parallel zu den physikalischen ICON‑Vorhersagen.

Wobei die Liason zwischen KI und Supercomputer-gestützten klassischen Highend-Wettermodellen nur eine beispiel wäre, wie gut beides zusammenpasst: KI und klassische Forschung. Längst nämlich optimiert die KI die Datenauswertung, um die Modelle von dieser seite noch besser zu machen.

Ein Beitrag von:

Stephan W. Eder

Stephan W. Eder ist Technik- und Wissenschaftsjournalist mit den Schwerpunkten Energie, Klima und Quantentechnologien. Grundlage hierfür ist sein Studium als Physiker und eine anschließende Fortbildung zum Umweltjournalisten.