Wenn KI ein Mensch wäre, würde sie die Probezeit nicht überstehen

Echte Aufgaben, echte Arbeit – und die KI fällt durch. Fast die Hälfte der Projekte im Remote Labor Index landet in schlechter Qualität, viele bleiben unvollständig, und technische Pannen sind an der Tagesordnung.

KI am Arbeitsplatz: Sie sieht fleißig aus, kann echte Jobs aber noch lange nicht allein erledigen.

Foto: Smarterpix/BiancoBlue

Angst, Sorgen, Jobverlust: Kaum ein Thema wird derzeit so emotional diskutiert wie die Frage, ob Künstliche Intelligenz uns bald die Arbeit wegnimmt. Doch eine neue Studie liefert nun so etwas wie eine vorsichtige Entwarnung. Übersetzt man die Ergebnisse in die Sprache der Arbeitswelt, hat die KI ihre Probezeit nicht bestanden. Wäre sie ein menschlicher Mitarbeiter, hätte sie wohl schon die Kündigung auf dem Schreibtisch.

Realitätstest für KI – die Probezeit wird nicht bestanden

Der sogenannte Remote Labor Index (RLI) prüft KI-Agenten nicht mit theoretischen Tests, sondern mit echten, wirtschaftlich relevanten Remote-Jobs aus verschiedenen Branchen. Das Ziel: herauszufinden, wie gut KI Aufgaben in der Praxis tatsächlich komplett selbst erledigen kann. Das Ergebnis fällt ernüchternd aus. Selbst die leistungsfähigsten Systeme automatisieren maximal 2,5 % der Aufgaben – der Rest bleibt klar menschliche Arbeit.

Für die Studie „Remote Labor Index“ bekamen führende KI-Programme echte Aufgaben, wie sie sonst von Freelancern erledigt werden. Das Ergebnis fällt ernüchternd aus: In vielen Fällen scheiterten die Systeme, wie die Washington Post (via MSN) berichtet.

„Aktuelle Modelle sind noch lange nicht in der Lage, echte Jobs in der Wirtschaft zu automatisieren“, sagte Jason Hausenloy, einer der Forscher hinter der Studie zum Remote Labor Index. Der Index sei entwickelt worden, um politischen Entscheidungsträgern eine nüchterne und realistische Einschätzung der Fähigkeiten von KI-Systemen zu liefern, so Hausenloy.

Sieht gut aus, funktioniert aber nicht

Ein anschauliches Beispiel aus der Studie: Die KI sollte eine interaktive Grafik zur Lebenszufriedenheit in verschiedenen Ländern erstellen. Auf den ersten Blick wirkte das Ergebnis überzeugend. Doch beim genaueren Hinsehen häuften sich die Probleme: Länder fehlten komplett, Texte lagen übereinander, Farben in der Legende passten nicht – oder waren gleich gar nicht vorhanden.

Lesen Sie auch:

Künstliche Intelligenz

KI und die Arbeitswelt: Studie bestätigt Angst vor KI-Jobverlust

Studie

Zwei Klassen, ein Arbeitsmarkt: Wie KI die Spaltung vertieft

Jobs im Trend 2026: KI, Nachhaltigkeit und handfeste Skills gefragt

Die Untersuchung gehört zu den ersten, die KI mit echten Arbeitsaufträgen aus der Praxis konfrontiert haben – ganz ohne menschliche Nachhilfe. Das Resultat dämpft die Erwartungen deutlich: Die oft gehörte These, KI werde schon bald große Teile der Arbeitswelt ersetzen, hält diesem Realitätscheck nicht stand.

Fast die Hälfte der getesteten Projekte endete mit mangelhaften Ergebnissen. Mehr als ein Drittel wurde nicht einmal fertiggestellt. Und bei jedem fünften Auftrag kam es zu technischen Problemen, etwa beschädigten oder unbrauchbaren Dateien. „Viele Fehler waren erstaunlich simpel“, sagte der Studienleiter.

Zwei große Schwächen der KI

Übertragen wir das Ganze noch einmal in die vertrauten Begriffe aus dem Arbeitsleben: Was würde passieren, wenn ein neuer Mitarbeiter oder eine neue Mitarbeiterin die Kritik und das Feedback der Vorgesetzten ständig ignoriert – und Woche für Woche dieselben Fehler macht? Wahrscheinlich wäre das Thema Probezeit schnell erledigt.

Genau hier liegen auch die größten Schwächen der KI, wie die Forscher herausfanden. Zum einen kann sie sich Inhalte nicht dauerhaft merken. Sie lernt kaum aus eigenen Fehlern und vergisst Hinweise oder Korrekturen schnell wieder. Zum anderen hat sie große Probleme mit visuellen Aufgaben. Dinge wie Grafikdesign, Layout oder räumliches Denken fallen ihr deutlich schwer.

In der Praxis heißt das: Die KI wirkt oft fleißig und kompetent, doch sie entwickelt sich kaum weiter. Und wer im Job nicht dazulernt und Feedback ignoriert, hat bekanntlich schlechte Karten.

Etwas besser schnitt die KI bei einer Programmieraufgabe ab. Sie sollte ein kleines Browserspiel entwickeln. Das beste Ergebnis war tatsächlich spielbar – keine Selbstverständlichkeit. Allerdings überging die KI eine wichtige Vorgabe: Das Spiel sollte ein Bier-Thema haben. Davon war im Ergebnis nichts zu sehen.

Echte Jobs, echtes Geld, echte Arbeit

Der Remote Labor Index (RLI) setzt nicht auf Theorie, sondern auf echte Arbeitsaufträge aus der Remote-Welt. Dazu gehören ganz unterschiedliche Projekte – von Spieleentwicklung über Produktdesign und Architektur bis hin zu Datenanalyse und Videoanimation.

Die Aufgaben hatten es teils in sich: Manche kosteten mehr als 10.000 Dollar und dauerten über 100 Arbeitsstunden. Alle Zahlen stammen aus der Praxis – von menschlichen Profis, die diese Jobs tatsächlich erledigt haben.
Insgesamt kommen so mehr als 6.000 Stunden echter Arbeit zusammen, mit einem Gesamtwert von über 140.000 Dollar. Genau an diesen realen Maßstäben musste sich die KI messen lassen.

KI im Job – noch lange kein Ersatz

Könnte KI Remote-Jobs selbst erledigen, würden Unternehmen Aufgaben einfach an Chatbots statt an Freelancer vergeben – ein Traum für Firmen, ein Alptraum für Auftragnehmer. Die Studie zeigt: Davon sind wir noch weit entfernt.
Fast die Hälfte der Projekte im Remote Labor Index war von schlechter Qualität, mehr als ein Drittel blieb unvollständig, und bei jedem fünften Auftrag gab es technische Probleme wie kaputte Dateien. KI wirkt fleißig, echte Arbeitsleistung liefert sie aber noch nicht.

Ein Beitrag von:

Alexandra Ilina

Alexandra Ilina ist Diplom-Journalistin (TU-Dortmund) und Diplom-Übersetzerin (SHU Smolensk) mit mehr als 20 Jahren Berufserfahrung im Journalismus, in der Kommunikation und im digitalen Content-Management. Sie schreibt über Karriere und Technik.