Studie 12.01.2026, 15:00 Uhr

Wenn KI ein Mensch wäre, würde sie die Probezeit nicht überstehen

Echte Aufgaben, echte Arbeit – und die KI fällt durch. Fast die Hälfte der Projekte im Remote Labor Index landet in schlechter Qualität, viele bleiben unvollständig, und technische Pannen sind an der Tagesordnung.

KI am Arbeitsplatz

KI am Arbeitsplatz: Sie sieht fleißig aus, kann echte Jobs aber noch lange nicht allein erledigen.

Foto: Smarterpix/BiancoBlue

Angst, Sorgen, Jobverlust: Kaum ein Thema wird derzeit so emotional diskutiert wie die Frage, ob Künstliche Intelligenz uns bald die Arbeit wegnimmt. Doch eine neue Studie liefert nun so etwas wie eine vorsichtige Entwarnung. Übersetzt man die Ergebnisse in die Sprache der Arbeitswelt, hat die KI ihre Probezeit nicht bestanden. Wäre sie ein menschlicher Mitarbeiter, hätte sie wohl schon die Kündigung auf dem Schreibtisch.

Realitätstest für KI – die Probezeit wird nicht bestanden

Der sogenannte Remote Labor Index (RLI) prüft KI-Agenten nicht mit theoretischen Tests, sondern mit echten, wirtschaftlich relevanten Remote-Jobs aus verschiedenen Branchen. Das Ziel: herauszufinden, wie gut KI Aufgaben in der Praxis tatsächlich komplett selbst erledigen kann. Das Ergebnis fällt ernüchternd aus. Selbst die leistungsfähigsten Systeme automatisieren maximal 2,5 % der Aufgaben – der Rest bleibt klar menschliche Arbeit.

Für die Studie „Remote Labor Index“ bekamen führende KI-Programme echte Aufgaben, wie sie sonst von Freelancern erledigt werden. Das Ergebnis fällt ernüchternd aus: In vielen Fällen scheiterten die Systeme, wie die Washington Post (via MSN) berichtet.

„Aktuelle Modelle sind noch lange nicht in der Lage, echte Jobs in der Wirtschaft zu automatisieren“, sagte Jason Hausenloy, einer der Forscher hinter der Studie zum Remote Labor Index. Der Index sei entwickelt worden, um politischen Entscheidungsträgern eine nüchterne und realistische Einschätzung der Fähigkeiten von KI-Systemen zu liefern, so Hausenloy.

Stellenangebote im Bereich Forschung & Lehre

Forschung & Lehre Jobs
Duale Hochschule Sachsen (DHSN)-Firmenlogo
W2-Professur für "Umweltanalytik und Umwelttechnik" (m/w/d) Duale Hochschule Sachsen (DHSN)
BG ETEM-Firmenlogo
Dozent/-in (m/w/d) in der Bildungsstätte Linowsee BG ETEM
Linowsee bei Rheinsberg Zum Job 
University of Southern Denmark-Firmenlogo
DIAS Fellow in Chemical Engineering (f/m/d) University of Southern Denmark
Odense M (Dänemark) Zum Job 
Technische Hochschule Augsburg-Firmenlogo
Professur für Systemsimulation und Fahrzeugtechnik Technische Hochschule Augsburg
Augsburg Zum Job 
BAM Bundesanstalt für Materialforschung und -prüfung-Firmenlogo
Promovierte*r wissenschaftliche*r Mitarbeiter*in (m/w/d) der Fachrichtung Physik, Ingenieurwesen, Elektrotechnik oder vglb. BAM Bundesanstalt für Materialforschung und -prüfung
Berlin-Steglitz Zum Job 
Hochschule Schmalkalden - Hochschule für Angewandte Wissenschaften-Firmenlogo
Laboringenieur/-in (m/w/d) mit Lehraufgaben zur praxisnahen Vermittlung mechatronischer Inhalte Hochschule Schmalkalden - Hochschule für Angewandte Wissenschaften
Schmalkalden Zum Job 
Hochschule für angewandte Wissenschaften München-Firmenlogo
Professur für Medizintechnik (W2) Hochschule für angewandte Wissenschaften München
München Zum Job 
Hochschule Angewandte Wissenschaften München-Firmenlogo
Nachwuchsprofessur im Promotions-Track (W1) mit Tenure-Track auf W2 für Konstruktion Fahrzeugaufbau und CAD in der Fahrzeugtechnik Hochschule Angewandte Wissenschaften München
München Zum Job 
HAW Kiel-Firmenlogo
Lehrkraft für besondere Aufgaben für maschinenbauliche Entwicklungen und Konstruktionen (m/w/d) HAW Kiel
Westfälische Hochschule Gelsenkirchen, Bocholt, Recklinghausen-Firmenlogo
Professur Smarte Robotik und KI (W2) Westfälische Hochschule Gelsenkirchen, Bocholt, Recklinghausen
Bocholt Zum Job 
Hochschule Emden/Leer-Firmenlogo
Wissenschaftliche*r Mitarbeiter*in im Projekt "OS-Lotse" Hochschule Emden/Leer
Technische Universität Braunschweig-Firmenlogo
W3-Professur Fahrzeugtechnik Technische Universität Braunschweig
Braunschweig Zum Job 
Technische Universität Braunschweig-Firmenlogo
W3-Professur für Hochleistungswerkstoffe Technische Universität Braunschweig
Braunschweig Zum Job 
Technische Universität Braunschweig-Firmenlogo
W3-Professur Mobile Maschinen und Nutzfahrzeuge Technische Universität Braunschweig
Braunschweig Zum Job 
Hochschule für angewandte Wissenschaften München-Firmenlogo
Professur für Technische Mechanik / Kontinuumsmechanik (W2) Hochschule für angewandte Wissenschaften München
München Zum Job 
Hochschule für angewandte Wissenschaften München-Firmenlogo
Professur für Medizintechnik (W2) Hochschule für angewandte Wissenschaften München
München Zum Job 
Technische Hochschule Deggendorf-Firmenlogo
Professorin | Professor (m/w/d) für das Lehrgebiet Cybersecurity Management und digitale Resilienz Technische Hochschule Deggendorf
Deggendorf Zum Job 

Sieht gut aus, funktioniert aber nicht

Ein anschauliches Beispiel aus der Studie: Die KI sollte eine interaktive Grafik zur Lebenszufriedenheit in verschiedenen Ländern erstellen. Auf den ersten Blick wirkte das Ergebnis überzeugend. Doch beim genaueren Hinsehen häuften sich die Probleme: Länder fehlten komplett, Texte lagen übereinander, Farben in der Legende passten nicht – oder waren gleich gar nicht vorhanden.

Die Untersuchung gehört zu den ersten, die KI mit echten Arbeitsaufträgen aus der Praxis konfrontiert haben – ganz ohne menschliche Nachhilfe. Das Resultat dämpft die Erwartungen deutlich: Die oft gehörte These, KI werde schon bald große Teile der Arbeitswelt ersetzen, hält diesem Realitätscheck nicht stand.

Fast die Hälfte der getesteten Projekte endete mit mangelhaften Ergebnissen. Mehr als ein Drittel wurde nicht einmal fertiggestellt. Und bei jedem fünften Auftrag kam es zu technischen Problemen, etwa beschädigten oder unbrauchbaren Dateien. „Viele Fehler waren erstaunlich simpel“, sagte der Studienleiter.

Zwei große Schwächen der KI

Übertragen wir das Ganze noch einmal in die vertrauten Begriffe aus dem Arbeitsleben: Was würde passieren, wenn ein neuer Mitarbeiter oder eine neue Mitarbeiterin die Kritik und das Feedback der Vorgesetzten ständig ignoriert – und Woche für Woche dieselben Fehler macht? Wahrscheinlich wäre das Thema Probezeit schnell erledigt.

Genau hier liegen auch die größten Schwächen der KI, wie die Forscher herausfanden. Zum einen kann sie sich Inhalte nicht dauerhaft merken. Sie lernt kaum aus eigenen Fehlern und vergisst Hinweise oder Korrekturen schnell wieder. Zum anderen hat sie große Probleme mit visuellen Aufgaben. Dinge wie Grafikdesign, Layout oder räumliches Denken fallen ihr deutlich schwer.

In der Praxis heißt das: Die KI wirkt oft fleißig und kompetent, doch sie entwickelt sich kaum weiter. Und wer im Job nicht dazulernt und Feedback ignoriert, hat bekanntlich schlechte Karten.

Etwas besser schnitt die KI bei einer Programmieraufgabe ab. Sie sollte ein kleines Browserspiel entwickeln. Das beste Ergebnis war tatsächlich spielbar – keine Selbstverständlichkeit. Allerdings überging die KI eine wichtige Vorgabe: Das Spiel sollte ein Bier-Thema haben. Davon war im Ergebnis nichts zu sehen.

Echte Jobs, echtes Geld, echte Arbeit

Der Remote Labor Index (RLI) setzt nicht auf Theorie, sondern auf echte Arbeitsaufträge aus der Remote-Welt. Dazu gehören ganz unterschiedliche Projekte – von Spieleentwicklung über Produktdesign und Architektur bis hin zu Datenanalyse und Videoanimation.

Die Aufgaben hatten es teils in sich: Manche kosteten mehr als 10.000 Dollar und dauerten über 100 Arbeitsstunden. Alle Zahlen stammen aus der Praxis – von menschlichen Profis, die diese Jobs tatsächlich erledigt haben.
Insgesamt kommen so mehr als 6.000 Stunden echter Arbeit zusammen, mit einem Gesamtwert von über 140.000 Dollar. Genau an diesen realen Maßstäben musste sich die KI messen lassen.

KI im Job – noch lange kein Ersatz

Könnte KI Remote-Jobs selbst erledigen, würden Unternehmen Aufgaben einfach an Chatbots statt an Freelancer vergeben – ein Traum für Firmen, ein Alptraum für Auftragnehmer. Die Studie zeigt: Davon sind wir noch weit entfernt.
Fast die Hälfte der Projekte im Remote Labor Index war von schlechter Qualität, mehr als ein Drittel blieb unvollständig, und bei jedem fünften Auftrag gab es technische Probleme wie kaputte Dateien. KI wirkt fleißig, echte Arbeitsleistung liefert sie aber noch nicht.

Ein Beitrag von:

  • Alexandra Ilina

    Alexandra Ilina ist Diplom-Journalistin (TU-Dortmund) und Diplom-Übersetzerin (SHU Smolensk) mit mehr als 20 Jahren Berufserfahrung im Journalismus, in der Kommunikation und im digitalen Content-Management. Sie schreibt über Karriere und Technik.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.