Studie 12.01.2026, 15:00 Uhr

Wenn KI ein Mensch wäre, würde sie die Probezeit nicht überstehen

Echte Aufgaben, echte Arbeit – und die KI fällt durch. Fast die Hälfte der Projekte im Remote Labor Index landet in schlechter Qualität, viele bleiben unvollständig, und technische Pannen sind an der Tagesordnung.

KI am Arbeitsplatz

KI am Arbeitsplatz: Sie sieht fleißig aus, kann echte Jobs aber noch lange nicht allein erledigen.

Foto: Smarterpix/BiancoBlue

Angst, Sorgen, Jobverlust: Kaum ein Thema wird derzeit so emotional diskutiert wie die Frage, ob Künstliche Intelligenz uns bald die Arbeit wegnimmt. Doch eine neue Studie liefert nun so etwas wie eine vorsichtige Entwarnung. Übersetzt man die Ergebnisse in die Sprache der Arbeitswelt, hat die KI ihre Probezeit nicht bestanden. Wäre sie ein menschlicher Mitarbeiter, hätte sie wohl schon die Kündigung auf dem Schreibtisch.

Realitätstest für KI – die Probezeit wird nicht bestanden

Der sogenannte Remote Labor Index (RLI) prüft KI-Agenten nicht mit theoretischen Tests, sondern mit echten, wirtschaftlich relevanten Remote-Jobs aus verschiedenen Branchen. Das Ziel: herauszufinden, wie gut KI Aufgaben in der Praxis tatsächlich komplett selbst erledigen kann. Das Ergebnis fällt ernüchternd aus. Selbst die leistungsfähigsten Systeme automatisieren maximal 2,5 % der Aufgaben – der Rest bleibt klar menschliche Arbeit.

Für die Studie „Remote Labor Index“ bekamen führende KI-Programme echte Aufgaben, wie sie sonst von Freelancern erledigt werden. Das Ergebnis fällt ernüchternd aus: In vielen Fällen scheiterten die Systeme, wie die Washington Post (via MSN) berichtet.

„Aktuelle Modelle sind noch lange nicht in der Lage, echte Jobs in der Wirtschaft zu automatisieren“, sagte Jason Hausenloy, einer der Forscher hinter der Studie zum Remote Labor Index. Der Index sei entwickelt worden, um politischen Entscheidungsträgern eine nüchterne und realistische Einschätzung der Fähigkeiten von KI-Systemen zu liefern, so Hausenloy.

Stellenangebote im Bereich Forschung & Lehre

Forschung & Lehre Jobs
Hochschule Düsseldorf-Firmenlogo
Wissenschaftliche*r Mitarbeiter*in (w/m/d) im Makerspace Maschinenbau und Verfahrenstechnik Hochschule Düsseldorf
Düsseldorf Zum Job 
Hochschule Bielefeld (HSBI)-Firmenlogo
W2-Professur Konstruktionslehre / Finite Elemente Hochschule Bielefeld (HSBI)
Bielefeld Zum Job 
Ostbayerische Technische Hochschule Amberg-Weiden (OTH)-Firmenlogo
Professur (m/w/d) der BesGr. W2 für das Lehrgebiet Solarenergie und Gebäudeautomation Ostbayerische Technische Hochschule Amberg-Weiden (OTH)
Karlsruher Institut für Technologie (KIT)-Firmenlogo
Leiterin / Leiter Projektträgerschaft "Projektgeförderte Endlagerforschung" (w/m/d) Karlsruher Institut für Technologie (KIT)
Eggenstein-Leopoldshafen Zum Job 
Hochschule Heilbronn-Firmenlogo
Professur für angewandte KI im Wirtschaftsingenieurwesen Hochschule Heilbronn
Heilbronn Zum Job 
FH Münster-Firmenlogo
Professur für "Thermische Verfahrenstechnik" (w/m/d) FH Münster
Steinfurt Zum Job 
FH Münster-Firmenlogo
Professur für "Antriebssysteme im Maschinenbau" (w/m/d) FH Münster
Steinfurt Zum Job 
Fachhochschule Münster-Firmenlogo
Professur für "Mathematik und Digitale Chemie" (w/m/d) Fachhochschule Münster
Steinfurt Zum Job 
Fachhochschule Aachen-Firmenlogo
Professur "Leistungselektronik und elektrische Versorgungsnetze" Fachhochschule Aachen
Technische Hochschule Nürnberg Georg Simon Ohm-Firmenlogo
Professur für Maschinelles Lernen in der Produktion Technische Hochschule Nürnberg Georg Simon Ohm
Nürnberg Zum Job 
TH Köln-Firmenlogo
Professur für Generative Algorithmen für visuelle Medien TH Köln
Technische Hochschule Nürnberg Georg Simon Ohm-Firmenlogo
Professur für Maschinelles Lernen in der Produktion (W2) Technische Hochschule Nürnberg Georg Simon Ohm
Nürnberg Zum Job 
Bundesanstalt für Straßen- und Verkehrswesen (BASt)-Firmenlogo
Bauingenieurin / Bauingenieur (Master/Uni-Diplom) (m/w/d) Bundesanstalt für Straßen- und Verkehrswesen (BASt)
Bergisch Gladbach Zum Job 
Hochschule Ravensburg-Weingarten University of Applied Sciences-Firmenlogo
Professur Produkt und Umwelt (W2) Hochschule Ravensburg-Weingarten University of Applied Sciences
Weingarten Zum Job 
Westfälische Hochschule Gelsenkirchen, Bocholt, Recklinghausen-Firmenlogo
Professur Smarte Robotik und KI (W2) Westfälische Hochschule Gelsenkirchen, Bocholt, Recklinghausen
Bocholt Zum Job 
Jade Hochschule Wilhelmshaven/Oldenburg/Elsfleth-Firmenlogo
Professur (m/w/d) für das Gebiet Künstliche Intelligenz für Datastream Mining Jade Hochschule Wilhelmshaven/Oldenburg/Elsfleth
Wilhelmshaven Zum Job 
Jade Hochschule Wilhelmshaven/Oldenburg/Elsfleth-Firmenlogo
Professur (m/w/d) für das Gebiet Künstliche Intelligenz für Engineering Optimisation Jade Hochschule Wilhelmshaven/Oldenburg/Elsfleth
Wilhelmshaven Zum Job 

Sieht gut aus, funktioniert aber nicht

Ein anschauliches Beispiel aus der Studie: Die KI sollte eine interaktive Grafik zur Lebenszufriedenheit in verschiedenen Ländern erstellen. Auf den ersten Blick wirkte das Ergebnis überzeugend. Doch beim genaueren Hinsehen häuften sich die Probleme: Länder fehlten komplett, Texte lagen übereinander, Farben in der Legende passten nicht – oder waren gleich gar nicht vorhanden.

Die Untersuchung gehört zu den ersten, die KI mit echten Arbeitsaufträgen aus der Praxis konfrontiert haben – ganz ohne menschliche Nachhilfe. Das Resultat dämpft die Erwartungen deutlich: Die oft gehörte These, KI werde schon bald große Teile der Arbeitswelt ersetzen, hält diesem Realitätscheck nicht stand.

Fast die Hälfte der getesteten Projekte endete mit mangelhaften Ergebnissen. Mehr als ein Drittel wurde nicht einmal fertiggestellt. Und bei jedem fünften Auftrag kam es zu technischen Problemen, etwa beschädigten oder unbrauchbaren Dateien. „Viele Fehler waren erstaunlich simpel“, sagte der Studienleiter.

Zwei große Schwächen der KI

Übertragen wir das Ganze noch einmal in die vertrauten Begriffe aus dem Arbeitsleben: Was würde passieren, wenn ein neuer Mitarbeiter oder eine neue Mitarbeiterin die Kritik und das Feedback der Vorgesetzten ständig ignoriert – und Woche für Woche dieselben Fehler macht? Wahrscheinlich wäre das Thema Probezeit schnell erledigt.

Genau hier liegen auch die größten Schwächen der KI, wie die Forscher herausfanden. Zum einen kann sie sich Inhalte nicht dauerhaft merken. Sie lernt kaum aus eigenen Fehlern und vergisst Hinweise oder Korrekturen schnell wieder. Zum anderen hat sie große Probleme mit visuellen Aufgaben. Dinge wie Grafikdesign, Layout oder räumliches Denken fallen ihr deutlich schwer.

In der Praxis heißt das: Die KI wirkt oft fleißig und kompetent, doch sie entwickelt sich kaum weiter. Und wer im Job nicht dazulernt und Feedback ignoriert, hat bekanntlich schlechte Karten.

Etwas besser schnitt die KI bei einer Programmieraufgabe ab. Sie sollte ein kleines Browserspiel entwickeln. Das beste Ergebnis war tatsächlich spielbar – keine Selbstverständlichkeit. Allerdings überging die KI eine wichtige Vorgabe: Das Spiel sollte ein Bier-Thema haben. Davon war im Ergebnis nichts zu sehen.

Echte Jobs, echtes Geld, echte Arbeit

Der Remote Labor Index (RLI) setzt nicht auf Theorie, sondern auf echte Arbeitsaufträge aus der Remote-Welt. Dazu gehören ganz unterschiedliche Projekte – von Spieleentwicklung über Produktdesign und Architektur bis hin zu Datenanalyse und Videoanimation.

Die Aufgaben hatten es teils in sich: Manche kosteten mehr als 10.000 Dollar und dauerten über 100 Arbeitsstunden. Alle Zahlen stammen aus der Praxis – von menschlichen Profis, die diese Jobs tatsächlich erledigt haben.
Insgesamt kommen so mehr als 6.000 Stunden echter Arbeit zusammen, mit einem Gesamtwert von über 140.000 Dollar. Genau an diesen realen Maßstäben musste sich die KI messen lassen.

KI im Job – noch lange kein Ersatz

Könnte KI Remote-Jobs selbst erledigen, würden Unternehmen Aufgaben einfach an Chatbots statt an Freelancer vergeben – ein Traum für Firmen, ein Alptraum für Auftragnehmer. Die Studie zeigt: Davon sind wir noch weit entfernt.
Fast die Hälfte der Projekte im Remote Labor Index war von schlechter Qualität, mehr als ein Drittel blieb unvollständig, und bei jedem fünften Auftrag gab es technische Probleme wie kaputte Dateien. KI wirkt fleißig, echte Arbeitsleistung liefert sie aber noch nicht.

Ein Beitrag von:

  • Alexandra Ilina

    Alexandra Ilina ist Diplom-Journalistin (TU-Dortmund) und Diplom-Übersetzerin (SHU Smolensk) mit mehr als 20 Jahren Berufserfahrung im Journalismus, in der Kommunikation und im digitalen Content-Management. Sie schreibt über Karriere und Technik.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.