Verpassen Unternehmen ihre besten Talente wegen KI?

KI im Recruiting bewertet identische Bewerber je nach Lebenslaufstil unterschiedlich – mit bis zu 42 % Abweichung bei der Hire-Rate.

KI-gestützte Bewerbungsscreenings können identische Lebensläufe unterschiedlich bewerten – abhängig vom Schreibstil, der Struktur und dem verwendeten KI-Modell, obwohl Qualifikationen und Inhalte gleich bleiben.

Foto: Smarterpix/DCStudio

Künstliche Intelligenz hält zunehmend Einzug in Personalabteilungen. Sie soll Bewerbungen vorsortieren, paKünstliche Intelligenz hält zunehmend Einzug in Personalabteilungen. Sie soll Bewerbungen vorsortieren, passende Kandidatinnen und Kandidaten identifizieren und Recruiting-Prozesse beschleunigen. Für Unternehmen klingt das verlockend: weniger Aufwand, schnellere Entscheidungen und mehr Objektivität. Doch wie zuverlässig bewerten KI-Systeme tatsächlich die Qualifikation eines Menschen?

Eine aktuelle Untersuchung des KI-Anbieters i10x.ai wirft genau diese Frage auf. Die Ergebnisse deuten darauf hin, dass identische Bewerberprofile je nach Formulierung des Lebenslaufs unterschiedlich bewertet werden können – obwohl Ausbildung, Berufserfahrung und Fähigkeiten unverändert bleiben.

Die Studie liefert keinen Beweis dafür, dass KI-Systeme grundsätzlich ungeeignet für die Personalauswahl sind. Sie macht jedoch auf ein Problem aufmerksam, das für Unternehmen und Bewerber*innen gleichermaßen relevant sein könnte: die mangelnde Konsistenz der Bewertungen.

Gleiche Qualifikation, unterschiedliche Bewertung
Warum reagieren Sprachmodelle auf Formulierungen?
Problematisch wird es an der Grenze zwischen „Maybe“ und „Hire“
Erste wissenschaftliche Studien beobachten ähnliche Effekte
Auch Menschen urteilen nicht immer gleich
Bevorzugen Sprachmodelle bestimmte Schreibstile?
Was bedeutet das für Unternehmen?
AI Act entfacht die Diskussion weiter

Gleiche Qualifikation, unterschiedliche Bewertung

Für die Untersuchung erstellte i10x.ai 100 realistische Bewerberprofile aus zwölf verschiedenen Branchen. Zu jedem Profil wurde eine passende Stellenausschreibung ausgewählt.

Anschließend entstanden vier unterschiedliche Versionen jedes Lebenslaufs. Dafür kamen die Sprachmodelle GPT, Claude, Gemini und Grok zum Einsatz. Die zugrunde liegenden Fakten blieben unverändert. Unterschiede gab es lediglich bei Sprache, Struktur und Stil.

Mehrere KI-Modelle bewerteten die Lebensläufe anschließend im Blindtest. Insgesamt flossen 1576 Einzelbewertungen in die Analyse ein.

Das Ergebnis fiel überraschend deutlich aus: Im Extremfall unterschied sich die sogenannte Hire Rate um bis zu 42 Prozentpunkte. Derselbe Kandidat konnte also abhängig von der sprachlichen Gestaltung seines Lebenslaufs sehr unterschiedlich eingestuft werden.

Lesen Sie auch:

up to date bleiben

Die 10 wichtigsten Messen für Ingenieure

Kostenlose Vorlagen zum Download

Anschreiben für die Bewerbung: Muster und Beispiele

Internationale Bewerbung

Lebenslauf auf Englisch: Was bei CV und Resume zu beachten ist

Bewerbungsunterlagen

Bewerbung: Sprachkenntnisse richtig formulieren – Besonders ein Aspekt ist elementar

Wichtig dabei: Die 42 Prozentpunkte stellen den größten beobachteten Unterschied innerhalb der Untersuchung dar. Sie beschreiben keinen Durchschnittswert.

Warum reagieren Sprachmodelle auf Formulierungen?

Auf den ersten Blick wirkt das Ergebnis irritierend. Aus technischer Sicht ist es jedoch nachvollziehbar. Große Sprachmodelle funktionieren anders als klassische Expertensysteme. Sie arbeiten nicht mit festen Bewertungstabellen und gleichen Bewerbungen nicht Punkt für Punkt mit einem Anforderungsprofil ab.

Stattdessen analysieren sie sprachliche Muster und berechnen Wahrscheinlichkeiten. Bestimmte Begriffe, Formulierungen oder Strukturen werden statistisch häufiger mit erfolgreichen Bewerbungen verknüpft als andere.

Dadurch können bereits kleine Unterschiede Einfluss auf die Bewertung haben, etwa bei:

der Beschreibung von Projekterfolgen,
der Reihenfolge einzelner Informationen,
der Gliederung des Lebenslaufs,
der Verwendung von Schlüsselbegriffen aus der Stellenanzeige,
der Formulierung von Verantwortlichkeiten und Kompetenzen.

Die fachliche Qualifikation einer Person verändert sich dadurch nicht. Die Wahrnehmung durch das KI-System kann sich jedoch durchaus ändern.

Problematisch wird es an der Grenze zwischen „Maybe“ und „Hire“

Besonders relevant wird dieser Effekt in automatisierten Vorauswahlprozessen. Viele Unternehmen nutzen KI-Systeme nicht als alleinige Entscheidungsinstanz. Häufig dienen sie als vorgeschaltete Filterstufe. Bewerbungen mit guten Bewertungen gelangen an Recruiterinnen und Recruiter. Andere werden zunächst zurückgestellt oder gar nicht weiter betrachtet.

Genau hier können Inkonsistenzen problematisch werden. In einem Beispiel der Studie erhielt ein qualifizierter Backend Engineer von einem Modell lediglich die Bewertung „Maybe“. Andere Modelle stuften denselben Kandidaten bei identischen Qualifikationen dagegen als klaren „Hire“ ein.

Ob ein Mensch die Bewerbung später überhaupt sieht, könnte damit teilweise von sprachlichen Details abhängen, die nichts mit der fachlichen Eignung zu tun haben.

Erste wissenschaftliche Studien beobachten ähnliche Effekte

Die Untersuchung von i10x.ai stammt vom Unternehmen selbst und wurde nicht im Rahmen eines wissenschaftlichen Peer-Review-Verfahrens veröffentlicht. Die Ergebnisse sollten daher als Hinweis und nicht als endgültiger Beweis verstanden werden. Allerdings steht die Studie nicht völlig allein.

So untersuchten Forschende in der Arbeit „Evaluating Large Language Models in Resume Screening“ verschiedene Sprachmodelle bei der Bewertung von Bewerberprofilen. Die Autoren stellten fest, dass die Systeme teilweise unterschiedliche Einschätzungen für vergleichbare Kandidaten abgaben und dabei nicht selten von den Bewertungen menschlicher Recruiterinnen und Recruiter abwichen.

Zu ähnlichen Ergebnissen kommt die Studie „Do LLMs Select the Best Candidate?“. Die Forschenden analysierten, wie zuverlässig große Sprachmodelle Bewerber*innen vergleichen und auswählen können. Dabei zeigte sich, dass die Modelle nicht immer den objektiv besser qualifizierten Kandidaten bevorzugten und ihre Bewertungen teilweise inkonsistent ausfielen.

Die vorhandenen Arbeiten liefern damit erste Hinweise auf mögliche Schwächen bei Konsistenz und Robustheit solcher Systeme. Von einem wissenschaftlichen Konsens kann derzeit jedoch noch keine Rede sein. Die Forschung befindet sich noch in einem frühen Stadium.

Auch Menschen urteilen nicht immer gleich

Die beobachteten Unterschiede sind kein ausschließliches KI-Problem. Auch menschliche Recruiterinnen und Recruiter bewerten Lebensläufe nicht immer identisch. Formulierungen, Layout, Reihenfolge von Informationen oder die Darstellung von Erfolgen können die Wahrnehmung beeinflussen.

Der entscheidende Unterschied liegt jedoch im Maßstab. Während einzelne Personalverantwortliche nur eine begrenzte Zahl von Bewerbungen bearbeiten, können KI-Systeme Tausende Lebensläufe nach denselben Mustern bewerten. Mögliche Fehlbewertungen lassen sich dadurch deutlich schneller vervielfachen.

Bevorzugen Sprachmodelle bestimmte Schreibstile?

Ein weiterer Forschungsansatz beschäftigt sich derzeit mit einer noch offenen Frage. Einige Wissenschaftler*innen untersuchen, ob Sprachmodelle Texte bevorzugen könnten, die typische sprachliche Muster derselben Modellfamilie enthalten. Teilweise wird in diesem Zusammenhang vom sogenannten „LLM-Ingroup Bias“ gesprochen.

Die bisherigen Ergebnisse sind noch vorläufig und wissenschaftlich nicht abschließend abgesichert. Sollte sich dieser Effekt bestätigen, könnte künftig nicht nur die Qualifikation eines Kandidaten eine Rolle spielen, sondern auch die Art und Weise, wie ein Lebenslauf formuliert wurde oder mit welchem KI-Werkzeug er erstellt wurde. Für belastbare Schlussfolgerungen ist es allerdings noch zu früh.

Was bedeutet das für Unternehmen?

Die Ergebnisse sprechen nicht gegen den Einsatz von KI im Recruiting. Sie zeigen jedoch, dass Unternehmen die Technologie nicht als vollkommen objektive Bewertungsinstanz betrachten sollten.

KI kann Personalabteilungen entlasten und Bewerbungsprozesse beschleunigen. Gleichzeitig besteht die Gefahr, dass geeignete Kandidatinnen und Kandidaten aufgrund sprachlicher Unterschiede unterschiedlich bewertet werden.

Fachleute empfehlen daher, automatisierte Screening-Systeme regelmäßig zu überprüfen, ihre Ergebnisse kritisch zu analysieren und menschliche Kontrollinstanzen beizubehalten.

AI Act entfacht die Diskussion weiter

Mit dem europäischen AI Act dürfte diese Diskussion zusätzlich an Bedeutung gewinnen. KI-Anwendungen im Personalbereich gelten dort als Hochrisiko-Systeme und unterliegen künftig strengeren Anforderungen an Transparenz, Dokumentation und Nachvollziehbarkeit.

Die zentrale Erkenntnis lautet deshalb nicht, dass KI keine Bewerbungen bewerten kann. Vielmehr zeigen die bisherigen Untersuchungen, dass die Systeme noch nicht immer so konsistent und nachvollziehbar arbeiten, wie viele Anwender vermuten.

Oder wie es das Forschungsteam von i10x.ai formuliert: „Wir haben nicht getestet, ob KI fair bewertet. Wir haben getestet, ob KI konsistent bewertet. Die Antwort lautet: nein.“

Hier geht es zur Untersuchung

Ein Beitrag von:

Alexandra Ilina

Alexandra Ilina ist Diplom-Journalistin (TU-Dortmund) und Diplom-Übersetzerin (SHU Smolensk) mit mehr als 20 Jahren Berufserfahrung im Journalismus, in der Kommunikation und im digitalen Content-Management. Sie schreibt über Karriere und Technik.
Dominik Hochwarth

Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.