KI sortiert Bewerber aus, obwohl ihre Lebensläufe identisch sind
KI im Recruiting kann identische Bewerber je nach Lebenslaufstil unterschiedlich bewerten – mit bis zu 42 Prozent Abweichung in der Hire-Rate.
KI-gestützte Bewerbungsscreenings können identische Lebensläufe unterschiedlich bewerten – abhängig vom Schreibstil, der Struktur und dem verwendeten KI-Modell, obwohl Qualifikationen und Inhalte gleich bleiben.
Foto: Smarterpix/DCStudio
Eine aktuelle Untersuchung des KI-Anbieters i10x.ai zeigt einen überraschenden Effekt im KI-gestützten Bewerbungsscreening: Identische Kandidaten können je nach Formulierung ihres Lebenslaufs deutlich unterschiedlich bewertet werden – obwohl Qualifikationen, Erfahrung und Inhalte exakt gleich bleiben.
Worum es in der Studie wirklich geht
Für die Analyse wurden 100 realistische Bewerberprofile aus 12 Branchen erstellt und jeweils mit passenden Stellenausschreibungen kombiniert. Diese Profile wurden anschließend in vier Varianten eines Lebenslaufs übersetzt – geschrieben von GPT, Claude, Gemini und Grok.
Wichtig: Die Fakten blieben konstant. Nur Sprache, Struktur und Stil wurden verändert.
Anschließend bewerteten mehrere KI-Modelle diese Lebensläufe im Blindtest. Insgesamt flossen 1576 Datenpunkte in die Auswertung ein.
Schwelle zwischen „Maybe“ und „Hire“
Die Studie zeigt eine klare Verzerrung:
Bei identischer Qualifikation lag die maximale Abweichung in der „Hire Rate“ bei bis zu 42 Prozentpunkten.
Das bedeutet: Nicht die Person, sondern die sprachliche Verpackung entscheidet mit darüber, wie ein Kandidat von KI-Systemen eingeordnet wird.
Lesen Sie auch: Wenn das Anschreiben mehr über ChatGPT verrät als über den Bewerber
Der kritische Punkt für Recruiting-Teams
Besonders problematisch ist die Schwelle zwischen „Maybe“ und „Hire“:
In vielen automatisierten Recruiting-Prozessen wird ein „Maybe“ faktisch wie eine Absage behandelt. Wenn ein Lebenslauf nicht eindeutig positiv bewertet wird, erreicht er oft gar nicht mehr den menschlichen Recruiter.
Die „Maybe“-Falle trifft qualifizierte Kandidaten besonders stark
Claude bewertet den GPT-Lebenslauf eines qualifizierten Backend Engineers mit 78 Punkten (Maybe). Dieselbe Person erhält mit anderen Lebenslaufversionen (Claude, Gemini, xAI) von anderen Evaluatoren klare „Hire“-Bewertungen.
In einer Pipeline, in der Claude alleiniger Screener ist, würde dieser Kandidat aussortiert – nicht wegen fehlender Qualifikation, sondern wegen der Formatierung.
Warum diese Ergebnisse mit Vorsicht zu lesen sind
Da die Studie von einem KI-Anbieter selbst durchgeführt wurde, ist eine gewisse Interessenperspektive nicht auszuschließen. Dennoch liefert sie einen wichtigen Impuls: KI-gestützte Auswahlprozesse reagieren offenbar sensibel auf sprachliche Muster – und nicht nur auf harte Fakten.
Lesen Sie auch: Bewerbungsfoto mit KI erstellen: Ja oder nein?
Deutliche Modellunterschiede und Konsequenzen
Die Ergebnisse legen nahe, dass KI-basierte Screening-Systeme nicht ausschließlich neutral entlang objektiver Qualifikationen entscheiden, sondern auch empfindlich auf sprachliche Muster und stilistische Unterschiede reagieren.
Damit entsteht eine zentrale Unklarheit im Recruiting-Einsatz von KI: Wird tatsächlich die fachliche Eignung eines Kandidaten bewertet – oder spiegeln die Systeme auch Präferenzen gegenüber bestimmten Schreibstilen wider, die von anderen KI-Modellen erzeugt wurden?
Die Studie zeigt zudem deutliche Modellunterschiede. Während einige Systeme bestimmte Lebenslaufstile häufiger positiv bewerten, fallen andere deutlich strenger aus. Besonders auffällig war dabei, dass Gemini-generierte Lebensläufe im Durchschnitt höhere Hire Rates erzielten, während Claude konsistenter strengere Bewertungen vergab.
Für HR-Abteilungen, Arbeitgeber und Anbieter von Recruiting-Software ergibt sich daraus ein klarer Handlungsauftrag: KI-Screening-Prozesse sollten nicht ohne systematische Bias-Tests, Transparenzmechanismen und menschliche Kontrollinstanzen eingesetzt werden.
„Wir haben nicht getestet, ob KI fair bewertet. Wir haben getestet, ob KI konsistent bewertet. Die Antwort lautet: nein. Dieselbe Person, dieselben Qualifikationen, dieselbe Rolle – und dennoch ein Unterschied von 42 Prozentpunkten in der Hire Rate. Das ist kein technisches Detail. Das ist eine Frage der Fairness.“, heißt es aus dem i10x.ai Research Team.
Welche Risiken entstehen für Arbeitgeber durch KI-Vorselektion?
Wenn KI-Systeme Bewerbungen vorsortieren, verlagert sich ein kritischer Teil der Entscheidungskette auf ein System, das nicht nur Inhalte bewertet, sondern auch stilistische Muster unterschiedlich interpretiert. Arbeitgeber laufen dadurch Gefahr, dass potenziell sehr geeignete Kandidaten bereits vor dem menschlichen Screening aussortiert werden – nicht aufgrund fehlender Qualifikation, sondern wegen Modellpräferenzen, Formatierungsdetails oder sprachlicher Nuancen.
Lesen Sie auch: 100.000 Lebensläufe ausgewertet: Diese Muster führen zu Karriereerfolg
Das kann zu einer verzerrten Talent-Pipeline führen: Die Auswahl wird weniger ein Abbild der tatsächlichen Eignung, sondern stärker ein Ergebnis der jeweiligen KI-Logik. Besonders problematisch ist dabei, dass diese Verzerrung oft unsichtbar bleibt – für Unternehmen sieht der Prozess effizient und objektiv aus, obwohl er systematisch bestimmte Profile bevorzugt oder benachteiligt.
Ein Beitrag von: