KI-Leistungsbeurteilung: ChatGPT zeigt menschliche Bewertungsfehler
KI-Systeme wie ChatGPT bewerten menschliche Leistung mit denselben Verzerrungen wie Menschen und vergeben systematisch zu wenige schlechte Noten.
Large Language Models wie ChatGPT bewerten menschliche Leistung ähnlich verzerrt wie Menschen selbst und vergeben systematisch zu wenige schlechte Noten.
Warum wurde die Bewertungsqualität von KI untersucht?
Professor Dirk Sliwka von der Universität zu Köln und sein Kollege Rainer Rilke beobachteten, dass ChatGPT bei der Einschätzung von Bewerbungen auffallend positive und wenig differenzierte Bewertungen abgibt. Diese Beobachtung führte zu einer systematischen Untersuchung der Fähigkeiten von Large Language Models bei der Leistungsbeurteilung.
Wie funktionierte das Experiment mit den S&P 500-CEOs?
Die Forscher ließen ChatGPT die Leistung von Vorstandsvorsitzenden der 500 führenden börsennotierten US-Unternehmen auf einer Skala von eins bis fünf bewerten. Diese standardisierte Bewertungsskala wird häufig auch in deutschen Unternehmen wie SAP oder Siemens für Mitarbeiterbeurteilungen verwendet. Das Ergebnis war eindeutig: Das KI-System vergab fast nie die untersten beiden Bewertungsstufen.
„Es zeigt also ein typisches Muster, das wir auch bei menschlichen Beurteilern oft beobachten – es gibt eine Abneigung, schlechte Bewertungen zu vergeben“, erklärt Professor Sliwka.
Welche Bewertungsmuster zeigen KI-Systeme?
Die Analyse ergab, dass ChatGPT dieselben systematischen Verzerrungen aufweist wie menschliche Beurteiler. Besonders bei subjektiven Leistungskriterien zeigt die KI eine deutliche Tendenz zur Milde. Diese sogenannte „Leniency Bias“ ist aus der HR-Forschung bekannt und führt dazu, dass Bewertungen weniger aussagekräftig werden.
Was bedeutet das für HR-Manager in deutschen Unternehmen?
Für Personalverantwortliche bei Allianz, Henkel oder anderen deutschen Unternehmen bedeuten diese Erkenntnisse, dass KI-Tools nicht automatisch objektiver bewerten als Menschen. Folgende Punkte sollten beachtet werden:
- KI-Bewertungssysteme benötigen spezielle Kalibrierung für realistische Bewertungsverteilungen
- Besonders bei subjektiven Kriterien ist menschliche Expertise weiterhin unverzichtbar
- Kombination aus KI-Vorauswahl und menschlicher Endbeurteilung kann optimale Ergebnisse liefern
Welche Schlussfolgerungen ergeben sich für die Praxis?
Die Studie zeigt, dass KI bei objektiven Leistungskennzahlen durchaus präzise arbeiten kann, bei subjektiven Bewertungen jedoch ähnliche blinde Flecken wie Menschen aufweist. Deutsche Unternehmen sollten daher KI als unterstützendes Instrument einsetzen, nicht als Ersatz für menschliches Urteilsvermögen. Die RWTH Aachen und andere Forschungseinrichtungen arbeiten bereits an verbesserten Algorithmen für fairere Bewertungssysteme.
Fazit
ChatGPT und ähnliche KI-Systeme reproduzieren menschliche Bewertungsfehler statt sie zu korrigieren. Für HR-Entscheidungen bleibt die Kombination aus KI-Unterstützung und menschlicher Expertise der beste Ansatz.