Zum Inhalt springen
elearningtrends.de
KI im Lernen

KI-Leistungsbeurteilung: ChatGPT zeigt menschliche Bewertungsfehler

KI-Systeme wie ChatGPT bewerten menschliche Leistung mit denselben Verzerrungen wie Menschen und vergeben systematisch zu wenige schlechte Noten.

Von Jonas Weber 2 Min. Lesezeit KI-bearbeitet

Large Language Models wie ChatGPT bewerten menschliche Leistung ähnlich verzerrt wie Menschen selbst und vergeben systematisch zu wenige schlechte Noten.

Warum wurde die Bewertungsqualität von KI untersucht?

Professor Dirk Sliwka von der Universität zu Köln und sein Kollege Rainer Rilke beobachteten, dass ChatGPT bei der Einschätzung von Bewerbungen auffallend positive und wenig differenzierte Bewertungen abgibt. Diese Beobachtung führte zu einer systematischen Untersuchung der Fähigkeiten von Large Language Models bei der Leistungsbeurteilung.

Wie funktionierte das Experiment mit den S&P 500-CEOs?

Die Forscher ließen ChatGPT die Leistung von Vorstandsvorsitzenden der 500 führenden börsennotierten US-Unternehmen auf einer Skala von eins bis fünf bewerten. Diese standardisierte Bewertungsskala wird häufig auch in deutschen Unternehmen wie SAP oder Siemens für Mitarbeiterbeurteilungen verwendet. Das Ergebnis war eindeutig: Das KI-System vergab fast nie die untersten beiden Bewertungsstufen.

„Es zeigt also ein typisches Muster, das wir auch bei menschlichen Beurteilern oft beobachten – es gibt eine Abneigung, schlechte Bewertungen zu vergeben“, erklärt Professor Sliwka.

Welche Bewertungsmuster zeigen KI-Systeme?

Die Analyse ergab, dass ChatGPT dieselben systematischen Verzerrungen aufweist wie menschliche Beurteiler. Besonders bei subjektiven Leistungskriterien zeigt die KI eine deutliche Tendenz zur Milde. Diese sogenannte „Leniency Bias“ ist aus der HR-Forschung bekannt und führt dazu, dass Bewertungen weniger aussagekräftig werden.

Was bedeutet das für HR-Manager in deutschen Unternehmen?

Für Personalverantwortliche bei Allianz, Henkel oder anderen deutschen Unternehmen bedeuten diese Erkenntnisse, dass KI-Tools nicht automatisch objektiver bewerten als Menschen. Folgende Punkte sollten beachtet werden:

  1. KI-Bewertungssysteme benötigen spezielle Kalibrierung für realistische Bewertungsverteilungen
  2. Besonders bei subjektiven Kriterien ist menschliche Expertise weiterhin unverzichtbar
  3. Kombination aus KI-Vorauswahl und menschlicher Endbeurteilung kann optimale Ergebnisse liefern

Welche Schlussfolgerungen ergeben sich für die Praxis?

Die Studie zeigt, dass KI bei objektiven Leistungskennzahlen durchaus präzise arbeiten kann, bei subjektiven Bewertungen jedoch ähnliche blinde Flecken wie Menschen aufweist. Deutsche Unternehmen sollten daher KI als unterstützendes Instrument einsetzen, nicht als Ersatz für menschliches Urteilsvermögen. Die RWTH Aachen und andere Forschungseinrichtungen arbeiten bereits an verbesserten Algorithmen für fairere Bewertungssysteme.

Fazit

ChatGPT und ähnliche KI-Systeme reproduzieren menschliche Bewertungsfehler statt sie zu korrigieren. Für HR-Entscheidungen bleibt die Kombination aus KI-Unterstützung und menschlicher Expertise der beste Ansatz.

Häufige Fragen zu diesem Beitrag

Kann ChatGPT Mitarbeiterleistungen objektiv bewerten?
Nein, ChatGPT zeigt dieselben Bewertungsverzerrungen wie menschliche Beurteiler und vergibt systematisch zu wenige schlechte Noten.
Welche Bewertungsfehler macht KI bei Leistungsbeurteilungen?
KI-Systeme zeigen eine "Leniency Bias" und bewerten besonders bei subjektiven Kriterien zu mild und wenig differenziert.
Sollten Unternehmen KI für Mitarbeiterbewertungen einsetzen?
KI kann als unterstützendes Instrument dienen, sollte aber nicht die menschliche Expertise bei Leistungsbeurteilungen ersetzen.
Jonas Weber
Autor:in

Jonas Weber

Senior Editor — Tools & Plattformen

Jonas Weber ist Senior Editor bei eLearningTrends und spezialisiert auf LMS-, LXP- und Authoring-Tool-Vergleiche.

Hinterlasse einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Mehr lesen

Verwandte Beiträge

Wöchentlich. Kostenlos. Werbefrei.

Die wichtigsten eLearning-Trends, jeden Freitag im Posteingang.

Eine kompakte Auswahl der Redaktion: neue Tools, Studien, Fallbeispiele aus dem DACH-Raum – in unter 5 Minuten gelesen.

Jederzeit abbestellbar. Wir versenden ausschließlich redaktionelle Inhalte.