KI im Lernen

KI-Leistungsbeurteilung: ChatGPT zeigt menschliche Bewertungsfehler

KI-Systeme wie ChatGPT bewerten menschliche Leistung mit denselben Verzerrungen wie Menschen und vergeben systematisch zu wenige schlechte Noten.

Von Jonas Weber 03.05.2026 2 Min. Lesezeit KI-bearbeitet

Large Language Models wie ChatGPT bewerten menschliche Leistung ähnlich verzerrt wie Menschen selbst und vergeben systematisch zu wenige schlechte Noten.

Warum wurde die Bewertungsqualität von KI untersucht?

Professor Dirk Sliwka von der Universität zu Köln und sein Kollege Rainer Rilke beobachteten, dass ChatGPT bei der Einschätzung von Bewerbungen auffallend positive und wenig differenzierte Bewertungen abgibt. Diese Beobachtung führte zu einer systematischen Untersuchung der Fähigkeiten von Large Language Models bei der Leistungsbeurteilung.

Wie funktionierte das Experiment mit den S&P 500-CEOs?

Die Forscher ließen ChatGPT die Leistung von Vorstandsvorsitzenden der 500 führenden börsennotierten US-Unternehmen auf einer Skala von eins bis fünf bewerten. Diese standardisierte Bewertungsskala wird häufig auch in deutschen Unternehmen wie SAP oder Siemens für Mitarbeiterbeurteilungen verwendet. Das Ergebnis war eindeutig: Das KI-System vergab fast nie die untersten beiden Bewertungsstufen.

„Es zeigt also ein typisches Muster, das wir auch bei menschlichen Beurteilern oft beobachten – es gibt eine Abneigung, schlechte Bewertungen zu vergeben“, erklärt Professor Sliwka.
L&D Barometer 2026
Wie sieht es bei euch aus?
Anonyme DACH-Branchenstudie. 10 Fragen, fünf Minuten — und du siehst direkt, wo dein Unternehmen im Vergleich steht.
Mitmachen

Welche Bewertungsmuster zeigen KI-Systeme?

Die Analyse ergab, dass ChatGPT dieselben systematischen Verzerrungen aufweist wie menschliche Beurteiler. Besonders bei subjektiven Leistungskriterien zeigt die KI eine deutliche Tendenz zur Milde. Diese sogenannte „Leniency Bias“ ist aus der HR-Forschung bekannt und führt dazu, dass Bewertungen weniger aussagekräftig werden.

Was bedeutet das für HR-Manager in deutschen Unternehmen?

Für Personalverantwortliche bei Allianz, Henkel oder anderen deutschen Unternehmen bedeuten diese Erkenntnisse, dass KI-Tools nicht automatisch objektiver bewerten als Menschen. Folgende Punkte sollten beachtet werden:

KI-Bewertungssysteme benötigen spezielle Kalibrierung für realistische Bewertungsverteilungen
Besonders bei subjektiven Kriterien ist menschliche Expertise weiterhin unverzichtbar
Kombination aus KI-Vorauswahl und menschlicher Endbeurteilung kann optimale Ergebnisse liefern

Welche Schlussfolgerungen ergeben sich für die Praxis?

Die Studie zeigt, dass KI bei objektiven Leistungskennzahlen durchaus präzise arbeiten kann, bei subjektiven Bewertungen jedoch ähnliche blinde Flecken wie Menschen aufweist. Deutsche Unternehmen sollten daher KI als unterstützendes Instrument einsetzen, nicht als Ersatz für menschliches Urteilsvermögen. Die RWTH Aachen und andere Forschungseinrichtungen arbeiten bereits an verbesserten Algorithmen für fairere Bewertungssysteme.

Fazit

ChatGPT und ähnliche KI-Systeme reproduzieren menschliche Bewertungsfehler statt sie zu korrigieren. Für HR-Entscheidungen bleibt die Kombination aus KI-Unterstützung und menschlicher Expertise der beste Ansatz.

Häufige Fragen zu diesem Beitrag

Kann ChatGPT Mitarbeiterleistungen objektiv bewerten?

Nein, ChatGPT zeigt dieselben Bewertungsverzerrungen wie menschliche Beurteiler und vergibt systematisch zu wenige schlechte Noten.

Welche Bewertungsfehler macht KI bei Leistungsbeurteilungen?

KI-Systeme zeigen eine "Leniency Bias" und bewerten besonders bei subjektiven Kriterien zu mild und wenig differenziert.

Sollten Unternehmen KI für Mitarbeiterbewertungen einsetzen?

KI kann als unterstützendes Instrument dienen, sollte aber nicht die menschliche Expertise bei Leistungsbeurteilungen ersetzen.

Autor:in

Jonas Weber

Senior Editor — Tools & Plattformen

Jonas Weber ist Senior Editor bei eLearningTrends und spezialisiert auf LMS-, LXP- und Authoring-Tool-Vergleiche.

KI-Leistungsbeurteilung: ChatGPT zeigt menschliche Bewertungsfehler

Warum wurde die Bewertungsqualität von KI untersucht?

Wie funktionierte das Experiment mit den S&P 500-CEOs?

Welche Bewertungsmuster zeigen KI-Systeme?

Was bedeutet das für HR-Manager in deutschen Unternehmen?

Welche Schlussfolgerungen ergeben sich für die Praxis?

Fazit

Häufige Fragen zu diesem Beitrag

Jonas Weber

Hinterlasse einen Kommentar Antwort abbrechen

Verwandte Beiträge

KI-Interpretierbarkeit: Startup entwickelt Tool für Neuronenkontrolle

Künstliche Intelligenz im Lernen: TalentLMS-Leitfaden für L&D-Teams

KI-Finanzierung: Deepseek sammelt 7,35 Milliarden Dollar ein

Die wichtigsten eLearning-Trends, jeden Freitag im Posteingang.

Archives

Categories