data > opinion

Tom Alby

Interrater-Reliabilität

2019-07-13


Sie sind hier: start / interrater reliabilitaet /

Dank meiner Frau durfte ich mich in den letzten Monaten etwas mehr mit der so genannten Interrater-Reliabilität beschäftigen. Diese wird auch manchmal “Urteilerübereinstimmung” genannt. Im Kern geht es darum ein Maß zu haben, das die Übereinstimmung der EInschätzung verschiedener “Rater” zeigt.

Wir nehmen zunächst folgendes Beispiel: Drei Experten bewerten Webseiten mit einem Fragebogen, und sie nutzen dafür eine Skala von 1 bis 5 (1= schlecht bis 5 = super) in Bezug auf klar definierte Attribute. Die Daten sehen wie folgt aus, jede Spalte ist ein Rater, jede Zeile eine Bewertung (gegebenenfalls müssen die Daten transponiert werden, um Spalten und Reihen zu tauschen, damit das so aussieht wie hier):

library(readr)
ratings <- read_table2("ratings.csv", 
    col_names = FALSE, col_types = cols(X1 = col_integer(), 
        X2 = col_integer(), X3 = col_integer()))
ratings
## # A tibble: 27 x 3
##       X1    X2    X3
##    <int> <int> <int>
##  1     5     5     3
##  2     5     5     3
##  3     5     5     3
##  4     5     5     4
##  5     5     5     4
##  6     5     5     4
##  7     4     5     4
##  8     5     5     4
##  9     5     5     4
## 10     3     1     3
## # … with 17 more rows

Wie wir sehen können stimmen die Experten nur selten überein. In 4 von 27 Fällen erhalten wir dasselbe Rating. Um ein ganz einfaches Maß zu finden, könnten wir einfach den Anteil der übereinstimmenden Bewertungen in Bezug auf alle Bewertungen berechnen,

library(irr)
## Lade nötiges Paket: lpSolve
agree(ratings)
##  Percentage agreement (Tolerance=0)
## 
##  Subjects = 27 
##    Raters = 3 
##   %-agree = 14.8

In diesem Fall hätten wir eine Zahl von 14.8%. Dies ist die so genannte Konkordanzrate. Diese existiert noch in Variationen, zum Beispiel einer Offenheit für leichte Unterschiede, zum Beispiel wenn der Unterschied zu den anderen Ratern nur 1 Punkt beträgt:

agree(ratings, 1)
##  Percentage agreement (Tolerance=1)
## 
##  Subjects = 27 
##    Raters = 3 
##   %-agree = 51.9

Wie auch immer. Wir sehen in diesem Beispiel, dass die Übereinstimmung zwischen den Ratern nur gering ist.

Nächstes Beispiel: An einer Uni arbeiten zwei Professoren. Diese sollen dieselben 50 Klausuren beurteilen. Natürlich könnte man davon ausgehen, dass die beiden Professoren die Leistungen der Studierenden genau gleich einschätzen, denn schließlich soll eine möglichst objektive Einschätzung vorgenommen werden. Dies ist ein etwas anderes Szenario als zum Beispiel der vorherige Fragebogen, bei dem unterschiedliche Meinungen zu einem Thema eingeholt werden sollen. Hier wünscht man sich wahrscheinlich unterschiedliche Einschätzungen, wohingegen wir im Lehrbetrieb erwarten, dass die Leistungen von Studierenden von unterschiedlichen Lehrkräften gleich eingeschätzt werden.

Nun stellen wir uns einmal vor, dass die beiden Professoren die Noten nicht auf die Klausuren geschrieben haben, sondern jeweils die Namen und Noten auf einen Zettel. Und diese verlieren sie beide. Das ist natürlich peinlich, und da es Professoren sind, geben sie nicht zu, dass sie gepfuscht haben. Sie würfeln die Noten einfach aus und schreiben sie auf einen neuen Zettel, den sie dann beim Prüfungsamt abgeben. Und wenn man jetzt einmal darüber nachdenkt, dann ist klar, dass es durch Zufall dazu kommen kann, dass es auch hier Übereinstimmungen gibt. Mit anderen Worten, es ist nicht unwahrscheinlich, dass es gleiche Bewertungen gibt, obwohl der Zufall im Spiel war. Wenn wir uns also eine Konkordanzrate ansehen, insbesonders wenn sie so niedrig ist wie in dem vorherigen Beispiel, dann könnte es sein, dass hier nicht zwei Professoren mit Meinungsverschiedenheiten am Werk waren, sondern zwei schusselige Professoren, die die Noten verbaselt haben und neue Noten auswürfeln mussten.

Genau diesen Umstand, dass auch der Zufall im Spiel sein könnte, nimmt Cohens Kappa in die Berechnung mit auf. Für unser Beispiel passt er leider nicht, da er nur für 2 Rater geschaffen wurde, aber die Ableitung von Fleiss, Fleiss’ Kappa genannt, kann für mehr als zwei Rater genutzt werden:

kappam.fleiss(ratings)
##  Fleiss' Kappa for m Raters
## 
##  Subjects = 27 
##    Raters = 3 
##     Kappa = 0.156 
## 
##         z = 2.68 
##   p-value = 0.00741

Der Kappa-Wert beträgt hier 0.156, er geht maximal bis 1, was eine große Übereinstimmung bedeuten würde. Der Wert kann auch unter 0 gehen. In unserem Beispiel bedeutet der Wert von 0,156, dass eine schwache Übereinstimmung, bereinigt vom Zufall, vorliegt. Natürlich muss man dazu sagen, dass unser n sehr klein ist (27), dennoch liegt p < 0.05.

Fleiss’ Kappa ist nicht unumstritten für diese Fälle, wie so oft in der Statistik sind sich auch die Statistiker nicht einig, was wohl die beste Vorgehensweise ist, da Fleiss nicht primär an ordinale Daten gedacht hat. Wichtig ist aber, dass wir uns generell darüber bewusst sind, dass eine einfache Übereinstimmung nicht den Zufall einbezieht. Für mich war die größe Erkenntnis jedoch, dass Experten sehr unterschiedlicher Meinung sein können, obwohl sie es nicht sein sollten 🙂

Tags: