Was versteht man unter Beurteilerübereinstimmung? In welchen Fällen ist diese notwendig?
Erhebungsmethoden in der empirischen Forschung und klinischen
Psychologie nicht auf Selbstberichte (z.B. standardisierte Fragebögen) beschränkt.
Fremdbeurteilungen durch i. d. R. geschulte Rater stellen eine weitere wichtige Informationsquelle dar, z.B.:
Analog zur Messgüte bei Fragebogenverfahren (Validität, Reliabilität, etc.) stellt sich auch bei Fremdbeurteilungen die Frage nach deren Güte
INTERRATERRELIABILITÄT
Kommen zwei (oder mehr) Beurteiler unabhängig voneinander zur
gleichen Einschätzung/Diagnose ?
Psychologie nicht auf Selbstberichte (z.B. standardisierte Fragebögen) beschränkt.
Fremdbeurteilungen durch i. d. R. geschulte Rater stellen eine weitere wichtige Informationsquelle dar, z.B.:
- Beim Stellen von Diagnosen
- Für die klinische Einschätzung von Schweregraden (z.B. HRSD)
- Allgemein zur Einschätzung der Ausprägung beliebiger Merkmale
Analog zur Messgüte bei Fragebogenverfahren (Validität, Reliabilität, etc.) stellt sich auch bei Fremdbeurteilungen die Frage nach deren Güte
INTERRATERRELIABILITÄT
Kommen zwei (oder mehr) Beurteiler unabhängig voneinander zur
gleichen Einschätzung/Diagnose ?
Tags: Interraterreliabilität
Source: VO08
Source: VO08
Was versteht man unter der Interraterreliabilität und welche Aussagen liefert sie?
INTERRATERRELIABILITÄT
Kommen zwei (oder mehr) Beurteiler unabhängig voneinander zur
gleichen Einschätzung/Diagnose ?
(notwendig bei Fremdbeurteilungen)
Interraterreliabilität liefert Aussagen hinsichtlich
Urteile sollten davon unabhängig sein, wer sie vergeben hat
(vgl. Wirtz & Caspar, 2002, S. 15)
Kommen zwei (oder mehr) Beurteiler unabhängig voneinander zur
gleichen Einschätzung/Diagnose ?
(notwendig bei Fremdbeurteilungen)
Interraterreliabilität liefert Aussagen hinsichtlich
- Genauigkeit von Urteilen
- Objektivität (sind Urteile unabhängig von der Person des jeweiligen Raters?)
Urteile sollten davon unabhängig sein, wer sie vergeben hat
(vgl. Wirtz & Caspar, 2002, S. 15)
- (prinzipielle) Austauschbarkeit der Rater
- Urteile eines Raters ausreichend
- Urteile spiegeln „wahre Merkmalsausprägung“ (klassische Testtheorie) reliabel wider
Tags: Interraterreliabilität
Source: VO08
Source: VO08
Wie kann die Interraterreliabiltät berechnet werden? Voraussetzungen?
Erfassung und Untersuchung der Interraterreliabilität setzt voraus, dass
Interraterreliabilität kann dann mithilfe von Maßen der Beurteilerübereinstimmung berechnet werden.
Unterscheidung gemäß Skalenniveau und anhand der jeweils
verwendeten Definition von Übereinstimmung
Konkordanz bezieht sich i. A. auf die (absolute) Gleichheit von Urteilen,
Reliabilität auf die Ähnlichkeit (relative Gleichheit) von Urteilen.
- mindestens zwei Rater
- Urteile zu denselben Objekten abgegeben haben
Interraterreliabilität kann dann mithilfe von Maßen der Beurteilerübereinstimmung berechnet werden.
Unterscheidung gemäß Skalenniveau und anhand der jeweils
verwendeten Definition von Übereinstimmung
- nominale/ordinale Skalen: Konkordanz
- metrische Skalen: Reliabilität i. e. S.
Konkordanz bezieht sich i. A. auf die (absolute) Gleichheit von Urteilen,
Reliabilität auf die Ähnlichkeit (relative Gleichheit) von Urteilen.
Tags: Interraterreliabilität
Source: VO08
Source: VO08
Was versteht man unter
a) Konkordanz?
b) Reliabilität?
a) Konkordanz?
b) Reliabilität?
(Interraterreliabilität - Beurteilerübereinstimmung)
Konkordanz bezieht sich i. A. auf die (absolute) Gleichheit von Urteilen,
Reliabilität auf die Ähnlichkeit (relative Gleichheit) von Urteilen.
(Gut = Sehr gut / Genügend != Sehr gut)
Konkordanz bezieht sich i. A. auf die (absolute) Gleichheit von Urteilen,
Reliabilität auf die Ähnlichkeit (relative Gleichheit) von Urteilen.
(Gut = Sehr gut / Genügend != Sehr gut)
Tags: Interraterreliabilität, Konkordanz, Reliabilität
Source: VO08
Source: VO08
Was ist die Konkordanz?
- Interraterreliabilität, Beurteilungsübereinstimmung
- Anwendung auf nominalskalierte (kategoriale) Merkmale (z.B. Diagnosen)
- Erfassung des Ausmaßes der Gleichheit von Urteilen
Tags: Interraterreliabilität, Konkordanz
Source: VO08
Source: VO08
Welche Rolle spielt die Interraterreliabilität in der Diagnostik? In welchen Fällen ist keine Übereinstimmung erwartbar?
Diagnostik in der klinischen Psychologie basiert häufig auf der Anwendung strukturierter klinischer Interviews
Operationalisierte und standardisierte Diagnostik psychischer Störungen
Aber: Werden spezifische Diagnosen von unterschiedlichen Ratern nach Durchführung des Interviews übereinstimmend vergeben ?
Nicht-Übereinstimmungen i. A. erwartbar
Operationalisierte und standardisierte Diagnostik psychischer Störungen
- Objektiv (Standardisierung, Raterschulung)
- Valide (operationalisierte Diagnostik nach ICD-10 und/oder DSM-IV)
Aber: Werden spezifische Diagnosen von unterschiedlichen Ratern nach Durchführung des Interviews übereinstimmend vergeben ?
Nicht-Übereinstimmungen i. A. erwartbar
- Ebene der Operationalisierung (z.B. unpräzise Diagnosekriterien)
- Ebene des Durchführenden (z.B. Symptomgewichtung, Anwendungsfehler)
- Ebene des Interviewten (z.B. unterschiedliche Offenheit)
Tags: Interraterreliabilität
Source: VO08
Source: VO08
Was zeigte die Untersuchung des DIPS - wie kann die Konkordanz berechnet werden:
Was ist bei der Berechnung bzw. Interpretation der Konkordanz zu beachten?
Was ist bei der Berechnung bzw. Interpretation der Konkordanz zu beachten?
DIPS (Diagnostisches Interview bei psychischen Störungen; Schneider & Margraf, 2005): Erlaubt die standardisierte Diagnostik einer Anzahl definierter Störungsbilder nach ICD-10 und DSM-IV-TR
Angaben zur Konkordanz (in Bezug auf Lebenszeitdiagnosen) geschulter Rater im Manual (N = 237 Patienten)
Einfachste Möglichkeit der Konkordanzbestimmung
(Also 13% nicht übereinstimmende Resultate)
Angaben zur Konkordanz (in Bezug auf Lebenszeitdiagnosen) geschulter Rater im Manual (N = 237 Patienten)
Einfachste Möglichkeit der Konkordanzbestimmung
(Also 13% nicht übereinstimmende Resultate)
- Prozentuale Übereinstimmung einfaches und anschauliches Maß
- Allerdings: aus statistischer Sicht ist auch dann mit Übereinstimmungen zu rechnen, wenn Rater Urteile völlig zufällig vergeben (vgl. Analyse von Vier-Felder-Tafeln, χ2-Tests)
- Zufällige Übereinstimmungen werden in prozentualer Übereinstimmung nicht berücksichtigt und können somit zu einer Überschätzung der Konkordanz führen ... man kann jetzt folgendes verwenden: Cohens Kappa
Tags: Interraterreliabilität, Konkordanz
Source: VO08
Source: VO08
Was ist Cohens Kappa? Welche Maßzahlen können berechnet werden?
Bei einer einfachen Konkordanzbestimmung mittels prozentueller Darstellung werden zufällige Übereinstimmungen nicht berücksichtigt und können somit zu einer Überschätzung der
Konkordanz führen - deshalb Verwendung von Cohens Kappa.
- P0 = beobachteten Urteile
- Pe = erwartenden Urteile
Konkordanz führen - deshalb Verwendung von Cohens Kappa.
- Cohens Kappa (κ) ist ein zufallsbereinigtesMaß der Beurteilerübereinstimmung (Konkordanz) für 2 Rater (Cohen, 1960)
- Ähnlich wie für χ2-Tests wird für die Berechnung von Kappa die Anzahl zufällig konkordanter Urteile aus den Randverteilungen geschätzt (unter Annahme der Unabhängigkeit der Urteile)
- P0 = beobachteten Urteile
- Pe = erwartenden Urteile
Tags: Cohens Kappa, Interraterreliabilität
Source: VO08
Source: VO08
In welchem Wertebereich kann das Cohens Kappa liegen?
- Wertebereich von Kappa −1 bis +1
- Ähnlich Korrelation, allerdings mit anderer Interpretation negativer Werte
- κ = +1: Perfekte Übereinstimmung/Konkordanz (b = c = 0 .... p0 = 1)
- κ = −1: keine beobachteten Übereinstimmungen (a = d = 0 ... p0 = 0) bei maximaler Wahrscheinlichkeit zufälliger Übereinstimmungen (b = c .... pe = 0.5 ... alle vier Randsummen sind identisch)
- κ = 0: beobachtete Übereinstimmung ist nicht besser als die durch den Zufall erwartete (p0 = pe)
Tags: Cohens Kappa, Interraterreliabilität
Source: VO08
Source: VO08
Was zeigt dieser SPSS-Ausdruck:
Beispiel: 2 Rater und wie sie Major Depression diagnostiziert haben
Kappa = .73, p < .001 (einseitig)
Spricht ein Kappa von .73 für eine gute Konkordanz? - Ja.
Kappa = .73, p < .001 (einseitig)
Spricht ein Kappa von .73 für eine gute Konkordanz? - Ja.
Tags: Cohens Kappa, Interraterreliabilität, SPSS
Source: VO08
Source: VO08
Wann spricht man guter Konkordanz bei Cohens Kappa? Was ist bei der Interpretation der Werte zu beachten?
Cutoffs für Kappa (Fleiss, 1981) – Signifikanz vorausgesetzt
Allerdings: Wertebereich und Ausprägung des Koeffizienten von einer Anzahl an Faktoren beeinflusst, die nicht Konkordanz selbst betreffen .... erschwert Interpretation von Kappa und verringert den Nutzen von Cutoffs
Kappa beeinflusst durch
Effekte gehen in gleiche Richtung .... i. A. Unterschätzung der Konkordanz
Allerdings: Wertebereich und Ausprägung des Koeffizienten von einer Anzahl an Faktoren beeinflusst, die nicht Konkordanz selbst betreffen .... erschwert Interpretation von Kappa und verringert den Nutzen von Cutoffs
Kappa beeinflusst durch
- Randverteilungen (vgl. Phi-Koeffizient)
- Anzahl der Kategorien und der Besetzung von Zellen
- Prävalenz des untersuchten Merkmals
Effekte gehen in gleiche Richtung .... i. A. Unterschätzung der Konkordanz
Tags: Cohens Kappa, Interraterreliabilität
Source: VO08
Source: VO08
Wodurch wird das Cohens Kappa beeinflusst?
Wertebereich und Ausprägung des Koeffizienten von einer Anzahl an Faktoren beeinflusst, die nicht Konkordanz selbst betreffen ... erschwert Interpretation von Kappa und verringert den Nutzen von Cutoffs
Kappa beeinflusst durch
Effekte gehen in gleiche Richtung i. A. .... Unterschätzung der Konkordanz
Kappa beeinflusst durch
- Randverteilungen (vgl. Phi-Koeffizient) .... i. A. Unterschätzung der Konkordanz bei ungleichen Randverteilungen
- Anzahl der Kategorien und der Besetzung von Zellen (Asendorpf & Wallbott, 1978)- geringe Anzahl an Beurteilungskategorien und/oder nur geringe Zellbesetzungen .... Unterschätzung der Konkordanz(Je weniger Kategorien oder geringe Werte in den Zellen (kleiner als 5) desto weniger Konkordanz)
- Prävalenz des untersuchten Merkmals (Feinstein & Cicchetti, 1990; Spitznagel & Helzer, 1985)bei niedriger Prävalenz (ca. < 10% in der Stichprobe) ... Unterschätzung der Konkordanz
Effekte gehen in gleiche Richtung i. A. .... Unterschätzung der Konkordanz
Tags: Cohens Kappa, Interraterreliabilität, Konkordanz
Source: VO08
Source: VO08
Welche weiteren Varianten des Cohens Kappa können berechnet werden? Welche anderen Koeffizienten sind noch zu empfehlen?
Berechnung des gewichteten Kappa (weighted Kappa;
Cohen, 1968)
Kappa verrechnet alle Nicht-Übereinstimmungen gleich schwer, kann unangemessen sein, wenn Merkmale z.B. ordinal skaliert sind
Fleiss‘ Kappa
Probleme des Kappa-Koeffizienten führten auch zur Empfehlung der Verwendung anderer Koeffizienten
Cohen, 1968)
Kappa verrechnet alle Nicht-Übereinstimmungen gleich schwer, kann unangemessen sein, wenn Merkmale z.B. ordinal skaliert sind
Fleiss‘ Kappa
- Liegen Urteile von mehr als 2 Ratern vor und ist man an deren Übereinstimmung interessiert
- Mittlere Konkordanz aller Rater über alle Objekte
- Inhaltlich kann Fleiss‘ Kappa analog zu Cohens Kappa interpretiert werden, Gewichtung ist aber nicht möglich
Probleme des Kappa-Koeffizienten führten auch zur Empfehlung der Verwendung anderer Koeffizienten
- Für dichotome Ratingsskalen und 2 Rater z.B. Odds Ratio oder Yules Y (vgl. Wirtz & Caspar, 2002)
- Für metrische Ratingskalen ist insbesondere die Intraklassenkorrelation (ICC) ein gebräuchliches Maß zur Bestimmung der Interraterreliabilität - Maß der Varianzaufklärung (Wertebereich 0 bis 1)- Für 2 oder mehr Rater geeignet- Erlaubt Bestimmung der absoluten oder der relativen Gleichheit von UrteilenIn SPSS (Analysieren > Skalieren > Reliabilitätsanalyse …) ausreichend implementiert
Tags: Cohens Kappa, Interraterreliabilität
Source: VO08
Source: VO08
Flashcard set info:
Author: coster
Main topic: Psychologie
Topic: Statistik
School / Univ.: Universität Wien
City: Wien
Published: 21.06.2013
Card tags:
All cards (175)
4-Felder-Tafel (17)
abhängige Daten (6)
ALM (1)
ANCOVA (3)
ANOVA (15)
Bindung (1)
Cohens d (10)
Cohens Kappa (6)
Effektgröße (31)
Einzelvergleich (2)
Einzelvergleiche (1)
Eta (7)
Fehler (1)
Friedman-Test (3)
H-Test (5)
Haupteffekt (2)
Haupteffekte (1)
Interaktion (5)
Interraterreliabilität (13)
Konkordanz (4)
Kontrast (11)
Kontrollvariable (1)
MANOVA (2)
McNemar-Test (4)
Mediantest (5)
Medientest (1)
mixed ANOVA (10)
NNT (3)
Normalverteilung (3)
NPV (4)
Nulldifferenzen (1)
odds ratio (7)
partielle Eta (5)
phi-Koeffizient (1)
Phi-Koeffizienz (1)
Planung (1)
Post-Hoc-Test (4)
Post-hoc-Tests (3)
Power (1)
PPV (4)
Prävalenz (6)
r (4)
Reliabilität (1)
risk ratio (7)
Sensitivität (6)
Signifikanz (6)
Spezifität (6)
Sphärizität (2)
SPSS (14)
SPss (1)
Stichprobe (3)
Störvariable (1)
t-Test (7)
Testmacht (2)
Trends (1)
U-Test (6)
Varianz (2)
Varianzanalyse (11)
Varianzschätzer (1)
Voraussetzungen (2)
Vorzeichentest (2)
Wechselwirkung (3)
Wilcoxon-Test (4)
x2-Test (5)