Welche Testgütekritieren können unterschieden werden (im Überblick)?
Hauptgütekriterien
Nebengütekriterien
- Objektivität
- Reliabilität
- Validität
Nebengütekriterien
- Skalierung
- Normierung
- Ökonomie
- Nützlichkeit
- Zumutbarkeit
- Unverfälschbarkeit
- Fairness
Tags: Objektivität, Reliabilität, Testgütekriterien, Validität
Quelle: F26
Quelle: F26
Was versteht man unter Reliabilität und welche Arten lassen sich unterscheiden?
Ein Test ist dann (vollständig) reliabel, wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.
(angelehnt an Moosbrugger & Kelava, 2008, S. 11)
Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst.
Allerdings geht es nicht darum, ob der Test auch jenes Merkmal misst, das er zu messen vorgibt.
Es lassen sich drei/vier Arten der Reliabilität unterscheiden
Näheres zur Reliabilität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie
(angelehnt an Moosbrugger & Kelava, 2008, S. 11)
Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst.
Allerdings geht es nicht darum, ob der Test auch jenes Merkmal misst, das er zu messen vorgibt.
Es lassen sich drei/vier Arten der Reliabilität unterscheiden
- Retest - Reliabilität
- Paralleltest - Reliabilität
- Innere Konsistenz
- [Testhalbierungs- (Split Half-) Reliabilität]
Näheres zur Reliabilität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie
Tags: Definition, Reliabilität
Quelle: F32
Quelle: F32
Was ist die Reliabilität? Was kennzeichnet diese?
Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst. Im Rahmen der klassischen Testtheorie steht hierbei die Varianz des Messfehlers im Vordergrund.
Vereinfacht gesagt: Je größer die Varianz des Messfehlers desto, geringer die Reliabilität.
Je nach Autor wird eine Reliabilität ab 0.7 bzw. 0.8 als ausreichende Reliabilität angesehen.
Vereinfacht gesagt: Je größer die Varianz des Messfehlers desto, geringer die Reliabilität.
Je nach Autor wird eine Reliabilität ab 0.7 bzw. 0.8 als ausreichende Reliabilität angesehen.
Tags: Reliabilität
Quelle: F70
Quelle: F70
Welche Arten der Reliabilitätsbestimmung gibt es (im Überblick)?
Es lassen sich drei/vier Arten der Reliabilität unterscheiden
- Retest - Reliabilität
- Paralleltest – Reliabilität
- [Testhalbierungs- (Split Half-) Reliabilität]
- Innere Konsistenz
Tags: Reliabilität
Quelle: F73
Quelle: F73
Was versteht man unter der Retest-Reliabilität?
Hierbei wird derselbe Test derselben Stichprobe zweimal vorgelegt. Vorausgesetzt es gibt weder
entspricht die geschätzte Reliabilität der Korrelationen der Testergebnisse der beiden Durchgänge.
Um unsystematische Veränderungen handelt es sich, wenn die zeitlichen Veränderungen nicht bei allen Personen gleichartig sind z.B. bei manchen Personen bleibt der wahre Wert gleich bei anderen steigt er.
Bei Leistungstest ergeben sich Probleme z.B. aufgrund von Deckeneffekten.
- Veränderungen der Messfehlereinflüsse noch
- „unsystematische“ Veränderungen des wahren Werts,
entspricht die geschätzte Reliabilität der Korrelationen der Testergebnisse der beiden Durchgänge.
Um unsystematische Veränderungen handelt es sich, wenn die zeitlichen Veränderungen nicht bei allen Personen gleichartig sind z.B. bei manchen Personen bleibt der wahre Wert gleich bei anderen steigt er.
Bei Leistungstest ergeben sich Probleme z.B. aufgrund von Deckeneffekten.
Tags: Reliabilität
Quelle: F73
Quelle: F73
Was versteht man unter der Paralleltest-Reliabilität?
Hierbei werden den Personen zwei Tests vorgelegt, die parallele Messungen darstellen. Die Korrelation der Ergebnisse schätzt die Reliabilität der beiden Tests.
Probleme ergeben sich, wenn die beiden Tests nicht völlig parallel sind. Eine strenge Testung der Parallelität zweier Tests ist im Rahmen der klassischen Testtheorie nicht möglich.
Die eleganteste Prüfung der Parallelität von Tests ohne auf die moderne Testtheorie zurückzugreifen, stellen konfirmatorische Faktorenanalysen dar.
Probleme ergeben sich, wenn die beiden Tests nicht völlig parallel sind. Eine strenge Testung der Parallelität zweier Tests ist im Rahmen der klassischen Testtheorie nicht möglich.
Die eleganteste Prüfung der Parallelität von Tests ohne auf die moderne Testtheorie zurückzugreifen, stellen konfirmatorische Faktorenanalysen dar.
Tags: Reliabilität
Quelle: F74
Quelle: F74
Was ist die Testhalbierungs-Reliabilität (Split-Half Reliabilität)?
Hierbei wird ein aus mehreren Items bestehender Test in zwei möglichst parallele Untertests geteilt. Die Korrelation der Ergebnisse der beiden Untertests schätzt die Reliabilität des halb so langen Tests. Um auf die geschätzte Reliabilität des Gesamttests zu kommen, wird auf einen Spezialfall der Formel von Spearman-Brown* zurückgegriffen.
Tags: Reliabilität
Quelle: F75
Quelle: F75
Was ist die Innere Konsistenz?
Methode zur Feststellung der Reliabilität
Hierbei wird jedes Item eines aus mehreren Items bestehenden Tests als eigene Messung des interessierenden Merkmals betrachtet. Die innere Konsistenz kann dann vereinfacht als durchschnittliche Korrelation aller Items dieses Tests verstanden werden, hängt aber auch von der Anzahl an Items im Test ab.
Die bekanntesten Kennwerte zur inneren Konsistenz sind
Stellen die Items zumindest essentiell - äquivalente Messungen dar, sind und 3 Schätzungen der Reliabilität des Gesamttests.
Für den Fall, dass die Items keine äquivalenten Messungen darstellen, sind und 3 lediglich untere Schranken der Reliabilität.
WICHTIG
Hierbei wird jedes Item eines aus mehreren Items bestehenden Tests als eigene Messung des interessierenden Merkmals betrachtet. Die innere Konsistenz kann dann vereinfacht als durchschnittliche Korrelation aller Items dieses Tests verstanden werden, hängt aber auch von der Anzahl an Items im Test ab.
Die bekanntesten Kennwerte zur inneren Konsistenz sind
- Cronbach
- Lambda3 nach Guttman
Stellen die Items zumindest essentiell - äquivalente Messungen dar, sind und 3 Schätzungen der Reliabilität des Gesamttests.
Für den Fall, dass die Items keine äquivalenten Messungen darstellen, sind und 3 lediglich untere Schranken der Reliabilität.
WICHTIG
- bei der Berechnung von und 3 müssen die Items gleichartig „gepolt“ sein, d.h. hohe Werte müssen inhaltlich immer dieselbe Bedeutung haben (z.B. für eine hohe Ausprägung des Merkmals sprechen)
- Weder noch 3 sind ein Maß für die „Eindimensionalität“ von Items
Tags: Reliabilität
Quelle: F76
Quelle: F76
Was kann man mit der Formel nach Spearman-Brown berechnen?
Für den Fall paralleler Items, kann aus der Kenntnis der Reliabilität eines Tests, die Reliabilität des um parallele Items verlängerten bzw. verkürzten Tests mittels der Formel von Spearman-Brown berechnet werden.
Tags: Reliabilität, Spearman-Brown
Quelle: F82
Quelle: F82
Ein Test besteht aus 30 parallelen Items.
Die Reliabilität des Tests beträgt rel=0.67
Wie hoch ist die Reliabilität, wenn man den Test um 10 parallele Items verlängert?
Die Reliabilität des Tests beträgt rel=0.67
Wie hoch ist die Reliabilität, wenn man den Test um 10 parallele Items verlängert?
Tags: Reliabilität, Spearman-Brown
Quelle: F83
Quelle: F83
Ein Test besteht aus 30 parallelen Items.
Die Reliabilität des Tests beträgt rel=0.67
Wie viele Items mehr benötigt der Test, wenn man eine Reliabilität von 0.73 anstrebt?
Die Reliabilität des Tests beträgt rel=0.67
Wie viele Items mehr benötigt der Test, wenn man eine Reliabilität von 0.73 anstrebt?
Tags: Reliabilität, Spearman-Brown
Quelle: F84
Quelle: F84
Was ist die anzustrebende Höhe der Reliabilität? Welche Punkte sind zu berücksichtigen?
Allgemein: so hoch wie möglich.
Es sind jedoch die nachfolgenden Punkte zu berücksichtigen
Art des zu erfassenden Merkmals
Leistungsvariablen sind meist präziser messbar als z.B. Einstellungen oder Persönlichkeitseigenschaften. Bei etablierten Intelligenztests sind Reliabilitäten der globalen Maße oft über 0.90, während Persönlichkeitsfragebogen Skalen oft nur Reliabilitäten um 0.7 aufweisen.
Bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als z.B. die Retest- oder Paralleltest Reliabilität.
Individual- versus Kollektivdiagnostik
Bei Individualdiagnostik sollte Messgenauigkeit höher sein als bei Messung der Durchschnittleistung eines Kollektivs, da sich die Messfehler bei der Zusammenfassung von Messungen mehrerer Individuen „reduzieren“.
Einsatzbedingungen
Bei Tests, die nicht adaptiv* vorgegeben werden können, hängt die Reliabilität relativ stark von der Testlänge ab.
Daher weisen Tests und Fragebögen, die zum Screening eingesetzt werden und daher eher kurz sind, meist eine geringere Reliabilität auf.
*adaptive Testvorgaben werden im Rahmen der Einheiten zur modernen Testtheorie behandelt
Es sind jedoch die nachfolgenden Punkte zu berücksichtigen
- Art des zu erfassenden Merkmals
- Individual- versus Kollektivdiagnostik
- Einsatzbedingungen
- Kosten-Nutzen Abwägungen
- Objektivierbarkeit
Art des zu erfassenden Merkmals
Leistungsvariablen sind meist präziser messbar als z.B. Einstellungen oder Persönlichkeitseigenschaften. Bei etablierten Intelligenztests sind Reliabilitäten der globalen Maße oft über 0.90, während Persönlichkeitsfragebogen Skalen oft nur Reliabilitäten um 0.7 aufweisen.
Bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als z.B. die Retest- oder Paralleltest Reliabilität.
Individual- versus Kollektivdiagnostik
Bei Individualdiagnostik sollte Messgenauigkeit höher sein als bei Messung der Durchschnittleistung eines Kollektivs, da sich die Messfehler bei der Zusammenfassung von Messungen mehrerer Individuen „reduzieren“.
Einsatzbedingungen
Bei Tests, die nicht adaptiv* vorgegeben werden können, hängt die Reliabilität relativ stark von der Testlänge ab.
Daher weisen Tests und Fragebögen, die zum Screening eingesetzt werden und daher eher kurz sind, meist eine geringere Reliabilität auf.
*adaptive Testvorgaben werden im Rahmen der Einheiten zur modernen Testtheorie behandelt
Tags: Reliabilität
Quelle: F86
Quelle: F86
Was ist der Zusammenhang zwischen Reliabilität und Konfidenzintervallen? Welche Arten von Konfidenzintervallen gibt es?
Reliabilität und Konfidenzintervalle für
Da die Reliabilität als Maß für die Genauigkeit der Messung des wahren Werts einer Person verstanden werden kann, ist sie Basis für die Erstellung von Konfidenzintervallen für wahre Werte.
Es gibt zwei Arten von Konfidenzintervallen
– auf Basis der Messfehlervarianz
– auf Basis der Schätzfehlervarianz
Da die Reliabilität als Maß für die Genauigkeit der Messung des wahren Werts einer Person verstanden werden kann, ist sie Basis für die Erstellung von Konfidenzintervallen für wahre Werte.
Es gibt zwei Arten von Konfidenzintervallen
– auf Basis der Messfehlervarianz
– auf Basis der Schätzfehlervarianz
Tags: Konfidenzintervalle, Reliabilität
Quelle: F90
Quelle: F90
Wie kann die Messfehlervarianz berechnet werden?
KI auf Basis der Messfehlervarianz
Bei Vorliegen der Varianz der Testwerte und der Reliabilität kann die Messfehlervarianz berechnet werden.
Bei Vorliegen der Varianz der Testwerte und der Reliabilität kann die Messfehlervarianz berechnet werden.
Tags: Konfidenzintervalle, Reliabilität
Quelle: F91
Quelle: F91
Wie kann der geschätzte wahre Wert und die Schätzfehlervarianz berechnet werden?
KI auf Basis der Schätzfehlervarianz
Tags: Konfidenzintervalle, Reliabilität, Varianz
Quelle: F92
Quelle: F92
Eine Person erzielt in einem Test 43 Punkte. Es ist bekannt, dass der Mittelwert des Tests 39 Punkte, die Standardabweichung des Tests 5 Punkte und die Reliabilität rel= 0.85 beträgt.
In welchem Bereich befindet sich der wahre Wert der Person mit 99%iger Sicherheit?
In welchem Bereich befindet sich der wahre Wert der Person mit 99%iger Sicherheit?
Tags: Mittelwert, Reliabilität, Standardabweichung, Varianz
Quelle: F93
Quelle: F93
Eine Person erzielt in einem Test einen IQ von 134. Die im Testmanual angegebene Testreliabilität beträgt rel= 0.75.
Kann man mit 95%iger Sicherheit davon ausgehen, dass die Person einen „wahren“ IQ über 130 hat und somit hochbegabt ist?
Bemerkung: die Standardabweichung des IQ ist laut Normtabellen auf 15 festgelegt
Kann man mit 95%iger Sicherheit davon ausgehen, dass die Person einen „wahren“ IQ über 130 hat und somit hochbegabt ist?
Bemerkung: die Standardabweichung des IQ ist laut Normtabellen auf 15 festgelegt
Tags: Konfidenzintervalle, Reliabilität
Quelle: F94
Quelle: F94
Welche Grundannahme ist bei der Berechnung der Validität oder Reliabilität eines verkürzten/verlängerten Tests zu berücksichtigen?
Bei der Verkürzung eines Tests darf die Validität und Reliabilität nicht größer werden (und umgekehrt). Falls dies bei der Berechnung trotzdem herauskommt, dann soll dies angemerkt werden.
Tags: Reliabilität, Validität
Quelle: F133
Quelle: F133
Welchen Einfluss hat die Stichprobe bei der klassischen Testtheorie auf folgende Kennwerte:
- Itemschwierigkeit
- Itemvarianz
- Reliabilität
- Validität
- Itemschwierigkeit
- Itemvarianz
- Reliabilität
- Validität
Itemschwierigkeit
Je besser die Stichprobe an der die Schwierigkeit eines Items erhoben wird, desto leichter erscheint das Item. Aber auch der Vergleich des Schwierigkeitsverhältnisses zweier Items hängt von der Stichprobe ab.
Itemvarianz
Die größte Varianz kann bei mittelschweren Items erzielt werden. Je schwerer (oder leichter) ein Item wird, umso geringer ist die Varianz aufgrund von Boden- und Deckeneffekten.
z.B. : Dichotome Items: Extrem leichte (immer gelöste) oder extrem schwere (nie gelöste) Items, haben eine Varianz von 0.
Reliabilität
Validität
Da wir gezeigt haben, dass die Reliabilität von der Stichprobe abhängt, hängt auch die Validität von der Stichprobe ab.
Je besser die Stichprobe an der die Schwierigkeit eines Items erhoben wird, desto leichter erscheint das Item. Aber auch der Vergleich des Schwierigkeitsverhältnisses zweier Items hängt von der Stichprobe ab.
Itemvarianz
Die größte Varianz kann bei mittelschweren Items erzielt werden. Je schwerer (oder leichter) ein Item wird, umso geringer ist die Varianz aufgrund von Boden- und Deckeneffekten.
z.B. : Dichotome Items: Extrem leichte (immer gelöste) oder extrem schwere (nie gelöste) Items, haben eine Varianz von 0.
Reliabilität
Validität
Da wir gezeigt haben, dass die Reliabilität von der Stichprobe abhängt, hängt auch die Validität von der Stichprobe ab.
Tags: Itemschwierigkeit, Itemvarianz, Klassische Testtheorie, Reliabilität, Validität
Quelle: F225
Quelle: F225
Wie hoch ist die Paralleltest-Reliabilität von Test A und B?
Korrelation berechnen: rêl = .715
(SPSS: Analysieren - Korrelation -Bivariat (Pearson))
(SPSS: Analysieren - Korrelation -Bivariat (Pearson))
Tags: Reliabilität
Quelle: Tutorium 1
Quelle: Tutorium 1
Ein Test besteht aus 50 parallelen Items. Der Test ist auf T-Werte geeicht und die Reliabilität beträgt 0.89. Der Test wird nun auf 35 parallele Items gekürzt.
a) Wie hoch ist die Reliabilität des neuen Tests?
b) Welchen Mittelwert und welche Varianz sind im kürzeren Test zu erwarten?
a) Wie hoch ist die Reliabilität des neuen Tests?
b) Welchen Mittelwert und welche Varianz sind im kürzeren Test zu erwarten?
Tags: Berechnung, Reliabilität
Quelle: Tutorium 1
Quelle: Tutorium 1
Ein Test besteht aus 20 parallelen Items. Die Reliabilität des Tests beträgt 0.75.
Wie viele zusätzliche (parallele) Items werden benötigt, wenn man eine Reliabilität von 0.85 anstrebt?
Wie viele zusätzliche (parallele) Items werden benötigt, wenn man eine Reliabilität von 0.85 anstrebt?
Mindestens 38 Items werden benötigt, um die gewünschte Reliabilität zu erhalten. - 18 Items mehr als im Originaltest
Tags: Berechnung, Reliabilität
Quelle: Tutorium 1
Quelle: Tutorium 1
Zwei Bewerber um eine Stelle wurden mit einem Reasoning-Test mit einer Reliabilität von 0.90 getestet, wobei A einen T-wert von 20 und B einen T-Wert von 24 erzielt.
Welche Reliabilität müsste der Test aufweisen, dass von einem statistisch signifikanten Unterschied der Ergebnisse ausgegangen werden könnte?
Welche Reliabilität müsste der Test aufweisen, dass von einem statistisch signifikanten Unterschied der Ergebnisse ausgegangen werden könnte?
Konfidenzintervalle dürften sich nicht überschneiden. D.h. dürften maximal [a, 20+2) bzw. (24-2, b] sein.
Tags: Berechnung, Konfidenzintervalle, Reliabilität
Quelle: Tutorium 2
Quelle: Tutorium 2
Wie hoch ist die Split-Half Realibilität wenn die Korrelation der Summenscores folgendes Ergebnis zeigt?
1. Möglichkeit die Split-Half Reliabilität zu berechnen:
-Test teilen (z.B. gerade/ungerade Items)
-Summenscores für Testteile berechnen
-Korrelation für Summenscores berechnen
-Mittels Korrekturformel geschätzte Reliabilität berechnen
Korrelation der Summenscores: r(X1, X2)=0.547
Anmerkung - 2. Möglichkeit:
2. Möglichkeit:
Analysieren – Skalierung – Reliabilitätsanalyse
- Modell: Split-Half
- Achtung bei Reihenfolge der Items: Erste Hälfte wird Teil 1 und zweite Hälfte Teil 2
- Ergebnis: Spearman-Brown-Koeffizient
-Test teilen (z.B. gerade/ungerade Items)
-Summenscores für Testteile berechnen
-Korrelation für Summenscores berechnen
-Mittels Korrekturformel geschätzte Reliabilität berechnen
Korrelation der Summenscores: r(X1, X2)=0.547
Anmerkung - 2. Möglichkeit:
2. Möglichkeit:
Analysieren – Skalierung – Reliabilitätsanalyse
- Modell: Split-Half
- Achtung bei Reihenfolge der Items: Erste Hälfte wird Teil 1 und zweite Hälfte Teil 2
- Ergebnis: Spearman-Brown-Koeffizient
Tags: Korrelation, Reliabilität
Quelle: Tutorium 2
Quelle: Tutorium 2
Ein Test besteht aus 40 parallelen Items. Die Korrelation des Tests mit einem Außenkriterium beträgt r(x, y)=0.30. Die Reliabilität des Tests beträgt rel=0.75.
Wie hoch ist die Validität, wenn man den Test auf 35 parallele Items verkürzt?
Wie hoch ist die Validität, wenn man den Test auf 35 parallele Items verkürzt?
Tags: Berechnung, Reliabilität
Quelle: Tutorium 2
Quelle: Tutorium 2
Ein Test besteht aus 40 parallelen Items. Die Korrelation des Tests mit einem Außenkriterium beträgt r(x, y)=0.30. Die Reliabilität des Tests beträgt rel=0.75.
Um wie viele parallele Items müsste man den Test erweitern, wenn man eine Validität von 0.32 anstrebt?
Um wie viele parallele Items müsste man den Test erweitern, wenn man eine Validität von 0.32 anstrebt?
Der Test müsste um mindestens 38 Items verlängert werden um die gewünschte Validität von 0.32 zu erhalten.
Tags: Berechnung, Reliabilität
Quelle: Tutorium 2
Quelle: Tutorium 2
Kartensatzinfo:
Autor: coster
Oberthema: Psychologie
Thema: Testtheorie
Schule / Uni: Universität Wien
Ort: Wien
Veröffentlicht: 12.06.2013
Schlagwörter Karten:
Alle Karten (187)
adaptive Testen (1)
adaptiver Test (1)
adaptives Testen (1)
apparativer Test (1)
Axiome (6)
Berechnung (20)
Birnbaum Modelle (1)
Definition (18)
Eigenwert (5)
Erwartungswert (1)
Existenzaxiom (1)
Faktorenanalyse (21)
Faktorenrotation (3)
Faktorenzahl (1)
Faktorwert (1)
Faktorwerte (1)
Fragebogen (2)
Guttman-Skala (4)
Häufigkeit (1)
Hypothese (2)
IRT (32)
Itemanalyse (9)
Itemkonstruktion (3)
Itemtrennschärfe (3)
Itemvarianz (2)
Kennwert (2)
Kennwerte (1)
Kommunalität (2)
Korrelation (3)
Kosten-Nutzen (1)
Kovarianz (1)
Kritik (1)
Ladung (2)
Leistungstest (1)
Likelihood (4)
LLTM (2)
LQT (1)
Marker-Item (1)
Martin Löf Test (1)
Merkmal (3)
Messung (1)
Mittelwert (1)
Modellkontrolle (1)
Modellkontrollen (7)
Normalverteilung (1)
Normierung (4)
Normwerte (5)
Objektivität (5)
Parallelität (1)
Population (2)
projektiver Test (1)
Prozentränge (2)
Rasch-Modell (26)
Regression (1)
Reliabilität (26)
Routineverfahren (2)
Skalenniveau (2)
Skalierung (1)
Spearman-Brown (3)
Stichprobe (1)
Test (8)
Testarten (1)
Testkonstruktion (2)
Tests (1)
Testtheorie (1)
Validität (28)
Varianz (4)
Wissenschaft (2)
z-Test (2)
z-Wert (2)