Definition: Psychologischer Test
- wissenschafttliches Routineverfahren
- zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale
- Ziel: möglichst quantitative Aussage über relativen Grad der individuellen Merkmalsausprägung
Bestimmungsstücke:
- wissenschaftlich: Test soll eindeutig definierte und relevante Merkmale erfassen, Konstruktion basiert auf statistischen Modellen psychologischer Testtheorien, empirisch bewährt anhand von Testkriterien
- Routineverfahren: Verfahrenablauf und Bewertung genau vorgegeben und wiederholbar
- Persönlichkeitsmerkmal: alle Arten individueller Differenzen; Verrechnung zu einem Score (Rohwert)
Tags: Bestimmungsstücke, Definition, psychologischer Test
Quelle:
Quelle:
Internationale Teststandards
COTAN
AERA Standards for educational and psychological testing
ITC Internatioal Test Commission
DIN 33430
TBS-TK
ISO 9000ff
AERA Standards for educational and psychological testing
ITC Internatioal Test Commission
DIN 33430
TBS-TK
ISO 9000ff
CFA: Einordnung
- SEM
- Modell gemeinsamer Faktoren
- Prüfung zuvor spezifizierter Modelle
- EFA und multiple Regression als Spezialfälle
- Software: LISREL, AMOS, EQS, Mplus
CFA: Aspekte für lineare Struktugleichungsmodelle
Kline
- konfirmatorisch (Denken in Modellen)
- manifeste und latente Variablen
- Analyse von Kovarianzmatrizen
- für korrelative Designs, aber auch experimentell erhobene Daten
- große Stichproben nötig
- Signifikanztests untergeordnet
CFA: Pfaddiagramme
latente Variablen | Konstrukte als Kreise, Elipsen | griech. Buchst. |
manifeste Variablen | Indikatoren als Rechtecke | lat. Buchst. |
Residuen, Fehler | Kreis (oft ohne) | griech. Buchst. |
latente Variablen | in Modell erklärt | "abhängig" | "endogen" |
nicht im Modell | "unabhängig" | "exogen" |
Pfeile / Pafde
korrelative Annahmen | Doppelpfeil |
Benennung | griech. Buchstaben |
Ladungskoeffizienten | berechnet oder festgelegt |
Parameter | doppelt: (1):Ziel, (2)Ursprung |
CFA: max. 7 Klassen von Variablen im Pfaddiagramm
Eta | latente endogene V. | |
Ksi | latente exogene V. | |
y | Indikator latente endogene V. | |
x | Indikator latente exogene V. | |
Epsilon | Residualvariable für y | |
Delta | Residualvariable für x | |
Zeta | Residualvariable für Eta |
CFA: Strukturgleichungsmodell
Strukturmodell | Beziehung latenter Variablen (ausschl) |
Messmodell exog. Var. | exog. Var und Indikatoren |
Messmodell endog. Var | endog. Var und Indikatoren |
- einzelne Teile untersuchbar
- wenn latente Ebene ausgelassen: expolrative Pfadanalyse
CFA der Primärfaktoren | Messmodell der exogenen Variablen |
CFA 2. Ordnung | Messmodell exogener Variablen |
Strukturmodell | |
kein Messmodell endogener Variablen | |
ergeben sich aus Kovarianzen der Primärfaktoren |
CFA: Strukturgleichungsmodell in Matrixalgebra
8 Matrizen nötig
Mathematisches Ziel: komplexes Gleichungssystem auflösen
- für Strukturmodell
- für Messmodell der lat. endog. Variablen
- für Messmodell der lat. exog. Variablen zusätzlich vier Kovarianzmatrizen lat exogene Variablen Residuen
Mathematisches Ziel: komplexes Gleichungssystem auflösen
CFA: Vorgehen
- Modellspezifikation
- Bestimmung Identifizierbarkeit
- Design und Datenerhebung
- SEM-Analyse Datenmatrix und Schätzalgorithmus Evaluation Passung - Modellalternativen Interpretation Parameter
- Modifikation und Respezifikation
- Dokumentation
CFA: Modellspezifikation
Festlegungen:
Parameter
- Items (Indikatoren) - latente Variablen (Faktoren) ?
- Beziehung zwischen Faktoren ?
- Korrelationen zwischen Fehlertermen ?
- wenn Nullkorrelation unterstellt, Pfeil weglassen (ist aber bereits eine Spezifikation)
- Einfachstruktur: Items laden auf best. Faktoren auf andere nicht
- Relaxierung: Aufgabe unkorrelierter Fehlerwerte
Parameter
frei | post hoc frei berechnet |
fix | Fixierung auf 1 zur Standardisierung |
beschränkt | beliebiger Wert (constrainted) |
Gleichheitsbeschränkung | |
Ungleichheitsbeschränkung |
CFA: Identifizierbarkeit des Modells
unteridentifiziert | unendlich viele gleichgute Lösungen |
gerade identifiziert | eindeutig lösbar |
überidentifiziert | keine eindeutig richtige Lösung |
Modell hat Freiheitsgrad(e) | |
Maß für Güter der Anpassung nötig |
Geschichte psychologischer Tests
- Antike: Auswahleverfahren für chinesische Beamte
- Francis Galton 1822 - 1911
- Alfred Binet 1857 - 1911
- Army Alpha Test WK 1
Tags: Geschichte, Meilensteine
Quelle:
Quelle:
Klassifikation von Tests
Testbeurteilung nur hinsichtlich spezifischer Anwendungen
Unterscheidung nach Inhalt (Brähler):
Unterscheidung nach Teststrategie
Formal
Unterscheidung nach Inhalt (Brähler):
- Leistungstests
- Psychometrische Persönlichkeitstests
- Persönlichkeitsentfaltungsmöglichkeiten
Unterscheidung nach Teststrategie
- Konstrukttests (normorientiert an Eigenschaften/Fähigkeiten)
- kriterienorientierte Tests (zielorientiert an Idealnorm)
Formal
- Speedtests
- Powertests (Niveautest)
- ein-/mehrdimensional
- Gruppen-/Individualtest
- Technologie (Papier-und Bleistift, PC-gestützt, online)
- adaptiv
Tags: Klassifikation
Quelle:
Quelle:
Gegenstand der Testtheorie
Testtheorie beschäftigt sich mit dem Ausmaß, in dem es zulässig ist:
- einzelne Items als Indikatoren eines latenten Konstrukts anzusehen
- Items zu einem oder mehrere testscore zusammenzufassen
- aus der Ausprägung des Testscores auf psychologisches Merkmal zu schließen
Tags: Gegenstand, Testtheorie
Quelle:
Quelle:
Grundlagen der Klassische Testtheorie
- 95% aller Tests (Rost)
- Ursprung bei Gulliksen 1950
- einfache Anwendbarkeit
- bewährt
Axiomen und Folgerungen: Varianz von Messwerten
- intraindividuell
- interindividuell
Tags: Axiome, Folgerungen, Grundlagen
Quelle:
Quelle:
KTT: Wahrer Wert
- Mittelwert der hypothetischen Normalverteilung ist der "wahre Wert" (Existenzaxiom)
- Jede Messung hat einen Fehler
- Mittelwert der Messfehler ist 0: und
- kein Zusammenhang in Messfehlern:
- kein Zusammenhang in Messfehlern zweier Tests:
- Unkorreliertheit:
- Intervallskalenniveau; aber per fiat auch Aufsummierung richtiger Lösungen als Annäherung an Differenzen
Tags: Fehler, Unkorreliertheit, wahrer Wert
Quelle:
Quelle:
KTT: Reliabilität
Reliabilität : Messgenauigkeit
Reliabilität: Anteil an Gesamtvarianz ,
da
oder auch
Reliabilität: Anteil an Gesamtvarianz ,
da
oder auch
KTT: Reliabilität und Valididtät
- Zielkonstruct C und Verzerrung B für Bias
- erweiterete Grundgleichung:
- Reliabilität
- Validität: Anteil der Zielkonstruktvarianz an der Gesamtvarianz
KTT: Kritik (nach Fischer)
- bias wird wahrem Wert zugeordnet (nicht intendierter systematischer Varianzanteil)
- keine Verbindung zwischen Fähigkeit, Merkmal, Eigenschaft und Itembeanwortung
- Übungs- und Transfereffekte
- ungenauere Messung im extremen Bereich
- KTT setzt Eindimensionalität ohne Prüfung voraus
- Testwerte der KTT stichprobenabhängig
Tags: Kritik, KTT
Quelle:
Quelle:
Testkonstruktion: Vorgehen für Entwurf
Grundsätzlich
Vorgehen
- Abgrenzung Merkmalsbereich und Geltungsbereich
- Ansprüche an empirische Prüfung und Normierung steigen mit der Breite von Anwendungsbereich und Zielgruppe
- Auswahl an Vorgehensmöglichkeit
- Generierung Itempool
Vorgehen
- Literaturrecherche
- Mummenddey & Grau 2008
- Exploratives Vorgehen (Basis Arbeitstheorie, Ausnahme AFA, CIT)
- - qualitative Interviews
- - Facettentheorie (Guttman)
- - Act Frequecy Appraoch AFA (Buss & Clark)
- - Methode der kritischen Ereignisse CIT (Flanagan)
Testkonstruktion: Prinzipien und Strategien des Konstruktionsprinzips
- rationale, deduktive, theoriegeleitete Konstruktion
- externale, empirische, kriteriumsorientierte Strategie
- internal, induktiv, faktorenanalytisches Prinzip
- typologisierender Ansatz
- Prototypenansatz
Testtheorie:rationale Testkonstruktion
- theoretische Definition des Zielkonstrukts
- Ableitung spezifischer, direkt beobachtbarer Indikatoren (deduktiv)
- Beispiel: Berliner Intelligenz Struktur Test (BIS)
- Beispiel: Retrospective Behavioral Self-Control Scale RBS, Marcus 2003)
BIS
- Modi : Inhalte, Operationen
- sieben Fähigkeiten, bimodal
- hierachrische Struktur mit 12 Elementen
Tags: BIS, rationale Testkonstruktion
Quelle:
Quelle:
Testtheorie: externale Testkonstruktion
Empirische Daten im Vordergrund
Kennzeichnend nach Amelang und Schmidt-Atzert:
Typische Anwendungsfälle:
Auswahl der Items nach Prinzip der Maximierung des Zusammenhangs (Dust bowl empiricisms), also kriterienorientiert
Folge
Beispiel: Minnesota Mulitphasic Personality Inventory (Auswahl Items nach Kontrastgruppenmethode) und California Psychological Inventory CPI
Kennzeichnend nach Amelang und Schmidt-Atzert:
- Vorliegen verschiedener Gruppen
- Ziel: Diskriminierung
Typische Anwendungsfälle:
- Persönlichkeitsstörungen
- künstliche Gruppen
- z.B. vertikale Prozentmethode nach England 1971
Auswahl der Items nach Prinzip der Maximierung des Zusammenhangs (Dust bowl empiricisms), also kriterienorientiert
Folge
- inhaltlich schwer interpretierbare Skalen
- große repräsentative Stichproben
- unabhängige Replikation nötig (Kreuzvalidierung)
- gut auch bei geringem theoretischem Vorwissen
Beispiel: Minnesota Mulitphasic Personality Inventory (Auswahl Items nach Kontrastgruppenmethode) und California Psychological Inventory CPI
Testtheorie: internale Testkonstruktion
auch: induktive Methode
Typischerweise wird Itempool generiert, der einen breiten Merkmalsbereich abdeckt (theoretische Vorstellungen existieren).
Danach Bearbeitung durch Stichprobe.
Untersuchung der Items nach Korrelationsmustern per Faktorenanalyse.
Ergebnis: Mehrdimensionale Inventare
Über Binnenstruktur werden zunächst keine Annahmen getroffen. Später wird induktiv auf Modell geschlossen.
Beispiel: Primärfaktorenmodell der Intelligenz (Thurstone & Thurstone 1941), Big Five
Typischerweise wird Itempool generiert, der einen breiten Merkmalsbereich abdeckt (theoretische Vorstellungen existieren).
Danach Bearbeitung durch Stichprobe.
Untersuchung der Items nach Korrelationsmustern per Faktorenanalyse.
Ergebnis: Mehrdimensionale Inventare
Über Binnenstruktur werden zunächst keine Annahmen getroffen. Später wird induktiv auf Modell geschlossen.
Beispiel: Primärfaktorenmodell der Intelligenz (Thurstone & Thurstone 1941), Big Five
Tags: induktive Methode, internal, testkonstruktion
Quelle:
Quelle:
Testtheorie: typologisierende Testkonstruktion
mit Elementen der externalen und internalen Strategie
Ziel: Identifikation von Gruppen von Personen oder Objekten auf Grundlage empirischer Information.
Dominierend: Klassifikation aufgrund mehrerer simultan erfasster merkmale mittels Clusteranalyse
Verwendung von Dimensionen. Daher: Informationsverlust (=Validitätsverlust)
Beispiel: Myers-Briggs-Type-Indicator MBTI
Ziel: Identifikation von Gruppen von Personen oder Objekten auf Grundlage empirischer Information.
Dominierend: Klassifikation aufgrund mehrerer simultan erfasster merkmale mittels Clusteranalyse
Verwendung von Dimensionen. Daher: Informationsverlust (=Validitätsverlust)
Beispiel: Myers-Briggs-Type-Indicator MBTI
Testkonstruktion: Prototypenansatz
Ähnlichkeit mit idealtypisch eingeschätztem Vertreter eines Typs
kognitiver Ankerreiz zur Einschätzung anderer Objekte
Gefahr: Stereotypisierung
kognitiver Ankerreiz zur Einschätzung anderer Objekte
Gefahr: Stereotypisierung
Tags: AFA, Prototypenansatz
Quelle:
Quelle:
Testkonstruktion: Bewertung Hauptprinzipien
kaum systematische Validitätsvorteile
bei kriterienbezogener Validität:
leichte Vorteile der rationalen Strategie
leichte Nachteile der internalen Strategie
Faustregel: So rational wie möglich.
bei kriterienbezogener Validität:
leichte Vorteile der rationalen Strategie
leichte Nachteile der internalen Strategie
rational | internal | external | |
Vorteile | theoretische Fundierung | Exploration unbek. Situationen | geringe Voraussetzung an theor. Kenntnis |
Testergebnisse interpretierbar | Identifikation homogener Konstrukte | gute Kriteriumsvalidität | |
Nachteile | subjektive Vorentscheidungen | große Stichproben für Faktorenlösungen | Ergebnisse instabil |
ungeeignet bei wenig erforschten Situationen | subj. Interpretation der Skalen, kriterienbez. Val. eingeschränkt | Kreuzvailidierung zwingend, große Stichproben |
Faustregel: So rational wie möglich.
Tags: Hauptprinzipien, Testkonstruktion, Vergleich
Quelle:
Quelle:
Itempoolgenerierung: Kategorien von Persönlichkeitseigenschaften
nach inhaltlichen Gesichtspunkten nach Angleitner:
Unterscheidungen
- Beschreibung von Reaktionen (offene/beobachtbare , verborgene/interne , Symptome/phys. Reaktionen)
- Eigenschaftszuschreibungen
- Wünsche, Interessen
- Biografische Fakten
- Einstellungen und Überzeugungen
- Reaktionen anderer auf eigene Person
- Bizarre Items
Unterscheidungen
- objektiv
- subjektiv (Selbst- oder Fremdeinschätzungen)
Tags: Kategorien, Persönlichkeitseigenschaften
Quelle:
Quelle:
Tags: IPIP
Quelle:
Quelle:
Itempool: Generierung
- unsystematisch
- Intuition
- Geschick
- jedes Item sollte innerhalb des definierten Bereichs liegen
- Itemmenge sollte Bereich repräsentativ abdecken
Tags: Itemgenerierung
Quelle:
Quelle:
Itemgenerierung: systematische Hilfsmittel (act frequency approach; auch: Ansatz der Verhaltensauffälligkeiten)
- eine "Metatheorie" der Persönlichkeit
- Dispositionen als kognitive Kategorien, in denen Verhaltensweisen zusammengefasst werden
- ohne eigentlichen Erklärungswert zusammengefasst
- Bsp: "Maria ist arrogant"
- es gibt prototypische / zentrale Eigenschaften und periphere
- AFA: Methode, solche Unterschiede auzudecken
- Versuchspersonen wird eine Eigenschaft vorgegeben
- Versuchspersonen sollen sich solche realen, bekannte Personen vorstellen
- Versuchspersonen sollen Verhaltensweise aufschreiben
- dadurch Itemsammlung
- anschließende Einschätzung der Prototypizität durch andere Personen
- Übernahme der besten Items
- Transfer ich Ich-Form
Tags: AFA Methode
Quelle:
Quelle:
Itemgenerierung: Bewertung AFA
- AFA erlaubt Zuordnung Items zu Skalen unabh. von Intention des Testautors
- psychometrisches Problem: manche Vpn neigen dazu, anzugeben, dass sie Verhalten jeglicher Art gezeigt haben --> dadurch korrelieren Eigenschaften stärker
Tags: AFA, Bewertung
Quelle:
Quelle:
Itemgenerierung: CIT Critical incident technique (auch: Methode der kritischen Ereignisse)
- entstammt Organisationspsychologie
- urspr. Verfahren der beruflichen Leistungsbeurteilung
- Ansatz: gute Leistungen schlagen sich sich in erfolgskritischen Ereignissen nieder
- kritische Ereignisse umfangreicher als acts (Vor- und Nachgeschichte inkludiert)
- vom Autor unabhängige Befragungen generierbar
- Umsetzung mit Einstellungsinterview und Einschätzung der Erfolgswirksamkeit
Itemgenerierung: Bewertung CIT (Schuler & Marcus)
- emprisch bewährt bei Eignungsdiagnose
- valide hinsichtlich Vorhersage beruflicher Leistung
- Ziel: Maximierung kriterienbezogener Validität
- erlaubt es, relevanten Merkmalsbereich abzugrenzen
- Verhaltensbeispiele für mittleres Verhalten schwer zu finden
- Sammlung kritischer Ereignisse gibt nicht unbedingt homnogenes, interpretierbares Produkt
Tags: Bewertung, CIT
Quelle:
Quelle:
Item Formate
Item = Itemstamm + Antwortformat (mögliche Reaktionen)
offen oder gebunden
Regeln
Vermeiden
offen oder gebunden
Regeln
- Förderung Verständlichkeit
- Eindeutigkeit
- Vermeidung Bevorzugung bestimmter Alternativen
Vermeiden
- doppelten Verneinungen
- nicht verstehbare Ausdrücke
- zu lang
- mehr als ein Gedanke pro Item
- starke Verallgemeinerungen
- mehrdeutige Bezüge
- suggestive Formulierungen
- Gemeinplätze
Tags: Itemgenerierung, Regeln
Quelle:
Quelle:
Item Formate
gebunden / offen / atypisch
Offen:
qualitative Auswertung
unerlässlich für manche Fragestellungen
qualitative Auswertung
Gebunden:
vollkommen auswertungsobjektiv
häufig: abgestufte Einstufungs-/Ratingskala
Optimum Stufen: 5 bis 9
unipolar (logisches Minimum) / bipolar (Gegensätze)
Offen:
qualitative Auswertung
unerlässlich für manche Fragestellungen
qualitative Auswertung
Gebunden:
vollkommen auswertungsobjektiv
häufig: abgestufte Einstufungs-/Ratingskala
Optimum Stufen: 5 bis 9
unipolar (logisches Minimum) / bipolar (Gegensätze)
Tags: Item Formate
Quelle:
Quelle:
Item: Skalenniveau metrisch bei Ratingskalen
- viele Skalenstufen
- mehr Items aggregiert
- Empfindung gleichmäßiger Abstände
Assymmetrische Abstände eventuell gewollt (bessere Differenzierung)
Antworttendenzen
- sozial erwünscht
- Tendenz zur Zustimmung ( Akquieszens)
- Bevorzugung best. Skalenbereiche
Tags: Ratingskalen, Skalenniveau
Quelle:
Quelle:
Items: dichotome Auswahlaufgaben
erzeugt mehr richtige Zufallslösungen
Informationsverlust
erleichtert Anwendung der PTT
Informationsverlust
erleichtert Anwendung der PTT
Tags: dichtotome Auswahlaufgaben
Quelle:
Quelle:
Items: Mehrfachwahlaufgaben
multiple choice
irrationale Lösungsstrategien
Distraktoren
Forced-choice
auch bei Q Sort
wechselnder erfolg
ipsative Messung: wenn Antwortalternativen nicht unterschiedlichen Graden, sondern verschiedenen Merkmalen in mehrdimensionalen Tests zugeordnet werden. Problem: fehlende stoch. Unabhängigkeit. Folge: künstliche negative Korrelationen zwischen Merkmalen -
in Persönlichkeitsbereich: Mehrfachantwortformat
in Leistungstests: egal, denn Distraktoren messen kein weiteres Konstrukt
irrationale Lösungsstrategien
Distraktoren
Forced-choice
auch bei Q Sort
wechselnder erfolg
ipsative Messung: wenn Antwortalternativen nicht unterschiedlichen Graden, sondern verschiedenen Merkmalen in mehrdimensionalen Tests zugeordnet werden. Problem: fehlende stoch. Unabhängigkeit. Folge: künstliche negative Korrelationen zwischen Merkmalen -
in Persönlichkeitsbereich: Mehrfachantwortformat
in Leistungstests: egal, denn Distraktoren messen kein weiteres Konstrukt
Tags: Items, Mehrfachwahlaufgaben
Quelle:
Quelle:
Items: Ordnungsaufgaben
Zuordnung
erhöhte Ratewahrscheinlichkeit
Folgefehlerwahrscheinlichkeit
Empfehlung: eine ganz falsche Antwort
Umordnung
ermöglichen Erfassung schlussfolgerndem Denkens mit nonerbalem Material
erhöhte Ratewahrscheinlichkeit
Folgefehlerwahrscheinlichkeit
Empfehlung: eine ganz falsche Antwort
Umordnung
ermöglichen Erfassung schlussfolgerndem Denkens mit nonerbalem Material
Tags: Ordnungsaufgaben
Quelle:
Quelle:
Items: Reihenfolgeeffekte
positive Verzerrung: Assimilationseffekt
negative Verzerrung: Kontratseffekt
event. auch Niederschlag in verzerrten Korrelationen zwischen Merkmalsbereichen
Gegenmaßnahme: Zufällige Anordnung, inhaltlich zusammenhängende Items weit trennen
negative Verzerrung: Kontratseffekt
event. auch Niederschlag in verzerrten Korrelationen zwischen Merkmalsbereichen
Gegenmaßnahme: Zufällige Anordnung, inhaltlich zusammenhängende Items weit trennen
Tags: Items, reihenfolgeeffekte
Quelle:
Quelle:
Itemanalyse: Deskritpive Analyse
- Standardwabw. sollte bei 5er Skala 1 betragen
- Regel: rechtssteile Verteilung ( negative Schiefe)
- Regel: Exzess (Kurtosis) häufiger negativ
- Normalverteilung: kolomogorov-Smirnov-Test
- Mittelwert Grundlage für Itemschwierigkeiten
Itemschwierigkeit
Itemschwierigkeit
korrigierte Itemschwierigkeit mit Zufallskorrektur
m: Anzahl Wahlmöglichkeiten, : Anzahl Falschlöser
möglich auch Inangriffnahmekorrektur: statt
korrigierte Itemschwierigkeit mit Zufallskorrektur
m: Anzahl Wahlmöglichkeiten, : Anzahl Falschlöser
möglich auch Inangriffnahmekorrektur: statt
Tags: Itemschwierigkeit
Quelle:
Quelle:
Transformation und Schwierigkeitsanalyse bei Ratingskalen
Transformieren: Theoretisches Minimum Wert 0
für Anzahl richtiger Lösungen muss der transformierte Mittelwert eingesetzt werden
für Anzahl der Probanden muss der transformierte Maximalwert eingesetzt werden
Idealerweise mittlere Schwierigkeit für Maximum der Unterscheidungen.
Faustregeln: <20% und >80% eleminieren
Schwerigkeit sagt etwas über die maximal in einem Item enthaltene Information aus, nicht über tatsächliche Informationshaltigkeit.
Schwierigkeit beeinflusst Varianz eines Items
für Anzahl richtiger Lösungen muss der transformierte Mittelwert eingesetzt werden
für Anzahl der Probanden muss der transformierte Maximalwert eingesetzt werden
Idealerweise mittlere Schwierigkeit für Maximum der Unterscheidungen.
Faustregeln: <20% und >80% eleminieren
Schwerigkeit sagt etwas über die maximal in einem Item enthaltene Information aus, nicht über tatsächliche Informationshaltigkeit.
Schwierigkeit beeinflusst Varianz eines Items
Tags: Schwierigekeitsanalyse Ratingskalen
Quelle:
Quelle:
Trennschärfe
in KTT Indikator dafür, wie gut einzelnes Item das Merkmal abbildet
korrigierte Korrelation (part-whole-Korrektur) einer Aufgabe mit Skala
Trennschärfenanalyse ersetzt nicht Validitätsstudie
Eigentrennschärfe
Korrelation mit Skala
Fremdtrennschärfe
Korrelation mit anderen Skalen
Part-Whole-Korrektur: sonst geht partielle Eigenkorrelation mit ein.
Bei Ratingskala: Produkt-Moment-Korrelation
Bei dichot. Items: punktbiseriale Korrelation
Fausregel: unter .30 Item verwerfen oder solange sie zur Relaibilität beitragen.
Ausnahme: External konstruierte Skale
korrigierte Korrelation (part-whole-Korrektur) einer Aufgabe mit Skala
Trennschärfenanalyse ersetzt nicht Validitätsstudie
Eigentrennschärfe
Korrelation mit Skala
Fremdtrennschärfe
Korrelation mit anderen Skalen
Part-Whole-Korrektur: sonst geht partielle Eigenkorrelation mit ein.
Bei Ratingskala: Produkt-Moment-Korrelation
Bei dichot. Items: punktbiseriale Korrelation
Fausregel: unter .30 Item verwerfen oder solange sie zur Relaibilität beitragen.
Ausnahme: External konstruierte Skale
Korrektur extremer Schwierigkeiten bei Items
Moosburger & Zistler
schwierigkeitsproportionale Stichprobenverteilung
Berechnung eines Selektionskennwerts
schwierigkeitsproportionale Stichprobenverteilung
Berechnung eines Selektionskennwerts
PTT: Raschmodell
- Fähigkeit -> Personenparameter
- Schwierigkeit -> Itemparameter
Erschöpfende Statistik: Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung einer Person
eindimensionales Konstrukt: Antowort auf ein Item misst nur eine Eigenschaft
Modelltests möglich
Wenn nicht verworfen, dann eindimensional (dann, wenn Korrelation zwischen Items nach Auspartialisierung der latenten Eigenschaft verschwindet = lokale Unabhängigkeit )
Tags: eindimesional, lokale Unabhängigkeit, Modelltest, Rasch
Quelle:
Quelle:
Raschmodell: lokale statistische Unabhängigkeit
Dann gegeben, wenn für jede Person Lösungswahrscheinlichkeiten zweier Items multipliziert werden dürfen
Raschmodell: Spezifische Objektivität
zwei Arten invarianter Vergleiche
- Vergleiche zwischen Personen sind invariant über die Items und Maße
- Vergleiche zwischen Items sind invariant über die spezifischen Personen, an denen die Items kalibriert werden
Raschmodell: Itemparameter
zu schätzen über conditional Maximum Likelihood Methode cML
Differenzskalenniveau (logarithmierte Verhätlnisskala), daher Logit-Einheit
Itemrohwerte werden nicht verwendet
Personenparameter zu schätzen über Kenntnis der Itemparameter.
Item- und Personenparameter besitzen gleiche Einheit (Logit-Einheit)
Logitbereich: i.d.R. -3 ... +3, theor. ...
negative Werte: leichte Items/Personen mit geringer Fähigkeit
positive Werte: schwere Items/Personen mit hoherFähigkeit
Differenzskalenniveau (logarithmierte Verhätlnisskala), daher Logit-Einheit
Itemrohwerte werden nicht verwendet
Personenparameter zu schätzen über Kenntnis der Itemparameter.
Item- und Personenparameter besitzen gleiche Einheit (Logit-Einheit)
Logitbereich: i.d.R. -3 ... +3, theor. ...
negative Werte: leichte Items/Personen mit geringer Fähigkeit
positive Werte: schwere Items/Personen mit hoherFähigkeit
Raschmodell: Item Caracteristic Curve
subtraktive Verknüpfung von Personen- und Itemparameter
Beziehung Itemlösungswahrscheinlichkeit und Parameter logistische Funktion
ergibt ICC
eine kriteriumsorientierte Interpretation der Personenparameter ist möglich. Keine Normstichprobe nötig.
Beziehung Itemlösungswahrscheinlichkeit und Parameter logistische Funktion
ergibt ICC
eine kriteriumsorientierte Interpretation der Personenparameter ist möglich. Keine Normstichprobe nötig.
Raschmodell: Grafischer Modelltest
Streudiagramm
Darstellung der geschätzten Itemparameter aus zwei Stichproben (z.B. Teilung der Stichprobe am Median)
Regressionsgerade (=Winkelhalbierende im Diagramm)
kein Signifikanztest. Dafür gibt es den Andersen-Likelihood-Quotienten-Test, andere wie Pearson Chi oder Bootstrap kritisch.
Bootstrap: simuliert Verteilung der verschiedener Prüfgrößen verschiedener Modelltests
Darstellung der geschätzten Itemparameter aus zwei Stichproben (z.B. Teilung der Stichprobe am Median)
Regressionsgerade (=Winkelhalbierende im Diagramm)
kein Signifikanztest. Dafür gibt es den Andersen-Likelihood-Quotienten-Test, andere wie Pearson Chi oder Bootstrap kritisch.
Bootstrap: simuliert Verteilung der verschiedener Prüfgrößen verschiedener Modelltests
Rasch Modell: Annahmen
wenn durch Modelltest nicht abgelehnt, dann:
- Lösungswahrscheinlichkeit durch logistische Funktion
- Summenwerte sind suffizente und erschöpfende Statistiken der Personenfähigkeit
- Vergleiche zwischen Items und Personen sind spezifisch objektiv
- Items sind eindimensional
- Items besitzen gleiche Trennschärfe (im dichothomen Raschmodell)
Birnbaum-Modell (2-Parameter-Modell)
- enthält zusätzlich Trennschärfeparameter
- Trennschärfe Steigung der ICC am Wendepunkt p=.50 Trennschärfen einzelner Items können sich unterscheiden
- Itemschwierigkeit
- x-Achsenposition bei Lösungswahrscheinlichkeit .50
- unterschiedliche Trennschärfen müssen geschätzt werden
- ungenauere Schäzgenauigkeit
- keine ungewichtete Summenbildung mehr
- Nachweis Eindimensionalität müsste erbracht werden
PTT: 3-Parameter-Modell
zusätzlich: Ratewahrscheinlichkeit
möglich wäre auch Irtrtumswahrscheinlichkeit
Anwendung 3PL Modell nicht zu empfehlen (wegen leichten Distraktoren)
möglich wäre auch Irtrtumswahrscheinlichkeit
Anwendung 3PL Modell nicht zu empfehlen (wegen leichten Distraktoren)
PTT: Probabilistische Modelle für Ratingskalen
ordinales Raschmodell für Items mit mehr als 2 Antwortkategorien
Übergang von der Wahrscheinlichkeit einer Antwortketegorie auf die nächste heißt Schwelle (daher: Schwellenparameter)
dann: Category Characteristic Curve (CCC) oder auch Kategoriefunktionen
Partial Credit Modell
Voraussetzung: geordnete Antwortschwellen (keine Überschneidung)
Mittelung der Schwellenparameter für jedes Item führt zum Itemparameter für jedes Item
Übergang von der Wahrscheinlichkeit einer Antwortketegorie auf die nächste heißt Schwelle (daher: Schwellenparameter)
dann: Category Characteristic Curve (CCC) oder auch Kategoriefunktionen
Partial Credit Modell
Voraussetzung: geordnete Antwortschwellen (keine Überschneidung)
Mittelung der Schwellenparameter für jedes Item führt zum Itemparameter für jedes Item
PTT: Mixed rasch Modelle
quantifizieren und klassifizieren
sucht nach Personengruppen, die sich im Antwortmuster maximal unterscheiden
in jeder Klasse gilt das Raschmodell
Nützlich für Testkonstruktion: Können Verletzung der Eindimensionalitätsannahme zeigen (wenn Zweiklassenlösung gefunden wird)
sucht nach Personengruppen, die sich im Antwortmuster maximal unterscheiden
in jeder Klasse gilt das Raschmodell
Nützlich für Testkonstruktion: Können Verletzung der Eindimensionalitätsannahme zeigen (wenn Zweiklassenlösung gefunden wird)
EFA: Ursprung und Grundlagen
Spearman 1904 (Intelligenzforschung)
aus linearen Modell
untersucht latente Zusammenhänge
Korrelationsmuster von manifesten Variablen, Ziel: Datenstrukturierung
Kombination von Varianquellen: Catell (drei varianzquellen, sechs mögliche Arten von Korrelationsmatrizen unterschieden)
hier: R-Technik
trimodale Faktorenanalyse: drei Varianzquellen simultan
keine theoretischen Modellannahmen vorausgesetzt
aus linearen Modell
untersucht latente Zusammenhänge
Korrelationsmuster von manifesten Variablen, Ziel: Datenstrukturierung
Kombination von Varianquellen: Catell (drei varianzquellen, sechs mögliche Arten von Korrelationsmatrizen unterschieden)
hier: R-Technik
trimodale Faktorenanalyse: drei Varianzquellen simultan
keine theoretischen Modellannahmen vorausgesetzt
EFA: zentrale Zwecke (Thomson)
- Prüfung der Gültigkeit (Validität; faktorielle Validität)
- Entwicklung von Theorien (interne Struktur psychologischer Konstrukte)
- Datenreduktion (übergeordnete Faktoren)
EFA: Effektindikatoren vs. Kausalindikatoren
simultaner Einfluss jedes Faktors auf mehrere beobachtete Variablen
Bollen, Lennox
Bollen, Lennox
- Effektindikatorenmodell (Faktorenanalyse) Indikatoren kovariieren untereinander Messmodell der KTT beruht darauf
- Kausalindikatorenmodell (Regressionsanalyse) bei Zusammenhang der Items mit einem Außemkriterium Homogenität bzw. Korreliertheit der Items nicht zu unterstellen
EFA: PAF und PCA
- Hauptachsenanalyse (PAF; principal axes f.a.) Ziel: Aufdeckung latenter Strukturen im Datensatz
- Hauptkomponentenanalyse (PCA; principal components f.a) Ziel: Datenreduktion und Beschreibung
Tags: PAF, PCA
Quelle:
Quelle:
EFA: Voraussetzungen
- Voraussetzungen Sphärizität, signifikater Bartlett Test KMO Koeffizient nicht unter .50 Kommunalitäten nicht unter .20 MSA (measure of sample adequacy) große Stichprobe (Minimum: N = Anzahl Variablen, mind. N=60) je mehr Items, je weniger Items/Faktor, je unrelaiblere Items, desto mehr N Intervallskalenniveau Normalverteilung
- Methodenartefakte wenn Items ähnliche Verteilung haben, sich abwr zwischen den Faktoren auffällig unterscheiden
EFA: Metoden zur Korrektur bei Nichtnormalverteilung
- log-lineare Transformierung
- parcelling (Zusammenfassung von Items)
- Miniskalen vor Faktorisierung
- Faktorenanalyse höherer Ordnung
- statt Produkt-Moment-Korrelationsmatrix tetrachorische (dichotome Items) bzw. polychorische (Ratingskalen) Korrelationen nutzen
EFA: Extraktionsmethoden-Wahl
- PAF Modell mehrerer gemeinsamer Faktoren beob. Variable = gew. Kombination lat. Var + Fehler) Matrix aus Variablen und Faktoren : Ladungsmatrix Zeilensumme der quadrierten Ladungen: Kommunalitäten (Annahme unkorrelierter Faktoren) Anteil der Varianz eines Items, der durch alle Faktoren aufgeklärt werden kann
- PCA mehrere Faktoren kein Fehlerterm
EFA: Kommunalitätenschätzung
Kommunalitäten werden benötigt, um diese in die Korrelationsmatrix einzusetzen
Dilemma: Kommunalitäten sollten vor Faktorenanalyse bekannt sein.
PCA unterscheidet sich hier von anderen faktorenanalytischen Methoden.
PCA
PAF
Dilemma: Kommunalitäten sollten vor Faktorenanalyse bekannt sein.
PCA unterscheidet sich hier von anderen faktorenanalytischen Methoden.
PCA
- 1 in der Hauptdiagonalen der Korrelationsmatrix
- Kommunalitätenschätzung geht von vollständiger Aufklärung der Varianz aus
PAF
- für Anfangskommunalitäten werden die quadr. multipl Korrelationskoeffizenten zwischen Item und anderen Items eingesetzt
- konservativere Schätzung der Kommunalitäten (in jedem Item Anteil spez. Varianz)
EFA: Prinzip PCA
- ein Berechnungsschritt
- Produzierung eines neue Variablensatzes, nach Bedeutung geordnet
- jede Komponente soll ein Maximum an noch verbleibender Varianz aufklären
- erste Hauptkomponente größere standardisierte varianz als 1 (Eigenwert)
- danach neue Komponente, die unabhängig ist
- Optimierung: Minimum an Komplexität, Maximum an Information, also Datenreduzierung als Ziel
Tags: EFA, Prinzip
Quelle:
Quelle:
EFA: PAF
- iterativer Prozess
- anfänglich Kommunalitätenschätzung geht nicht von vollständiger Varianzaufklärung aus
- neue Schätzungen: eingesetzt in die Hauptdiagonale der Korrelationsmatrix
- nach Berechnung gehen die Schätzungen wieder in die Korrelationsmatrix ein
- Abbruchkriterium
- manchmal keine Konvergenz geringe Stichprobengröße
- Ziel: Entdeckung theoretischer Variablen hinter beobachteten
- theoriebildendes Verfahren, hypothesengenerierend
- manche raten ab
Tags: PAF
Quelle:
Quelle:
EFA: Zahl der Faktoren
- inhaltiches Kriterium
- Eigenwerte aus quadrierten Ladungen aufsummiert spaltenweise (alle Faktorladungen eines Items) = Varianz des Faktors gemessen in Einheiten der Varianz je Item
- in PCA:1, d.h. Eigenwert von 3 -> Varianzstärke von 3 Items
- Eigenwert durch Gesamtzahl Items: Anteil des Faktors an Varianz
- Summe Eigenwerte = Summe der Elemente der Hauptdiagonalen
- Regeln für Faktorenanzahl Faustregel: Kaiser-Guttman-Kriterium (KG-Kriterium) Scree-Test stat. Methoden: z.B. Bartlett (Thompson rät ab), Chi-Quad.
Tags: Eigenwert, Kaiser-Guttman-Test
Quelle:
Quelle:
EFA: Parallelanalyse
- nach Horn
- viele Matrizen gleichen Rangs mit Zufallszahlen erzeugt
- Zufallskorrelationen
- Vergleich mit Zufallseigenwerten
- neigt zu Überschätzung der Faktorenzahl
- ähnlich im Ergebnis: MAP-Test (Minimum Average Partial Test)
Tags: MAP, Paralleltest
Quelle:
Quelle:
EFA: Rotationen
- meist wird Einfachstruktur angestrebt
- Einfachstruktur: Jedes Item soll auf einen Faktor hoch, auf andere niedrig laden
- Zwei Arten Orthagonal Achsen rechtwinklig Oblique Unkorreliertheit aufgegeben keine zeilenweise Summierung
- Entscheidung inhaltlich
- Unabhängikeitsunterstellung begründungspflichtig
Tags: Rotation
Quelle:
Quelle:
EFA: Rotationsverfahren
- Prokrustes wenn CFA Bedingungen ungünstig konfirmatorisch
- Varimax orthagonal verbreitet Unterschiede der Ladungen innerhalb eines Faktors maximiert
- Quartimax erhöhte Zuordnung zu einem Faktor
- Equamax
- Promax oblique
- Direkte Oblimin-Rotation -- Delta Wert einstellbar: max. Korreliertheit bis Orthogonalität
Tags: Equamax, oblique, orthogonal, Prokrustes, Promax, Quartimax, Varimax
Quelle:
Quelle:
EFA: Faktorenanalyse zweiter Ordnung
- aus entstandenen Ladungsmatrizen
- Korrelationsmatrix der rotierten Komponenten (Primärfaktoren)
- weitere Faktorenanalyse z.B. bei hierarchischen Strukturen Bsp: Fünf Faktorenmodell
- neue Ladungsmatrizen: Mustermatrix und Strukturmatrix
Tags: Mustermatrix, Primärfaktoren, Strukturmatrix
Quelle:
Quelle:
EFA: Interpretation
- Strukturmatrix enthält Strukturkoeffizienten
- Mustermatrix enthält partielle stand. Regressionsgewichte des Items mit neuen Faktoren (factor Pattern coeff.)
- identisch bei orthogonaler Rotation
- Interpretiert werden Musterkoeffizienten indirekte Korrelationen auspartialisiert Musterkoeffizienten können >1 und <-1 sein
- bedeutsam sind nicht quad. Ladungskoeffizienten
- Markiervariablen auf einen Faktor hoch, auf andere niedrig --
- ein Faktor soll mit viele hohen Ladungen definiert sein (Überdeterminiertheit)
Tags: Faktornusterkoeffizienten, Markiervariable, Überdeterminiertheit
Quelle:
Quelle:
EFA: Faktorwerte versus Rohwertsummen
- gewichtete Kombination der Items, die zu einem Faktor beitragen
- Koeffizientenmatrix der Faktorenwerte in SPSS
- stichprobenabhängig
- mit gegenüber Verteilung robusteren Rohwertsummen rechnen
- Regressionsrechnung häufig
- z-standardisierte Variablen, daher keine Mittelwertsvergleiche mit Faktorenwerten
- Faktoranalyse zweiter Ordnung untersucht korrelierte Faktorwerte auf gemeinsame Sekundärfaktoren
Tags: Rohwertsummen
Quelle:
Quelle:
EFA: Bewertung
- beliebt
- Kritik gedankenlose Anwendung zahlreiche nicht objektivierbare Entscheidungen Anzahl Faktoren, inhaltliche Interpretation häufige Verwendung der PCA
- Anforderungen große Stichproben viele Indikatoren je Faktor Einzelindikatoren mit hoher Messqualität (Reliabilität und Kommunität) Interkorrelationen Verteilungseigenschaften
* je Variable N=5 oder N=10 (abzuraten von Faustregel)
* EFA ist explorativ, nicht modellprüfemd (Prokrustes Rotation ein wenig)
Tags: Anwendung, Kritik
Quelle:
Quelle:
Kartensatzinfo:
Autor: Markus Kaekenmeister
Oberthema: Psychologie
Thema: Testkonstruktion
Schule / Uni: FernUni Hagen
Ort: Hagen
Veröffentlicht: 09.03.2012
Schlagwörter Karten:
Alle Karten (76)
AFA (2)
AFA Methode (1)
Anwendung (1)
Axiome (1)
Bewertung (2)
BIS (1)
CIT (1)
Definition (1)
EFA (1)
Eigenwert (1)
eindimesional (1)
Equamax (1)
Fehler (1)
Folgerungen (1)
Gegenstand (1)
Geschichte (1)
Grundlagen (1)
Hauptprinzipien (1)
internal (1)
IPIP (1)
Item Formate (1)
Itemgenerierung (2)
Items (2)
Kategorien (1)
Klassifikation (1)
Kritik (2)
KTT (1)
MAP (1)
Markiervariable (1)
Meilensteine (1)
Modelltest (1)
Mustermatrix (1)
oblique (1)
Ordnungsaufgaben (1)
orthogonal (1)
PAF (2)
Paralleltest (1)
PCA (1)
Primärfaktoren (1)
Prinzip (1)
Prokrustes (1)
Promax (1)
Prototypenansatz (1)
Quartimax (1)
Rasch (1)
Ratingskalen (1)
Regeln (1)
Rohwertsummen (1)
Rotation (1)
Skalenniveau (1)
Strukturmatrix (1)
Testkonstruktion (1)
testkonstruktion (1)
Testtheorie (1)
Unkorreliertheit (1)
Varimax (1)
Vergleich (1)
wahrer Wert (1)