Was ist eine Varianzanalyse und was sind ihre Eigenschaften?
- ein Vergleich der Mittelwerte von mehr als zwei Gruppen
- Verallgemeinerung des t-Tests
- Argumentationsweise korrespondiert eng mit dem t-Test
- Testen gegen die Nullhypothese und Verwerfen dieser bei einem signifikanten Ergebnisses
- Verallgemeinerung des t-Tests
- Argumentationsweise korrespondiert eng mit dem t-Test
- Testen gegen die Nullhypothese und Verwerfen dieser bei einem signifikanten Ergebnisses
Tags: Varianzanalyse
Quelle:
Quelle:
Was ist das Grundprinzip der Varianzanalyse?
Durch die Zerlegung der Varianz der Messwerte in erklärbare und nicht erklärbare Komponenten werden mehrere Mittelwerte simultan miteinander verglichen.
In der ANOVA gibt es 2 Ursachen der Gesamtvarianz:
- systematische Einflüsse
- unsystematische Einflüsse
Systematische Varianz: Anteil der Gesamtvarianz, der auf systematischen Einflüssen beruht.
Residualvarianz: Anteil der Gesamtvarianz, der auf unsystematischen Einflüssen beruht. Unsystematische Einflüsse treten auf, weil sich die Personen oder einzelne Messungen unabhängig von der experimentellen Manipulation voneinander unterscheiden (z.B. unterschiedlich gutes Gedächtnis, unterschiedl. hohe Motivation, Müdigkeit)
In der ANOVA gibt es 2 Ursachen der Gesamtvarianz:
- systematische Einflüsse
- unsystematische Einflüsse
Systematische Varianz: Anteil der Gesamtvarianz, der auf systematischen Einflüssen beruht.
Residualvarianz: Anteil der Gesamtvarianz, der auf unsystematischen Einflüssen beruht. Unsystematische Einflüsse treten auf, weil sich die Personen oder einzelne Messungen unabhängig von der experimentellen Manipulation voneinander unterscheiden (z.B. unterschiedlich gutes Gedächtnis, unterschiedl. hohe Motivation, Müdigkeit)
Tags: Übung, Varianzanalyse
Quelle:
Quelle:
Warum werden nicht einfach drei t-Tests hintereinander durchgeführt?
- wegen der Alpha-Fehler-Kumulierung (man entscheidet sich für die H1, obwohl in Wahrheit die H0 gilt. Fehler-Wahrscheinlichkeit bei Alpha-Kumulierung: 14%)
- wegen der geringeren Teststärke durch geringeren Stichprobenumfang (Teststärke hängt von der Anzahl der Versuchspersonen ab. Da die drei Gruppen nur mit 2/3 der Versuchspersonen berechnet werden, singt die Teststärke und es wird weniger wahrscheinlich, einen signifikanten Unterschied zu finden)
- wegen der geringeren Teststärke durch geringeren Stichprobenumfang (Teststärke hängt von der Anzahl der Versuchspersonen ab. Da die drei Gruppen nur mit 2/3 der Versuchspersonen berechnet werden, singt die Teststärke und es wird weniger wahrscheinlich, einen signifikanten Unterschied zu finden)
Tags: Varianzanalyse
Quelle:
Quelle:
Warum befreit die Varianzanalyse vom Problem der Alpha-Fehler-Kumulierung?
Weil nur ein einmaliger, simultaner Vergleich der Mittelwerte erfolgt.
Tags: Varianzanalyse
Quelle:
Quelle:
Wie lautet das Grundprinzip der einfaktoriellen Varianzanalyse?
- Der simultane Mittelwertsvergleich wird erreicht durch die Betrachtung verschiedener Varianzen
- Aus diesem Vergleich von Varianzen wird ein Urteil über einen möglichen Effekt gefällt
- Aus diesem Vergleich von Varianzen wird ein Urteil über einen möglichen Effekt gefällt
Tags: Varianzanalyse
Quelle:
Quelle:
Was versteht man unter der Gesamtvarianz?
- Variation aller Messwerte, ohne deren Unterteilung in unterschiedliche Versuchsbedingungen zu berücksichtigen
- Stärke der Unterscheidung aller betrachteten Versuchspersonen insgesamt
- Residualvarianz und Effektvarianz ergeben zusammen die Gesamtvarianz
- Auf Populationsebene lassen sich die beiden Varianzen exakt trennen und addieren sich zur Gesamtvarianz.
- Stärke der Unterscheidung aller betrachteten Versuchspersonen insgesamt
- Residualvarianz und Effektvarianz ergeben zusammen die Gesamtvarianz
- Auf Populationsebene lassen sich die beiden Varianzen exakt trennen und addieren sich zur Gesamtvarianz.
Tags: Varianzanalyse
Quelle:
Quelle:
Wie wird die Gesamtvarianz geschätzt?
Jeder einzelne Wert muss in die Formel der Varianz eingesetzt werden und von jedem dieser Werte muss jeweils der Gesamtmittelwert (Mittelwert aller Messwerte der gesamten Stichprobe) abgezogen werden.
Tags: Varianzanalyse
Quelle:
Quelle:
Was versteht man unter Residualvarianz?
- unsystematischer Einfluss (=Fehlervarianz)
- Unterschiede, die auf Unterschiede zwischen den Personen unabhängig von den unterschiedlichen Bedingungen zurückzuführen sind (z.B. durch Unaufmerksamkeit, Müdigkeit, etc.)
- Unterschiede innerhalb der Gruppen
- Unterschiede, die auf Unterschiede zwischen den Personen unabhängig von den unterschiedlichen Bedingungen zurückzuführen sind (z.B. durch Unaufmerksamkeit, Müdigkeit, etc.)
- Unterschiede innerhalb der Gruppen
Tags: Varianzanalyse
Quelle:
Quelle:
Wie wird die Residualvarianz (Varianz innerhalb) geschätzt?
- Variationen innerhalb einer Gruppe werden berechnet, d.h.:
Bei der Residualvarianz wird die mittlere quadrierte Abweichung jedes Messwertes von seinem Gruppenmittelwert berechnet
- Unterschiede zwischen den Gruppen spielen bei dieser Betrachtung keine Rolle: die drei Gruppen werden als unabhängige Stichproben betrachtet
- Idealerweise sollten die Varianzen innerhalb der einzelnen Gruppen gleich sein (Varianzhomogenität)
- dies ist auf Stichprobenebene selten möglich – deshalb wird zur Schätzung der Residualvarianz in der Population der Mittelwert der Varianz innerhalb der Gruppen berechnet (Addition der durchschnittlichen Varianzen, geteilt durch die Anzahl der Gruppen)
Bei der Residualvarianz wird die mittlere quadrierte Abweichung jedes Messwertes von seinem Gruppenmittelwert berechnet
- Unterschiede zwischen den Gruppen spielen bei dieser Betrachtung keine Rolle: die drei Gruppen werden als unabhängige Stichproben betrachtet
- Idealerweise sollten die Varianzen innerhalb der einzelnen Gruppen gleich sein (Varianzhomogenität)
- dies ist auf Stichprobenebene selten möglich – deshalb wird zur Schätzung der Residualvarianz in der Population der Mittelwert der Varianz innerhalb der Gruppen berechnet (Addition der durchschnittlichen Varianzen, geteilt durch die Anzahl der Gruppen)
Tags: Varianzanalyse
Quelle:
Quelle:
Was versteht man unter der Effektvarianz?
- ist der systematische Einfluss (systematische Varianz)
- Varianz zwischen den verschiedenen Gruppen
- Unterschiede, die auf systematische Manipulation der Bedingungen zurückzuführen sind (unabhängige Variablen)
- die Schätzung des Einflusses der experimentellen Bedingungen auf die Gesamtvarianz der Messwerte sollte über die Unterschiede der Gruppenmittelwerte erfolgen
- Varianz zwischen den verschiedenen Gruppen
- Unterschiede, die auf systematische Manipulation der Bedingungen zurückzuführen sind (unabhängige Variablen)
- die Schätzung des Einflusses der experimentellen Bedingungen auf die Gesamtvarianz der Messwerte sollte über die Unterschiede der Gruppenmittelwerte erfolgen
Tags: Varianzanalyse
Quelle:
Quelle:
Wie wird die Varianz zwischen berechnet und was sagt ihr Ergebnis über die Varianz der Mittelwerte aus?
Schätzung des Einflusses der experimentellen Bedingung auf die Gesamtvarianz der Messwerte erfolgt über die Unterschiede der Gruppenmittelwerte:
- Indem man die quadrierte mittlere Abweichung jedes Gruppenmittelwertes vom Gesamtmittelwert (Varianz zwischen)berechnet
- je weiter die Gruppenmittelwerte auseinander liegen, desto weiter liegen sie auch vom Gesamtmittelwert entfernt und desto größer ist die Varianz der Mittelwerte
- aber dieser Wert enthält Residual- und Effektvarianz
- Indem man die quadrierte mittlere Abweichung jedes Gruppenmittelwertes vom Gesamtmittelwert (Varianz zwischen)berechnet
- je weiter die Gruppenmittelwerte auseinander liegen, desto weiter liegen sie auch vom Gesamtmittelwert entfernt und desto größer ist die Varianz der Mittelwerte
- aber dieser Wert enthält Residual- und Effektvarianz
Tags: Varianzanalyse
Quelle:
Quelle:
Mit welcher Größe und welcher Formel wird die systematische Varianz geschätzt und was sagt das Ergebnis aus?
Das Ergebnis der Schätzung der systematischen Varianz ist der F-Wert (F-Bruch):
F = Varianz zwischen = Varianz (Effekt)
Varianz innerhalb Varianz (Prüf)
Wenn es keinen Einfluss der Bedingung gibt, ist F = 1 (Varianz zwischen ist ausschließlich Residualvarianz), wenn es einen Einfluss gibt, ist F > 1 (Varianz zwischen ist größer als Varianz innerhalb).
F = Varianz zwischen = Varianz (Effekt)
Varianz innerhalb Varianz (Prüf)
Wenn es keinen Einfluss der Bedingung gibt, ist F = 1 (Varianz zwischen ist ausschließlich Residualvarianz), wenn es einen Einfluss gibt, ist F > 1 (Varianz zwischen ist größer als Varianz innerhalb).
Tags: Varianzanalyse
Quelle:
Quelle:
Warum werden die Anteile von Effektvarianz und Residualvarianz an der Gesamtvarianz geschätzt?
Ausgehend von dem empirische Daten können die Anteile der beiden Varianzen geschätzt werden – dies ist nötig, damit man feststellen kann, wie groß der Anteil der systematischen Varianz ist – ein großer Anteil würde bedeuten, dass die Manipulation einen Effekt hatte.
Tags: Varianzanalyse
Quelle:
Quelle:
Wie würde die Effektvarianz aussehen, wenn durch die Manipulation kein Effekt erzielt werden würde?
Wenn kein Effekt durch die Manipulation erreicht werden würde, wäre die Effektvarianz gleich null und die Varianz zwischen nur eine Schätzung der Residualvarianz, weil Gruppenmittelwerte aus Werten stammen, auf die auch unsystematische Einflüsse wirken.
Tags: Varianzanalyse
Quelle:
Quelle:
Was geschieht nach der Berechnung des F-Wertes?
- Nach der Berechnung des empirischen F-Wertes wird bestimmt, wie wahrscheinlich es ist, diesen oder einen größeren F-Wert unter der Nullhypothese zu erhalten.
- Tritt ein Wert deutlich größer 1 auf, ist die Annahme der Nullhypothese mit großer Wahrscheinlichkeit falsch. Unterschreitet die Wahrscheinlichkeit des F-Wertes die Signifikanzgrenze, erfolgt Ablehnung der H0 und Annahme der H1 (Alternativhypothese)
- Konvention: Signifikanzgrenze von 5%
- Tritt ein Wert deutlich größer 1 auf, ist die Annahme der Nullhypothese mit großer Wahrscheinlichkeit falsch. Unterschreitet die Wahrscheinlichkeit des F-Wertes die Signifikanzgrenze, erfolgt Ablehnung der H0 und Annahme der H1 (Alternativhypothese)
- Konvention: Signifikanzgrenze von 5%
Tags: Varianzanalyse
Quelle:
Quelle:
Was gibt eine F-Veteilung an und welche Eigenschaften hat sie?
- Die spezielle F-Verteilung gibt in Abhängigkeit von der Anzahl der Gruppen und der Stichprobengröße an, mit welcher Wahrscheinlichkeit bestimmte F-Werte unter der Nullhypothese auftreten.
- Die F-Verteilung ist linksschief.
- Ihr Mittelwert liegt im Gegensatz zur Normalverteilung nicht in der Mitte, sondern in der linken Hälfte der Verteilung.
- Varianzen können keine negativen Werte annehmen,
F-Verteilung beginnt bei 0 und endet im Unendlichen. Dies wäre bei nahezu perfekter Messung der Fall, Residualvarianz geht gegen 0
- Die F-Verteilung ist linksschief.
- Ihr Mittelwert liegt im Gegensatz zur Normalverteilung nicht in der Mitte, sondern in der linken Hälfte der Verteilung.
- Varianzen können keine negativen Werte annehmen,
F-Verteilung beginnt bei 0 und endet im Unendlichen. Dies wäre bei nahezu perfekter Messung der Fall, Residualvarianz geht gegen 0
Tags: Varianzanalyse
Quelle:
Quelle:
Welche Erkenntnis liefert uns der F-Wert?
Was gilt bei F=1 bzw F>1?
Was gilt bei F=1 bzw F>1?
Der F-Wert liefert uns Erkenntnis darüber, ob ein das Ergebnis der Untersuchung auf systematische Maninuplation oder auf zufällige Einflüsse zurückgeht.
F=1: es gibt keinen Einfluss der UV auf den zu untersuchenden Effekt, d.h. Varianz zwischen ist ausschließlich Residualvarianz.
F>1: es gibt einen Einfluss der UV auf den zu untersuchenden Effekt, d.h. Varianz zischen ist größer als Varianz innerhalb.
F=1: es gibt keinen Einfluss der UV auf den zu untersuchenden Effekt, d.h. Varianz zwischen ist ausschließlich Residualvarianz.
F>1: es gibt einen Einfluss der UV auf den zu untersuchenden Effekt, d.h. Varianz zischen ist größer als Varianz innerhalb.
Tags: Varianzanalyse
Quelle:
Quelle:
Warum kann der F-Wert auch zufällig größer sein als 1?
- aufgrund eines Stichprobenfehlers (zufällige Variationen innerhalb der Gruppen, z.B. landeten alle leistungsstarken Personen zufällig in einer Gruppe)
- bei zu kleinen Stichproben kann es also passieren dass der F-Wert>1 ist, die UV also einen systematischen Einfluss hatten obwohl dies in Wirklichkeit gar nicht der Fall ist!
Deshalb: Schätzung der Auftretenswahrscheinlichkeit bestimmter F-Werte unter der Nullhypothese durch F-Verteilung (in Abhängigkeit von der Anzahl der Gruppen und der Stichprobengröße)
- bei zu kleinen Stichproben kann es also passieren dass der F-Wert>1 ist, die UV also einen systematischen Einfluss hatten obwohl dies in Wirklichkeit gar nicht der Fall ist!
Deshalb: Schätzung der Auftretenswahrscheinlichkeit bestimmter F-Werte unter der Nullhypothese durch F-Verteilung (in Abhängigkeit von der Anzahl der Gruppen und der Stichprobengröße)
Tags: Varianzanalyse
Quelle:
Quelle:
Wie verhält sich der F-Wert, wenn es einen bzw. keinen Effekt gibt?
- wenn es keinen Einfluss der Bedingungen gibt, ist F = 1 (Varianz zwischen ist ausschließlich Residualvarianz, also unterscheiden sich nur die Leute innerhalb der Gruppen und nicht die Gruppen selber)
- wenn es einen Einfluss gibt, ist F > 1 (Varianz zwischen ist größer als Varianz innerhalb)
- wenn es einen Einfluss gibt, ist F > 1 (Varianz zwischen ist größer als Varianz innerhalb)
Tags: Varianzanalyse
Quelle:
Quelle:
Warum weiß man nach der Varianzanalyse nicht, inwiefern sich die Gruppen unterscheiden?
Welcher Test kommt dann in Frage?
Welcher Test kommt dann in Frage?
Weil die Varianzanalyse nur eine unspezifische Alternativhypothese testet, also die allgemeine Behauptung, dass sich unter allen untersuchten Gruppen mindestens zwei befinden, die sich unterscheiden.
Hierfür benötigt man einen Post-hoc-Test!
Hierfür benötigt man einen Post-hoc-Test!
Tags: Varianzanalyse
Quelle:
Quelle:
Welche wichtigen Terminologien sollte man sich bei Post-hoc-Tests unbedingt merken?
- unabhängige Variable (UV), abhängige Variable (AV)
- Faktor = UV, wird nur eine UV variiert, spricht man von einer einfaktoriellen Varianzanalyse
- Stufen eines Faktors = die einzelnen Bedingungen
- Haupteffekt = hat getesteter Faktor einen Effekt, wird dieser Haupteffekt genannt
- Treatmentfaktor = UV resultiert aus experimenteller Manipulation, die Vps werden der Bedingung zufällig zugeordnet
- Klassifikationsfaktor = die Versuchspersonen werden aufgrund von organismischen Merkmalen der Personen (Geschlecht, Intelligenz, Extraversion etc.) klassifiziert
- Faktor = UV, wird nur eine UV variiert, spricht man von einer einfaktoriellen Varianzanalyse
- Stufen eines Faktors = die einzelnen Bedingungen
- Haupteffekt = hat getesteter Faktor einen Effekt, wird dieser Haupteffekt genannt
- Treatmentfaktor = UV resultiert aus experimenteller Manipulation, die Vps werden der Bedingung zufällig zugeordnet
- Klassifikationsfaktor = die Versuchspersonen werden aufgrund von organismischen Merkmalen der Personen (Geschlecht, Intelligenz, Extraversion etc.) klassifiziert
Tags: Varianzanalyse
Quelle:
Quelle:
Welche zwei Freiheitsgerade fließen in die Varianzanalyse mit ein?
- ein Freiheitsgrad entsteht durch die Anzahl der Gruppen
- der zweite Freiheitsgrad entsteht durch die Anzahl der Versuchspersonen
=> beeinflussen die Genauigkeit, mit der Varianz geschätzt wird
df zwischen= p-1
df innerhalb= p*(n-1)
p: Anzahl Gruppen
n = Anzahl VP
- der zweite Freiheitsgrad entsteht durch die Anzahl der Versuchspersonen
=> beeinflussen die Genauigkeit, mit der Varianz geschätzt wird
df zwischen= p-1
df innerhalb= p*(n-1)
p: Anzahl Gruppen
n = Anzahl VP
Tags: Varianzanalyse
Quelle:
Quelle:
Was testet die einfaktorielle ANOVA und worüber kann sie keine Aussagen geben? Welches Verfahren wird hier eingesetzt?
• Bei der Varianzanalyse weiß man nicht, welche Gruppen sich unterscheiden:
• Die Varianzanalyse testet immer nur eine unspezifische Alternativhypothese (d.h. eine ungerichtete Hypothese), also die
allgemeine Behauptung, dass sich unter allen untersuchten Gruppen mindestens zwei befinden, die sich unterscheiden.
• Um zu erfahren, welche sich unterscheiden, benötigt man Post-hoc-Verfahren.
• Post-hoc Verfahren berücksichtigen die in der letzten Sitzung besprochenen Probleme der Testung einzelner Gruppen gegeneinander.
• Rasch et al. stellen den Tukey HSDTest vor, besonders üblich ist aber noch der Scheffé Test (der besonders konservativ testet!)
• Die Varianzanalyse testet immer nur eine unspezifische Alternativhypothese (d.h. eine ungerichtete Hypothese), also die
allgemeine Behauptung, dass sich unter allen untersuchten Gruppen mindestens zwei befinden, die sich unterscheiden.
• Um zu erfahren, welche sich unterscheiden, benötigt man Post-hoc-Verfahren.
• Post-hoc Verfahren berücksichtigen die in der letzten Sitzung besprochenen Probleme der Testung einzelner Gruppen gegeneinander.
• Rasch et al. stellen den Tukey HSDTest vor, besonders üblich ist aber noch der Scheffé Test (der besonders konservativ testet!)
Tags: Varianzanalyse, VL03
Quelle:
Quelle:
Welche Frage beantworten Post-Hoc-Tests der Varianzanalyse?
Wie groß muss die Differenz zwischen den Mittelwerten
zweier Gruppen mindestens sein, damit diese
Differenz auf einem kumulierten α-Niveau
signifikant ist, das nicht die zuvor festgesetzte
Grenze (zumeist 5%) überschreitet?
zweier Gruppen mindestens sein, damit diese
Differenz auf einem kumulierten α-Niveau
signifikant ist, das nicht die zuvor festgesetzte
Grenze (zumeist 5%) überschreitet?
Tags: Varianzanalyse
Quelle:
Quelle:
Erläutere das Vorgehen desTukey-HSD-Tests! Welches ist sein Kennwert?
• Paarweiser Vergleich einzelner Gruppen einer Untersuchung, ohne dass der α-Fehler kumuliert oder die Teststärke abnimmt.
• Honest significant difference:
Mittelwertsunterschied, der mindestens erforderlich ist, um auf dem Gesamt-α-Niveau ein signifikantes Ergebnis zu erzielen (Berechnung der kleinsten noch signifikanten Differenz durch Tukey-Test)
• Ist die tatsächliche Differenz zwischen zwei Gruppen größer als der vom Tukey-Test berechnete kritische Wert, besteht ein signifikanter Unterschied zwischen diesen beiden Gruppen.
• Kennwert ist der q-Wert. Dieser bezieht im Gegensatz zum t-Wert zusätzlich die Anzahl der betrachteten Mittelwerte mit ein
(dadurch wird alpha-Fehler-Kumulation verhindert)
• Die kritischen q-Werte hängen insgesamt ab von der Anzahl der betrachteten Gruppen, dem festgelegten Signifikanzniveau und den Freiheitsgraden der „Varianz innerhalb“.
• Berechnung des kritischen Wertes:
• Berechnung der kleinsten noch signifikanten Differenz (Einbezug der Varianz innerhalb und der Anzahl von VPs pro Gruppe)
• Dann erfolgt ein Abgleich mit diesem Wert:
Ist die Differenz größer, unterscheiden sich die beiden Gruppen signifikant, ist sie kleiner, wird angenommen, dass die beiden
Gruppen sich nicht unterscheiden.
• Honest significant difference:
Mittelwertsunterschied, der mindestens erforderlich ist, um auf dem Gesamt-α-Niveau ein signifikantes Ergebnis zu erzielen (Berechnung der kleinsten noch signifikanten Differenz durch Tukey-Test)
• Ist die tatsächliche Differenz zwischen zwei Gruppen größer als der vom Tukey-Test berechnete kritische Wert, besteht ein signifikanter Unterschied zwischen diesen beiden Gruppen.
• Kennwert ist der q-Wert. Dieser bezieht im Gegensatz zum t-Wert zusätzlich die Anzahl der betrachteten Mittelwerte mit ein
(dadurch wird alpha-Fehler-Kumulation verhindert)
• Die kritischen q-Werte hängen insgesamt ab von der Anzahl der betrachteten Gruppen, dem festgelegten Signifikanzniveau und den Freiheitsgraden der „Varianz innerhalb“.
• Berechnung des kritischen Wertes:
• Berechnung der kleinsten noch signifikanten Differenz (Einbezug der Varianz innerhalb und der Anzahl von VPs pro Gruppe)
• Dann erfolgt ein Abgleich mit diesem Wert:
Ist die Differenz größer, unterscheiden sich die beiden Gruppen signifikant, ist sie kleiner, wird angenommen, dass die beiden
Gruppen sich nicht unterscheiden.
Tags: Varianzanalyse, VL03
Quelle:
Quelle:
Welche Frage beantwortet die zweifaktorielle ANOVA?
Wie groß muss die Differenz zwischen den Mittelwerten zweier Gruppen mindestens sein, damit diese Differenz auf einem kumulierten α-Niveau signifikant ist, das nicht die zuvor festgesetzte Grenze (zumeist 5%) überschreitet?
Das stimmt doch so nicht, oder? Das ist doch die Frage des T-Tests. Hier haben wir doch mehr als 2 Gruppen!!
Das stimmt doch so nicht, oder? Das ist doch die Frage des T-Tests. Hier haben wir doch mehr als 2 Gruppen!!
Tags: Varianzanalyse, VL03
Quelle:
Quelle:
Welches Effektstärkenmaß verwendet SPSS und was gibt es an?
• Diese Effektgröße gibt den Anteil der aufgeklärten Variabilität der Messwerte auf der Ebene der Stichprobe an.
• SPSS gibt als Effektstärke das partielle Eta-Quadrat. Im Fall der einfaktoriellen Varianzanalyse ohne Messwiederholung sind Eta-
Quadrat und das partielle Eta-Quadrat jedoch identisch. Bei mehreren Faktoren oder bei Messwiederholung gibt jedoch das partielle Eta-Quadrat höhere Werte.
• SPSS gibt als Effektstärke das partielle Eta-Quadrat. Im Fall der einfaktoriellen Varianzanalyse ohne Messwiederholung sind Eta-
Quadrat und das partielle Eta-Quadrat jedoch identisch. Bei mehreren Faktoren oder bei Messwiederholung gibt jedoch das partielle Eta-Quadrat höhere Werte.
Tags: Effektstärke, Varianzanalyse, VL03
Quelle:
Quelle:
Was wird an Eta-Quadrat kritisiert? Welche Alternative gibt es?
• η² wird generell als den Effekt überschätzend kritisiert.
• Rasch et al. empfehlen daher das Programm GPower.
• Das Programm arbeitet mit dem Effektstärkenmaß f (Buchner, Erdfelder & Faul, 1996).
• Rasch et al. empfehlen daher das Programm GPower.
• Das Programm arbeitet mit dem Effektstärkenmaß f (Buchner, Erdfelder & Faul, 1996).
Tags: Effektstärke, Varianzanalyse, VL03
Quelle:
Quelle:
Was ist bei der Stichprobenumfangsplanung zu beachten?
• Wichtiger Zusammenhang: Je größer der Stichprobenumfang, desto größer ist die Teststärke (desto genauer ist der Test).
• Die Stichprobenumfangsplanung ist einer der wichtigsten Schritte vor der Durchführung einer Untersuchung, denn nur sie gewährleistet die sinnvolle Interpretation jedes möglichen Untersuchungsergebnisses.
• Erfolgt keine Stichprobenumfangsplanung, so können sich zwei
Probleme ergeben:
• Der Stichprobenumfang ist zu klein. Die Teststärke ist so klein,
dass ein nicht signifikantes Ergebnis nicht interpretierbar ist.
• Der Stichprobenumfang ist zu groß. Es ergeben sich auch
statistisch signifikante Ergebnisse bei Effekten, die für eine
vernünftige inhaltliche Interpretation zu klein sind.
• Für die Stichprobenumfangsplanung ist die Festlegung der Stärke des gesuchten Effekts, der gewünschten Teststärke und des Signifikanzniveaus notwendig.
• Die Stichprobenumfangsplanung ist einer der wichtigsten Schritte vor der Durchführung einer Untersuchung, denn nur sie gewährleistet die sinnvolle Interpretation jedes möglichen Untersuchungsergebnisses.
• Erfolgt keine Stichprobenumfangsplanung, so können sich zwei
Probleme ergeben:
• Der Stichprobenumfang ist zu klein. Die Teststärke ist so klein,
dass ein nicht signifikantes Ergebnis nicht interpretierbar ist.
• Der Stichprobenumfang ist zu groß. Es ergeben sich auch
statistisch signifikante Ergebnisse bei Effekten, die für eine
vernünftige inhaltliche Interpretation zu klein sind.
• Für die Stichprobenumfangsplanung ist die Festlegung der Stärke des gesuchten Effekts, der gewünschten Teststärke und des Signifikanzniveaus notwendig.
Tags: Varianzanalyse, VL03
Quelle:
Quelle:
Welche Voraussetzungen gibt es für die einfaktorielle Varianzanalyse?
• Die abhängige Variable ist intervallskaliert.
• Das untersuchte Merkmal ist in der Population normalverteilt.
• Varianzhomogenität: Die Varianzen der Populationen der untersuchten Gruppen sind gleich.
• Die Messwerte in allen Bedingungen sind voneinander unabhängig.
Aber: Varianzanalyse verhält sich gegen die Verletzung der
zweiten und dritten Voraussetzung weitgehend robust
(problematisch nur dann, wenn die Stichprobe sehr klein
ist oder die VPs sehr ungleich auf die Bedingungen verteilt sind).
• Das untersuchte Merkmal ist in der Population normalverteilt.
• Varianzhomogenität: Die Varianzen der Populationen der untersuchten Gruppen sind gleich.
• Die Messwerte in allen Bedingungen sind voneinander unabhängig.
Aber: Varianzanalyse verhält sich gegen die Verletzung der
zweiten und dritten Voraussetzung weitgehend robust
(problematisch nur dann, wenn die Stichprobe sehr klein
ist oder die VPs sehr ungleich auf die Bedingungen verteilt sind).
Tags: Varianzanalyse, VL03
Quelle:
Quelle:
Was macht man, wenn die Voraussetzungen für die Einfaktorielle Varianzanalyse (besonders das Intervallskalenniveau) nicht gegeben sind? Welchen Nachteil bringt das mit sich?
• Dies ist im Fall der Varianzanalyse der Kruskal-Wallis-Test (nonparametrisches Verfahrens).
• Die nonparametrischen Verfahren gehen allerdings einher mit eingeschränkten Aussagemöglichkeiten.
• Die nonparametrischen Verfahren gehen allerdings einher mit eingeschränkten Aussagemöglichkeiten.
Tags: Varianzanalyse, VL03
Quelle:
Quelle:
Wie können fehlende Varianzhomogenität und fehlende Normalverteilung in der Population "geheilt" werden?
Durch große Stichprobe mit gleichmäßiger Verteilung der VPs auf die einzelnen Bedingungen.
Tags: Varianzanalyse, VL03
Quelle:
Quelle:
Mit welchem Skalenniveau arbeitet der Kruskal-Wallis-Test?
• Das Verfahren arbeitet (wie der Mann-
Whitney-U-Test) mit Rangplätzen, die den
Versuchspersonen aufgrund ihrer
Messwerte zugeordnet werden.
• Durch die Zuordnung von Rangplätzen wird
eine künstliche Äquidistanz zwischen den
Werten erzeugt, die viele mathematische
Operationen wie z.B. die Mittelwertsbildung
erst ermöglicht.
Whitney-U-Test) mit Rangplätzen, die den
Versuchspersonen aufgrund ihrer
Messwerte zugeordnet werden.
• Durch die Zuordnung von Rangplätzen wird
eine künstliche Äquidistanz zwischen den
Werten erzeugt, die viele mathematische
Operationen wie z.B. die Mittelwertsbildung
erst ermöglicht.
Tags: Varianzanalyse, VL03
Quelle:
Quelle:
Was sind die Vorteile der ANOVA gegenüber dem Kruskal-Wallis-Test?
• Bei intervallskalierten Daten und ausreichend großen Stichproben sollte immer der entsprechende parametrische Test vorgezogen werden. Er bezieht mehr Informationen der Daten
in die Auswertung mit ein.
• Beispielsweise: Größe der Unterschiede auf der abhängigen
Variablen zwischen den Versuchspersonen, während die nichtparametrischen Verfahren lediglich eine Rangreihe bilden.
• Außerdem ist die Teststärke der parametrischen Verfahren höher.
in die Auswertung mit ein.
• Beispielsweise: Größe der Unterschiede auf der abhängigen
Variablen zwischen den Versuchspersonen, während die nichtparametrischen Verfahren lediglich eine Rangreihe bilden.
• Außerdem ist die Teststärke der parametrischen Verfahren höher.
Tags: Kruskal-Wallis, Varianzanalyse, VL03
Quelle:
Quelle:
Wie verläuft der Kruskal-Wallis-Test?
• Prüfung analog zur Varianzanalyse unspezifisch:
Alternativhypothese besagt lediglich, dass sich mindestens eine der Gruppen von den anderen unterscheidet.
• Hintergrund des Tests: Überlegung, dass die Rangplätze bei Zutreffen der Nullhypothese zufällig über alle Gruppen verteilt sein müssten.
• Allen Messwerten wird unabhängig von ihrer Gruppenzugehörigkeit je nach Größe des Messwerts eine ganze Zahl zwischen 1 und N zugeordnet. (Bei gleichen Messwerten wird ein mittlerer Rang aus den zugehörigen Rängen gebildet.)
• Für jede Gruppe/Bedingung wird dann die Summe der Rangplätze gebildet.
• Anschließend wird die Rangsumme jeder Gruppe quadriert und durch die Anzahl der Versuchspersonen in der entsprechenden
Gruppe geteilt.
• Ob die Verteilung signifikant ist (ob die Rangplätze nicht zufällig über alle Gruppen verteilt sind), wird durch einen Abgleich mit
einer χ2 – Verteilung geprüft.
Alternativhypothese besagt lediglich, dass sich mindestens eine der Gruppen von den anderen unterscheidet.
• Hintergrund des Tests: Überlegung, dass die Rangplätze bei Zutreffen der Nullhypothese zufällig über alle Gruppen verteilt sein müssten.
• Allen Messwerten wird unabhängig von ihrer Gruppenzugehörigkeit je nach Größe des Messwerts eine ganze Zahl zwischen 1 und N zugeordnet. (Bei gleichen Messwerten wird ein mittlerer Rang aus den zugehörigen Rängen gebildet.)
• Für jede Gruppe/Bedingung wird dann die Summe der Rangplätze gebildet.
• Anschließend wird die Rangsumme jeder Gruppe quadriert und durch die Anzahl der Versuchspersonen in der entsprechenden
Gruppe geteilt.
• Ob die Verteilung signifikant ist (ob die Rangplätze nicht zufällig über alle Gruppen verteilt sind), wird durch einen Abgleich mit
einer χ2 – Verteilung geprüft.
Tags: Kruskal-Wallis, VL03
Quelle:
Quelle:
Woran erkennt man die Signifikanz im Rahmen des Kruskal-Wallis-Tests?
Prüfung durch einen Abgleich mit einer χ2 – Verteilung
Tags: Kruskal-Wallis, VL03
Quelle:
Quelle:
Welche Post-Hoc-Verfahren gibt es für den Kruskal-Wallis-Test?
• Für den Kruskal-Wallis H-Test liegen keine gängigen Post-Hoc-Verfahren vor, um das signifikante Ergebnis genauer zu untersuchen.
Tags: Kruskal-Wallis, VL03
Quelle:
Quelle:
Wann setzt man die zweifaktorielle Varianzanalyse ein?
• Untersuchung der Wirkung von nicht nur einem, sondern mehreren Faktoren auf eine abhängige Variable (z.B. zusätzlich Geschlecht)
-> Besonders wichtig wegen möglichem Zusammenwirken der betrachteten Faktoren (=Wechselwirkung zwischen zwei Faktoren)
• Oder zur Untersuchung, inwieweit ein weiterer Faktor zusätzlich Residualvarianz aufklärt (durch die Verkleinerung des unaufgeklärten Varianzanteils hebt sich ein möglicher Effekt des
eigentlich interessierenden Faktors stärker heraus)
-> Besonders wichtig wegen möglichem Zusammenwirken der betrachteten Faktoren (=Wechselwirkung zwischen zwei Faktoren)
• Oder zur Untersuchung, inwieweit ein weiterer Faktor zusätzlich Residualvarianz aufklärt (durch die Verkleinerung des unaufgeklärten Varianzanteils hebt sich ein möglicher Effekt des
eigentlich interessierenden Faktors stärker heraus)
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Bilde ein Beispiel für das Zusammenwirken der verschiedenen Faktoren bei der zweifaktoriellen Varianzanalyse!
Faktor 1: Lernverfahren
Faktor 2: Geschlecht
Zusammenwirken: Lernen Männer und Frauen mit unterschiedlichen Verfahren besser? Wer mit welchen?
Faktor 2: Geschlecht
Zusammenwirken: Lernen Männer und Frauen mit unterschiedlichen Verfahren besser? Wer mit welchen?
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Welche Bezeichungen gibt es im Rahmen der zweifaktoriellen Varianzanalyse?
• Bei der Bezeichnung im Rahmen der zweifkatoriellen Varianzanalyse gibt man immer an, wie viele Stufen pro Faktor vorhanden sind (z.B. 2x2 Varianzanalyse).
• Einer der Faktoren wird als Spaltenfaktor, der andere als Zeilenfaktor bezeichnet.
• Einer der Faktoren wird als Spaltenfaktor, der andere als Zeilenfaktor bezeichnet.
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Wie ist die allgemeine Darstellung von Zellmittelwerten in einer zweifaktoriellen Varianzanalyse?
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Welche Mittelwerte müssen in der zweifaktoriellen Varianzanalyse überprüft werden?
• A) Gruppenmittelwerte des Faktors A
• B) Gruppenmittelwerte des Faktors B
• C) Prüfung des zusätzlichen Zusammenwirkens spezieller Stufen der beiden Faktoren (Wechselwirkung): Durch Vergleich der
Unterschiede zwischen den Zellmittelwerten über die verschiedenen Stufen des Faktors A oder B
Anders gesagt:
• Haupteffekt A: Einfluss des Faktors A auf die Messwerte (unabhängig von Faktor B, entspricht dem in der einfaktoriellen Varianzanalyse betrachteten Effekt)
• Haupteffekt B: Einfluss des Faktors B auf die Messwerte
• Interaktion (Wechselwirkung): gemeinsamer Einfluss von bestimmten Stufen der zwei Faktoren auf die AV, Zusammenwirken von Faktorstufen
• B) Gruppenmittelwerte des Faktors B
• C) Prüfung des zusätzlichen Zusammenwirkens spezieller Stufen der beiden Faktoren (Wechselwirkung): Durch Vergleich der
Unterschiede zwischen den Zellmittelwerten über die verschiedenen Stufen des Faktors A oder B
Anders gesagt:
• Haupteffekt A: Einfluss des Faktors A auf die Messwerte (unabhängig von Faktor B, entspricht dem in der einfaktoriellen Varianzanalyse betrachteten Effekt)
• Haupteffekt B: Einfluss des Faktors B auf die Messwerte
• Interaktion (Wechselwirkung): gemeinsamer Einfluss von bestimmten Stufen der zwei Faktoren auf die AV, Zusammenwirken von Faktorstufen
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Was prüft die Interaktion im Rahmen der zweifaktoriellen Varianzanalyse?
• die Einflüsse auf die AV, die nur durch
die gemeinsame und gleichzeitige Wirkung zweier
Faktorstufen entstehen und die nicht durch den
generellen Einfluss der zwei Faktoren erklärt
werden können
= Einfluss auf die abhängige Variable, der
allein auf die Kombination bestimmter
Stufen der Faktoren A und B
zurückzuführen ist
• Geprüft wird, ob die Wirkung des Faktors A auf
allen Stufen des Faktors B identisch ist oder nicht
(bzw. ob die Wirkung des Faktors B auf allen Stufen
des Faktors A identisch ist oder nicht).
• Die Wechselwirkung ist unabhängig von den zwei
Haupteffekten (kann also auch auftreten, wenn es
keine generellen Haupteffekte gibt)
die gemeinsame und gleichzeitige Wirkung zweier
Faktorstufen entstehen und die nicht durch den
generellen Einfluss der zwei Faktoren erklärt
werden können
= Einfluss auf die abhängige Variable, der
allein auf die Kombination bestimmter
Stufen der Faktoren A und B
zurückzuführen ist
• Geprüft wird, ob die Wirkung des Faktors A auf
allen Stufen des Faktors B identisch ist oder nicht
(bzw. ob die Wirkung des Faktors B auf allen Stufen
des Faktors A identisch ist oder nicht).
• Die Wechselwirkung ist unabhängig von den zwei
Haupteffekten (kann also auch auftreten, wenn es
keine generellen Haupteffekte gibt)
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Wie ist der Ablauf der zweifaktoriellen Varianzanalyse?
• Die drei in der systematischen Varianz (Haupteffekt A, Haupteffekt B und Wechselwirkung A×B) enthaltenen Effekte werden getrennt voneinander untersucht, durch drei Schätzer.
• Betrachten der Zwischenvarianz für jeden der drei möglichen Effekte
• Signifikanzprüfung für jeden der Effekte durch F-Bruch
(im Zähler Zwischenvarianz, im Nenner Residualvarianz) -
analog zur einfaktoriellen Varianzanalyse, nur die F-Verteilung hat andere Werte.
• Betrachten der Zwischenvarianz für jeden der drei möglichen Effekte
• Signifikanzprüfung für jeden der Effekte durch F-Bruch
(im Zähler Zwischenvarianz, im Nenner Residualvarianz) -
analog zur einfaktoriellen Varianzanalyse, nur die F-Verteilung hat andere Werte.
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Sind die Ergebnisse der einfaktoriellen und zweifaktoriellen Varianzanalyse identisch?
Nein.
• Das Ergebnis der zweifaktoriellen VA entspricht nicht genau der im Rahmen der einfaktoriellen Varianzanalyse ermittelten Wahrscheinlichkeit des Haupteffekts.
• Wird verursacht durch die Veränderung der Größe der Residualvarianz beim Hinzuziehen eines weiteren Faktors.
• Die Zwischenvarianz des untersuchten Faktors ist trotz
Hinzufügens weiterer Faktoren immer mit der „Varianz zwischen“ im einfaktoriellen Fall identisch.
• Das Ergebnis der zweifaktoriellen VA entspricht nicht genau der im Rahmen der einfaktoriellen Varianzanalyse ermittelten Wahrscheinlichkeit des Haupteffekts.
• Wird verursacht durch die Veränderung der Größe der Residualvarianz beim Hinzuziehen eines weiteren Faktors.
• Die Zwischenvarianz des untersuchten Faktors ist trotz
Hinzufügens weiterer Faktoren immer mit der „Varianz zwischen“ im einfaktoriellen Fall identisch.
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Wie erfolgt die Prüfung des Haupteffektes B ?
(nach dem gleichen Muster wie für Haupteffekt A)
- prüfung der Wechselwirkung AxB auf signifikanz
- Effekt der durch Zusammenwirken bestimmter Stufen der beiden Faktoren auf die AV ausgeübt wird
- Einfluss auf AV, der alleine auf die Kombi bestimmter Stufen der Faktoren A und B zurückzuführen ist
Beispiel:
Frauen zeigen bei struktureller Verarbeitung signifikant bessere Erinnerungsleistung als Männer, in den anderen Verabeitungen jedoch nicht
- prüfung der Wechselwirkung AxB auf signifikanz
- Effekt der durch Zusammenwirken bestimmter Stufen der beiden Faktoren auf die AV ausgeübt wird
- Einfluss auf AV, der alleine auf die Kombi bestimmter Stufen der Faktoren A und B zurückzuführen ist
Beispiel:
Frauen zeigen bei struktureller Verarbeitung signifikant bessere Erinnerungsleistung als Männer, in den anderen Verabeitungen jedoch nicht
Tags: VL04
Quelle:
Quelle:
Wie sieht die Prüfung des Haupteffektes B mathematisch aus ?
Abweichung der beobachteten Zellmittelwerte von den auf Grund der Haupteffekte zu erwartenden Zellmittelwerte.
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Wie berechnet sich der erwartete Zellwert bei der Prüfung einer Interaktion?
Stufenmittelwert A + Stufenmittelwert B - Gesamtmittelwert
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Wie könnte eine grafische Darstellung beobachteter und erwarteter Zellwerte aussehen ?
( Folienbeispiel)
( Folienbeispiel)
Wie lauten die Null- und Alternativhypothese bei der Signifikanzprüfung einer Wechselwirkung?
Wann wrd die Nullhypothese abgelehnt?
Wann wrd die Nullhypothese abgelehnt?
Nullhypothese:
Die Unterscheidlichkeit der Zellmittelwerte wird allein durch die Haupteffekte der Faktoren verursacht
Alternativhypothese:
Die Ursache der Variationen in den Zellmittelwerten liegt nicht allein in den Haupteffekten, sondern das Zusammentreffen bestimmter Stufen der beiden Faktoren ruft zusätzlich systematische Abweichungen hervor
Ablehnung der Nullhypothese:
wenn 2 oder mehr Zellmittelwerte von ihren aufgrund der Haupteffekte zu erwartenden Werten abweichen
Die Unterscheidlichkeit der Zellmittelwerte wird allein durch die Haupteffekte der Faktoren verursacht
Alternativhypothese:
Die Ursache der Variationen in den Zellmittelwerten liegt nicht allein in den Haupteffekten, sondern das Zusammentreffen bestimmter Stufen der beiden Faktoren ruft zusätzlich systematische Abweichungen hervor
Ablehnung der Nullhypothese:
wenn 2 oder mehr Zellmittelwerte von ihren aufgrund der Haupteffekte zu erwartenden Werten abweichen
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Was erfolgt durch den F-Bruch?
Signifikanzprüfung
- zunächst unspezifisch
- Struktur muss mit einem Folgetest (zB Tukey HSD) geprüft werden
- zunächst unspezifisch
- Struktur muss mit einem Folgetest (zB Tukey HSD) geprüft werden
Wie sehen Wechselwirkungen grafisch aus ?
oben: KEINE Wechselwirkung
unten: disordinale Wechselwirkung von Faktor A und B
Tags: VL04
Quelle:
Quelle:
Welche Arten von Interaktionen sind bei der zweifaktoriellen Varianzanalyse möglich?
- ordinale
- semidisordinale
- disordinale
(wichtiger Lernstoff!)
- semidisordinale
- disordinale
(wichtiger Lernstoff!)
Tags: VL04
Quelle:
Quelle:
Wie sieht eine ordinale Wechselwirkung aus ?
Die Unterschiede der Zellmittelwerte liegen in der Richtung vor, die die beiden Haupteffekte vorgeben. (Grafik)
Entsprechend der Richtung, die von Haupteffekt A vorgebenen ist, sind beide Mittelwerte der Stufe A2 größer als der Stufe A1. (Tabelle)
- Die beiden Differenzen sind allerdings nicht gleich groß -
Entsprechend der Richtung, die von Haupteffekt A vorgebenen ist, sind beide Mittelwerte der Stufe A2 größer als der Stufe A1. (Tabelle)
- Die beiden Differenzen sind allerdings nicht gleich groß -
Tags: VL04
Quelle:
Quelle:
Wie sieht eine Semidisordinale Wechselwirkung grafisch aus ?
Zellenwerte liegen in ihrer Größe für den einen Haupteffekt in der erwarteten Richtung, für den zweiten Haupteffekt in einer der Stufen dagagen nicht
Tags: VL04
Quelle:
Quelle:
Wie sieht eine disordinale Wechselwikrung grafisch aus ?
Effekt der Interaktionen ist größer als jeder Haupteffekt
Zellmittelwerte liegen für beide Haupteffekte in jeweils einer Stufe entgegen der durch die Gruppenmittelwerte vorgegebenen Richtung
Was beschreiben einfache Haupteffekte und wann werden sie berechnet?
- beschreiben die Mittelwertsunterschiede zwischen den Stufen eines Faktors INNERHALB einer bestimmten Stufe des anderen Faktors
- berechnet wenn eine Wechselwirkung festgestellt wurde
- berechnet wenn eine Wechselwirkung festgestellt wurde
Tags: VL04
Quelle:
Quelle:
Wieviele und welche Haupteffekte können im Erinnerungsexperiment berechnet werden ?
5
= A: 3 Stufen
+ B: 2 Stufen
- nur Männer emotional vs. bildhaft vs. strukturell
- nur Frauen " " " " "
- nur emotional
- nur bildhaft
- nur strukturell
= A: 3 Stufen
+ B: 2 Stufen
- nur Männer emotional vs. bildhaft vs. strukturell
- nur Frauen " " " " "
- nur emotional
- nur bildhaft
- nur strukturell
Weshalb muss bei zweifaktoriellen Varianzanalysen immer eine Post-hoc-Analyse durchgeführt werden? Welchen Test kann man beispielsweise anwenden?
Weil auch die zweifaktorielle Varianzanalyse die Effekte unspezifisch prüft.
Post-Hoc-Test z.B. Tukey HSD - hier verändert sich die Berechnung gegenüber der einfaktoriellen Varianzanalyse geringfügig
Post-Hoc-Test z.B. Tukey HSD - hier verändert sich die Berechnung gegenüber der einfaktoriellen Varianzanalyse geringfügig
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Welche Mittelwerte finden bei der Post-hoc Analyse der Wechselwirkung Beachtung ?
Zellmittelwerte (statt Gruppenmittelwerten)
Deshalb ist n bei der HSD gleich der Anzahl der Versuchspersonen in einer Zelle.
Deshalb ist n bei der HSD gleich der Anzahl der Versuchspersonen in einer Zelle.
Tags: VL04
Quelle:
Quelle:
Nenne die versch. Abweichungen, die von folgenden
Varianzen betrachtet werden: a) Gesamtvarianz, b) systematische Varianz, c) Residualvarianz
Varianzen betrachtet werden: a) Gesamtvarianz, b) systematische Varianz, c) Residualvarianz
a) betrachtet die Abweichung jedes einzelnen Werts vom Gesamtmittelwert.
b) betrachtet die Abweichung der Bedingungsmittelwerte vom Gesamtmittelwert.
c) betrachtet die Abweichung jedes einzelnen Werts vom jeweiligen Gruppenmittelwert.
b) betrachtet die Abweichung der Bedingungsmittelwerte vom Gesamtmittelwert.
c) betrachtet die Abweichung jedes einzelnen Werts vom jeweiligen Gruppenmittelwert.
Tags: Übung, Varianzanalyse
Quelle:
Quelle:
Was ist die Gesamtvarianz?
• Beschreibt die Variation aller Messwerte, ohne deren Unterteilung in unterschiedl. Versuchsbedingungen zu berücksichtigen.
• Maß für die Stärke der Abweichung aller Messwerte von ihrem Gesamtmittelwert.
• Mittelwert aller Messwerte.
• Maß für die Stärke der Abweichung aller Messwerte von ihrem Gesamtmittelwert.
• Mittelwert aller Messwerte.
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Was ist die systematische Varianz?
• Gesuchte Effektvarianz beschreibt die Unterschiede, die durch
die experimentelle Variation verursacht worden sind.
• Zur Schätzung der systematischen Varianz werden die
Gruppenmittelwerte herangezogen.
• Abweichung der Bedingungsmittelwerte vom Gesamtmittelwert
die experimentelle Variation verursacht worden sind.
• Zur Schätzung der systematischen Varianz werden die
Gruppenmittelwerte herangezogen.
• Abweichung der Bedingungsmittelwerte vom Gesamtmittelwert
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Was ist die Residualvarianz und wie wird sie geschätzt?
• Die Größe der unsystematischen Einflüsse bzw. der
Residualvarianz in der Population wird durch die
durchschnittliche Varianz innerhalb einer Bedingung geschätzt
• also der Variation der Messwerte innerhalb der einzelnen
Gruppen
• Die geschätzte Residualvarianz ist die durchschnittliche Varianz in den einzelnen Gruppen → deshalb heißt geschätzte
Residualvarianz oft ‚Varianz innerhalb‘
Residualvarianz in der Population wird durch die
durchschnittliche Varianz innerhalb einer Bedingung geschätzt
• also der Variation der Messwerte innerhalb der einzelnen
Gruppen
• Die geschätzte Residualvarianz ist die durchschnittliche Varianz in den einzelnen Gruppen → deshalb heißt geschätzte
Residualvarianz oft ‚Varianz innerhalb‘
Tags: Varianzanalyse, VL04
Quelle:
Quelle:
Was ist eine Wechselwirkung?
• Die Wechselwirkung AxB (bzw. Interaktion) beschreibt den
gemeinsamen Einfluss von bestimmten Stufen der zwei Faktoren auf die AV.
• Sie erfasst das Zusammenwirken von Faktorstufen.
• Mathematisch zeigt sich eine Wechselwirkung in der Abweichung der beobachteten Zellmittelwerte von den aufgrund der Haupteffekte zu erwartenden Zellmittelwerten.
gemeinsamen Einfluss von bestimmten Stufen der zwei Faktoren auf die AV.
• Sie erfasst das Zusammenwirken von Faktorstufen.
• Mathematisch zeigt sich eine Wechselwirkung in der Abweichung der beobachteten Zellmittelwerte von den aufgrund der Haupteffekte zu erwartenden Zellmittelwerten.
Tags: Übung, Varianzanalyse
Quelle:
Quelle:
Fülle die Lücken
Tags: Übung
Quelle:
Quelle:
Wann und wozu wird die zweifaktorielle ANOVA eingesetzt?
- Wirkung mehrerer Faktoren auf eine AV
- mögliches Zusammenwirken der betrachteten Faktoren (= Wechselwirkung zwischen zwei Faktoren)
- Untersuchung, inwieweit ein weiterer Faktor zusätzlich Residualvarianz aufklärt
- mögliches Zusammenwirken der betrachteten Faktoren (= Wechselwirkung zwischen zwei Faktoren)
- Untersuchung, inwieweit ein weiterer Faktor zusätzlich Residualvarianz aufklärt
Tags: Tutorium, Varianzanalyse
Quelle:
Quelle:
Welche Varianzen sind bei der einfaktoriellen Varianzanalyse mit Messwiederholung zu finden?
Unterschiede zwischen mehreren Messzeitpunkten, also Unterschiede durch Manipulation = Effektvarianz
Teil der Unterschiede innerhalb der Versuchspersonen ist
= Residualvarianz
systematische Unterschiede zwischen den Versuchspersonen
= Personenvarianz
Teil der Unterschiede innerhalb der Versuchspersonen ist
= Residualvarianz
systematische Unterschiede zwischen den Versuchspersonen
= Personenvarianz
Tags: Tutorium, Varianzanalyse
Quelle:
Quelle:
Wann wird die einfaktorielle Varianzanalyse mit Messwiederholung eingesetzt?
• Wird verwendet, wenn ein Merkmal bei derselben Versuchsperson mehrfach erhoben wird (z.B. Wirksamkeit von
Therapien, reliable Studien zur Auswirkung von Computerspielen)
• Die zu verschiedenen Zeitpunkten erhobenen Daten sind voneinander abhängig
Therapien, reliable Studien zur Auswirkung von Computerspielen)
• Die zu verschiedenen Zeitpunkten erhobenen Daten sind voneinander abhängig
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Welche Voraussetzungen gelten für die unterschiedlichen Arten der Varianzanalye?
- Intervallskalenniveau
- Normalverteilung des untersuchten Merkmals in der Population
- Varianzhomogenität in der Population
nur bei den Varianzanalysen OHNE Messwiederholung:
- Unabhängikeit
nur bei den Varianzanalysen MIT Messwiederholung:
- Zirkularität / Sphärizität
- Normalverteilung des untersuchten Merkmals in der Population
- Varianzhomogenität in der Population
nur bei den Varianzanalysen OHNE Messwiederholung:
- Unabhängikeit
nur bei den Varianzanalysen MIT Messwiederholung:
- Zirkularität / Sphärizität
Tags: Varianzanalyse
Quelle:
Quelle:
Aus welchen Teilen besteht die Gesamtvarianz bei der einfaktoriellen Varianzanalyse mit Messwiederholung?
- Effektvarianz
- Personenvarianz
- Residualvarianz
- Personenvarianz
- Residualvarianz
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Welchen statistischen Vorteil haben messwiederholte Verfahren?
• VA mit Messwiederholung kann zusätzlich zur Effektvarianz noch
Personvarianz aufklären.
• Personvarianz: Allg. Unterschiede zw. Versuchspersonen, die
unabhängig von den anderen experimentellen Faktoren auftreten.
• Durch das Erklären der Personenvarianz reduziert sich der Anteil
der unerklärten Variabilität der Messwerte.
• Je kleiner die Residualvarianz, desto größer wird bei konstanter systematischer Varianz der F-Bruch:
Es erhöht sich also die Chance auf ein signifikantes Resultat.
• → Erhöhung der Teststärke des Verfahrens
Personvarianz aufklären.
• Personvarianz: Allg. Unterschiede zw. Versuchspersonen, die
unabhängig von den anderen experimentellen Faktoren auftreten.
• Durch das Erklären der Personenvarianz reduziert sich der Anteil
der unerklärten Variabilität der Messwerte.
• Je kleiner die Residualvarianz, desto größer wird bei konstanter systematischer Varianz der F-Bruch:
Es erhöht sich also die Chance auf ein signifikantes Resultat.
• → Erhöhung der Teststärke des Verfahrens
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Angenommen, einer der Effekte einer zweifaktoriellen
Varianzanalyse ist signifikant. Kann man durch diese Feststellung eine Aussage über das Vorhandensein/Nicht-Vorhandensein der anderen Effekte treffen?
Varianzanalyse ist signifikant. Kann man durch diese Feststellung eine Aussage über das Vorhandensein/Nicht-Vorhandensein der anderen Effekte treffen?
Nein,
denn die drei Effekte (Haupteffekt A, Haupteffekt B und
Wechselwirkung AxB) sind vollständig unabhängig voneinander und können deshalb auch getrennt voneinander untersucht werden.
Jeder Effekt kann allein oder zusammen mit einem oder beiden
anderen Effekten auftreten.
denn die drei Effekte (Haupteffekt A, Haupteffekt B und
Wechselwirkung AxB) sind vollständig unabhängig voneinander und können deshalb auch getrennt voneinander untersucht werden.
Jeder Effekt kann allein oder zusammen mit einem oder beiden
anderen Effekten auftreten.
Tags: Übung, Varianzanalyse
Quelle:
Quelle:
Was unterscheidet das Vorgehen der einfaktoriellen VA mit Messwiederholung von der zweifakt. VA ohne Messwiederholung?
Größtenteils analog. Unterschiede:
- erwarteter Zellmittelwert = Stufen-MW A + Personenfaktor B - Gesamt-MW
- Personenvarianz spielt nur bei der Berechnung der erwarteten Zellwerte eine Rolle, wird selbst nicht weiter ausgewertet.
- F-Bruch-Bildung nur für Faktor A:
geschätzte systematische Varianz des Faktors A
geschätzte Residualvarianz
- Freiheitsgrade:
Zähler: dfA = p-1 (wie gehabt)
Nenner: dfAxVpn = (n-1) + (p-1) (abweichend)
- erwarteter Zellmittelwert = Stufen-MW A + Personenfaktor B - Gesamt-MW
- Personenvarianz spielt nur bei der Berechnung der erwarteten Zellwerte eine Rolle, wird selbst nicht weiter ausgewertet.
- F-Bruch-Bildung nur für Faktor A:
geschätzte systematische Varianz des Faktors A
geschätzte Residualvarianz
- Freiheitsgrade:
Zähler: dfA = p-1 (wie gehabt)
Nenner: dfAxVpn = (n-1) + (p-1) (abweichend)
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Was sind die Voraussetzungen für die einfaktorielle Varianzanalyse mit Messwiederholung?
- Intervallskaliertheit der Daten
- Normalverteilung des Merkmals
- Homogenität der Varianzen in den Stufen des Faktors bzw. der Bedingungskombinationen mehrerer Faktoren
- Zirkularität / Sphärizität: Alle Korrelationen zwischen den einzelnen Stufen des messwiederholten Faktors müssen homogen sein. (Wenn verletzt, ist die Gefahr hoch, dass eine Signifikanz angezeigt wird, die eigentlich nicht vorliegt.)
Sonderfall der Nullkorrelation:
Die Varianzanalyse mit Messwiederholung entspricht der entsprechenden Varianzanalyse ohne Messwiederholung,
denn die Daten sind bei dieser Konstellation unabhängig voneinander.
- Normalverteilung des Merkmals
- Homogenität der Varianzen in den Stufen des Faktors bzw. der Bedingungskombinationen mehrerer Faktoren
- Zirkularität / Sphärizität: Alle Korrelationen zwischen den einzelnen Stufen des messwiederholten Faktors müssen homogen sein. (Wenn verletzt, ist die Gefahr hoch, dass eine Signifikanz angezeigt wird, die eigentlich nicht vorliegt.)
Sonderfall der Nullkorrelation:
Die Varianzanalyse mit Messwiederholung entspricht der entsprechenden Varianzanalyse ohne Messwiederholung,
denn die Daten sind bei dieser Konstellation unabhängig voneinander.
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Wie wird Sphärizität getestet?
- Testen der Korrelations-Unterschiede auf Signifikanz:
Mauchly-Test auf Sphärizität (Nullhypothese: Alle Varianzen sind gleich), wenn dieser eine Signifikanz zeigt, müssen Korrekturverfahren angewendet werden.
- Der Test ist allerdings nicht sehr zuverlässig, daher sollten bei Zweifeln (begründbar durch die Unterschiedlichkeit der Varianzen in den deskriptiven Daten) Korrekturverfahren angewendet werden.
- Dabei werden die Freiheitsgrade adjustiert – in einer Weise, dass der F-Wert kleiner wird, nach der Korrektur gibt es seltener ein signifikantes Ergebnis.
- Zuverlässig ist das Verfahren nach Box.
Hier variiert die Adjustierung der Freiheitsgrade mit der Stärke der Verletzung der Zirkularität.
- In SPSS wird diese Art der Adjustierung der Freiheitsgrade irrtümlicherweise als Greenhouse-Geisser-Korrektur bezeichnet.
Mauchly-Test auf Sphärizität (Nullhypothese: Alle Varianzen sind gleich), wenn dieser eine Signifikanz zeigt, müssen Korrekturverfahren angewendet werden.
- Der Test ist allerdings nicht sehr zuverlässig, daher sollten bei Zweifeln (begründbar durch die Unterschiedlichkeit der Varianzen in den deskriptiven Daten) Korrekturverfahren angewendet werden.
- Dabei werden die Freiheitsgrade adjustiert – in einer Weise, dass der F-Wert kleiner wird, nach der Korrektur gibt es seltener ein signifikantes Ergebnis.
- Zuverlässig ist das Verfahren nach Box.
Hier variiert die Adjustierung der Freiheitsgrade mit der Stärke der Verletzung der Zirkularität.
- In SPSS wird diese Art der Adjustierung der Freiheitsgrade irrtümlicherweise als Greenhouse-Geisser-Korrektur bezeichnet.
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Welche Post-hoc-Tests werden bei der einfaktoriellen Varianzanalyse mit Messwiederholung genutzt und was ist dabei zu beachten?
- Um herauszufinden welche Messzeitpunkte genau sich unterscheiden, wird der Post-hoc-Test angewandt
-Tukey HSD, Bonferroni,..
- Problematisch wenn Sphärizität verletzt ist
-Tukey HSD, Bonferroni,..
- Problematisch wenn Sphärizität verletzt ist
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Welche Effektstärkemaße gibt eis für die einfakt. VA mit Messwiederholung und was ist dabei zu beachten?
• Sind nur bedingt aussagekräftig, weil die unterschiedlichen
Verfahren zu stark variierenden Aussagen kommen
• Außerdem kann die Interpretation nicht entlang der
Konventionen (nach Cohen, 1988) erfolgen
• Das partielle η² ist ein ungünstiges Maß für die Effektstärke
in messwiederholten Varianzanalysen, da es dem Sinn von
Effektstärken, einen Vergleich zwischen verschiedenen
wissenschaftlichen Untersuchungen zu ermöglichen, nicht
genügt – dennoch wird es mangels Alternativen genutzt
Verfahren zu stark variierenden Aussagen kommen
• Außerdem kann die Interpretation nicht entlang der
Konventionen (nach Cohen, 1988) erfolgen
• Das partielle η² ist ein ungünstiges Maß für die Effektstärke
in messwiederholten Varianzanalysen, da es dem Sinn von
Effektstärken, einen Vergleich zwischen verschiedenen
wissenschaftlichen Untersuchungen zu ermöglichen, nicht
genügt – dennoch wird es mangels Alternativen genutzt
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Erläutere die zweifaktorielle VA mit Messwiederholung auf einem Faktor!
• Viele Aspekte äquivalent zu der einfaktoriellen Varianzanalyse mit Messwiederholung
• Zusätzlich Berechnung der Wechselwirkungen in ähnlicher
Art und Weise wie in der zweifaktoriellen Varianzanalyse
ohne Messwiederholung
• Es muss auch auf Zirkularität geprüft werden
• Auch hier müssen post-hoc-Tests durchgeführt werden
(z.B. mit Tukey HSD)
• Zusätzlich Berechnung der Wechselwirkungen in ähnlicher
Art und Weise wie in der zweifaktoriellen Varianzanalyse
ohne Messwiederholung
• Es muss auch auf Zirkularität geprüft werden
• Auch hier müssen post-hoc-Tests durchgeführt werden
(z.B. mit Tukey HSD)
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Nenne Vor- und Nachteile von messwiederholten Verfahren!
Vorteil:
- Größere Teststärke, deshalb weniger VPn nötig
(besonders dann, wenn das untersuchte Merkmal innerhalb von Personen relativ stabil ist und sich zwischen verschiedenen
Versuchspersonen unterscheidet)
- Größerer Anteil an aufgeklärter Varianz
Nachteil:
Spezielle Sequenzeffekte (z.B. Übungseffekte)
-> Ausgleich durch Balancierung der Reihenfolge
- Größere Teststärke, deshalb weniger VPn nötig
(besonders dann, wenn das untersuchte Merkmal innerhalb von Personen relativ stabil ist und sich zwischen verschiedenen
Versuchspersonen unterscheidet)
- Größerer Anteil an aufgeklärter Varianz
Nachteil:
Spezielle Sequenzeffekte (z.B. Übungseffekte)
-> Ausgleich durch Balancierung der Reihenfolge
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Wie teilen sich die verschiedenen Anteile der Gesamtvarianz bei der zweifaktoriellen VA mit Messwiederholung auf einem und auf beiden Faktoren auf?
Tags: Varianzanalyse, VL05
Quelle:
Quelle:
Erläutere den Friedman-Test! (Wann nutzt man ihn, wie geht man vor?)
• parameterfreier Test zum Vergleichen mehrerer abhängiger
Stichproben
• Einschränkung: Nur ein Haupteffekt kann untersucht
werden, nicht mehrfaktoriell möglich.
• arbeitet mittels Rangreihen
• Nullhypothese H0: Die Rangsummen der einzelnen Stufen
des Faktors (d.h. Messzeitpunkte) sind ungefähr gleich groß,
d.h. sie weichen nur zufällig voneinander ab.
• Verteilungsprüfung auf Basis der χ2-Verteilung
• Die Prüfgröße v wird mit dem kritischen χ2 -Wert verglichen.
• In die Prüfgröße gehen ein: Anzahl der Stufen/Messzeitpunkte, Anzahl der Versuchspersonen, quadrierte Rangsummen
• In den χ2-Wert gehen ein: dass es sich um einseitige Fragestellung handelt, d f = k−1 und gegebenes alpha
• Wird in Tabelle abgeglichen
Stichproben
• Einschränkung: Nur ein Haupteffekt kann untersucht
werden, nicht mehrfaktoriell möglich.
• arbeitet mittels Rangreihen
• Nullhypothese H0: Die Rangsummen der einzelnen Stufen
des Faktors (d.h. Messzeitpunkte) sind ungefähr gleich groß,
d.h. sie weichen nur zufällig voneinander ab.
• Verteilungsprüfung auf Basis der χ2-Verteilung
• Die Prüfgröße v wird mit dem kritischen χ2 -Wert verglichen.
• In die Prüfgröße gehen ein: Anzahl der Stufen/Messzeitpunkte, Anzahl der Versuchspersonen, quadrierte Rangsummen
• In den χ2-Wert gehen ein: dass es sich um einseitige Fragestellung handelt, d f = k−1 und gegebenes alpha
• Wird in Tabelle abgeglichen
Tags: Varianzanalyse, VL06
Quelle:
Quelle:
Wann / wozu wird der χ2-Test eigesetzt?
• Verfahren für Nominaldaten
• Beruht auf der Analyse von Häufigkeiten (→ Häufigkeiten sind die
einzige Information, die Nominaldaten übermitteln)
• Nominaldaten erlauben keine Aussagen über ein mehr oder
weniger einer Eigenschaft (wie Ordinaldaten) oder zur Größe
der Unterschiede (wie intervallskalierte Daten)
• Mögliche Fragestellungen: Studieren mehr Männer als Frauen
Sozialwissenschaften? Gibt es unter Studierenden mehr
Brillenträger als unter Nicht-Studierenden?
• Beruht auf der Analyse von Häufigkeiten (→ Häufigkeiten sind die
einzige Information, die Nominaldaten übermitteln)
• Nominaldaten erlauben keine Aussagen über ein mehr oder
weniger einer Eigenschaft (wie Ordinaldaten) oder zur Größe
der Unterschiede (wie intervallskalierte Daten)
• Mögliche Fragestellungen: Studieren mehr Männer als Frauen
Sozialwissenschaften? Gibt es unter Studierenden mehr
Brillenträger als unter Nicht-Studierenden?
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Beschreibe das Vorgehen beim eindimensionalen χ2 - Test!
• Allgemeines Prinzip: Vergleich von beobachteten und theoretisch erwarteten Häufigkeiten
=> Der Test prüft, ob die beobachtete Häufigkeitsverteilung von der theoretisch erwarteten Verteilung verschieden ist.
• Häufig anzutreffende Nullhypothese: Erwartete Häufigkeiten in
allen Zellen des Versuchsplans sind identisch. / Verteilung über die Gruppen ist zufällig.
• Nach Spezifikation der Nullhypothese des χ2-Tests lässt sich für jede Zelle des Versuchsplans die Häufigkeit bestimmen, die bei Gültigkeit dieser Nullhypothese auftreten sollte = erwartete Häufigkeiten
• Die erwartete Häufigkeit pro Zelle ergibt sich aus dem Stichprobenumfang N geteilt durch die Zellenanzahl k
• Der χ2 – Kennwert ist ein Maß für die Stärke der Abweichung der beobachteten von den erwarteten Häufigkeiten.
• Anhand der χ²-Verteilung kann die Wahrscheinlichkeit eines empirischen Wertes ermittelt werden.
• Für jedes der Felder wird die Abweichung der beobachteten von der erwarteten Häufigkeit bestimmt und quadriert (Quadrierung, weil die Summe der unquadrierten Abweichungen immer Null ergeben würde)
• Summe der quadrierten Abweichungen ergibt nur in dem einen Fall Null, dass die erwarteten gleich den beobachteten Häufigkeiten sind.
• Stimmen die beobachteten und die erwarteten Häufigkeiten in allen Zellen überein, so resultiert ein χ2 von Null. Je größer die Diskrepanz zwischen beobachteten und erwarteten Häufigkeiten,
desto größer wird der χ2-Wert.
• In der χ2-Verteilung ist jedem χ2-Wert in Abhängigkeit von seinen Freiheitsgraden eine Wahrscheinlichkeit zugeordnet.
• Dieser Wert gibt an, wie wahrscheinlich der gefundene χ2-Wert oder ein größerer unter der Nullhypothese ist.
• Wenn diese Wahrscheinlichkeit kleiner ist als ein vorher festgelegtes Signifikanzniveau α, so wird die Nullhypothese verworfen und die Alternativhypothese angenommen.
• Die Wahrscheinlichkeiten der verschiedenen Werte unter der Nullhypothese können nach den Freiheitsgraden geordnet in Tabellen abgelesen werden.
=> Der Test prüft, ob die beobachtete Häufigkeitsverteilung von der theoretisch erwarteten Verteilung verschieden ist.
• Häufig anzutreffende Nullhypothese: Erwartete Häufigkeiten in
allen Zellen des Versuchsplans sind identisch. / Verteilung über die Gruppen ist zufällig.
• Nach Spezifikation der Nullhypothese des χ2-Tests lässt sich für jede Zelle des Versuchsplans die Häufigkeit bestimmen, die bei Gültigkeit dieser Nullhypothese auftreten sollte = erwartete Häufigkeiten
• Die erwartete Häufigkeit pro Zelle ergibt sich aus dem Stichprobenumfang N geteilt durch die Zellenanzahl k
• Der χ2 – Kennwert ist ein Maß für die Stärke der Abweichung der beobachteten von den erwarteten Häufigkeiten.
• Anhand der χ²-Verteilung kann die Wahrscheinlichkeit eines empirischen Wertes ermittelt werden.
• Für jedes der Felder wird die Abweichung der beobachteten von der erwarteten Häufigkeit bestimmt und quadriert (Quadrierung, weil die Summe der unquadrierten Abweichungen immer Null ergeben würde)
• Summe der quadrierten Abweichungen ergibt nur in dem einen Fall Null, dass die erwarteten gleich den beobachteten Häufigkeiten sind.
• Stimmen die beobachteten und die erwarteten Häufigkeiten in allen Zellen überein, so resultiert ein χ2 von Null. Je größer die Diskrepanz zwischen beobachteten und erwarteten Häufigkeiten,
desto größer wird der χ2-Wert.
• In der χ2-Verteilung ist jedem χ2-Wert in Abhängigkeit von seinen Freiheitsgraden eine Wahrscheinlichkeit zugeordnet.
• Dieser Wert gibt an, wie wahrscheinlich der gefundene χ2-Wert oder ein größerer unter der Nullhypothese ist.
• Wenn diese Wahrscheinlichkeit kleiner ist als ein vorher festgelegtes Signifikanzniveau α, so wird die Nullhypothese verworfen und die Alternativhypothese angenommen.
• Die Wahrscheinlichkeiten der verschiedenen Werte unter der Nullhypothese können nach den Freiheitsgraden geordnet in Tabellen abgelesen werden.
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Warum wendet man beim eindimensionalen χ2 - Test eine zusätzliche Standardisierung an der jeweiligen erwarteten Häufigkeit an?
• Dies gewichtet die Abweichungsquadrate
entsprechend der Größe der jeweiligen Kategorie.
• Grund: identische Beträge von Differenzen sind
nicht in allen Fällen gleich bedeutsam sind.
• Abweichung von 10 in der Differenz 1000 − 990 ist
nicht so bedeutend wie eine ebenso große
Abweichung in der Differenz 20 − 10.
entsprechend der Größe der jeweiligen Kategorie.
• Grund: identische Beträge von Differenzen sind
nicht in allen Fällen gleich bedeutsam sind.
• Abweichung von 10 in der Differenz 1000 − 990 ist
nicht so bedeutend wie eine ebenso große
Abweichung in der Differenz 20 − 10.
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Welche Eigenschaften hat der χ²-Wert?
• Stimmen die beobachteten und die erwarteten Häufigkeiten in allen Zellen überein, so resultiert ein χ2 von Null. Je größer die Diskrepanz zwischen beobachteten und erwarteten Häufigkeiten,
desto größer wird der χ2-Wert.
• Aufgrund der Quadrierung kann der Wert nur positive Werte annehmen.
• Information über die Richtung der einzelnen Abweichungen verloren.
• Der χ2-Test ist daher ein unspezifischer Test, d.h. er kann keine gerichteten Vorhersagen testen, sondern testet
zweiseitig (Ausnahme: eindimensionale χ2- Test mit nur zwei Stufen)
• Der χ2-Kennwert folgt wie der t- oder F-Wert einer kontinuierlichen Verteilung, der χ2-Verteilung. Der Wertebereich der Verteilung erstreckt sich von Null bis Unendlich. Form ist abhängig von der Anzahl der Freiheitsgrade.
desto größer wird der χ2-Wert.
• Aufgrund der Quadrierung kann der Wert nur positive Werte annehmen.
• Information über die Richtung der einzelnen Abweichungen verloren.
• Der χ2-Test ist daher ein unspezifischer Test, d.h. er kann keine gerichteten Vorhersagen testen, sondern testet
zweiseitig (Ausnahme: eindimensionale χ2- Test mit nur zwei Stufen)
• Der χ2-Kennwert folgt wie der t- oder F-Wert einer kontinuierlichen Verteilung, der χ2-Verteilung. Der Wertebereich der Verteilung erstreckt sich von Null bis Unendlich. Form ist abhängig von der Anzahl der Freiheitsgrade.
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Warum wird beim eindimensionalen χ2 - Test zusätzlich die Effektstärke geprüft? Wie?
• Da ein statistisch signifikantes Ergebnis
nicht gleichzusetzen ist mit inhaltlicher
Bedeutsamkeit, ist auch hier eine
Bestimmung der Effektstärke erforderlich.
• standardisiertes Maß für die Größe des
systematischen Unterschieds zwischen der
festgelegten Null- und einer bestimmten
Alternativhypothese.
• Häufig verwendet: w-Quadrat
nicht gleichzusetzen ist mit inhaltlicher
Bedeutsamkeit, ist auch hier eine
Bestimmung der Effektstärke erforderlich.
• standardisiertes Maß für die Größe des
systematischen Unterschieds zwischen der
festgelegten Null- und einer bestimmten
Alternativhypothese.
• Häufig verwendet: w-Quadrat
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Beschriebe die Teststärkeanalyse bei einem eindimensonalen χ2 - Test!
• Die Teststärke: Wahrscheinlichkeit, einen Effekt
einer bestimmten Größe zu finden, falls dieser
wirklich existiert.
• hängt ab vom Signifikanzniveau α, dem
Stichprobenumfang N und der Effektstärke w²
• Teststärke lässt sich im Anschluss an eine
Untersuchung bestimmen, um anzuzeigen, wie
groß die Wahrscheinlichkeit war, ein signifikantes
Ergebnis zu erhalten.
• Damit lässt sich ein Schluss zugunsten der
Nullhypothese absichern.
einer bestimmten Größe zu finden, falls dieser
wirklich existiert.
• hängt ab vom Signifikanzniveau α, dem
Stichprobenumfang N und der Effektstärke w²
• Teststärke lässt sich im Anschluss an eine
Untersuchung bestimmen, um anzuzeigen, wie
groß die Wahrscheinlichkeit war, ein signifikantes
Ergebnis zu erhalten.
• Damit lässt sich ein Schluss zugunsten der
Nullhypothese absichern.
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Was macht der zweidimensionale χ2 - Test?
• Erweiterung um ein weiteres kategoriales Merkmal (nominalskalierte Variable) mit mind. 2 Stufen
• Versuchspersonen werden allen mögl. Kombinationen der Stufen beider Merkmale zugeordnet --> Kreuztabelle
• prüft Unabhängigkeit der untersuchten Merkmale
• Beziehung der Merkmale zueinander im Vordergrund
( z.B.: Präferenz für Liebes- vs. Actionfilme geschlechtsabhängig?)
• Versuchspersonen werden allen mögl. Kombinationen der Stufen beider Merkmale zugeordnet --> Kreuztabelle
• prüft Unabhängigkeit der untersuchten Merkmale
• Beziehung der Merkmale zueinander im Vordergrund
( z.B.: Präferenz für Liebes- vs. Actionfilme geschlechtsabhängig?)
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Zweidimensionaler χ2 - Test: Beschreibe das Vorgehen!
• Vorgehen identisch zu eindimension. Test
• Schätzung der erwarteten Zellhäufigkeiten Unter Annahme der stochastischen Unabhängigkeit):
(Zeilensumme * Spaltensumme) / N
• Vergleich mit beobachteten Häufigkeiten
• Für jede Zelle wird die quadrierte Abweichung zwischen beobachteter und erwarteter Häufigkeit gebildet und an der erwarteten Häufigkeit relativiert, die Summe ist der χ2-Wert
• χ2-Wert als Maß für die Abweichung der beobachteten von den erwarteten Werten.
• Ein hinreichend großer χ2-Wert erlaubt es, die Nullhypothese mit der Fehlerwahrscheinlichkeit α zurückzuweisen.
-> Signifikanzprüfung durch Ablesen in Tabelle unter Berücksichtigung der Freiheitsgrade;
df = (Anzahl Merkmal A -1 ) * (Anzahl Merkmal B - 1)
• Bei völliger Übereinstimmung der erwarteten und beobachteten Häufigkeiten resultiert ein χ2-Wert von Null. Die beiden Merkmale sind vollständig voneinander unabhängig.
• Unspezifische Testung, daher Betrachtung der deskriptiven Werte, wenn signifikant.
• SPSS ermöglicht außerdem die Berechnung
von standardisierten Residuen pro Zelle.
• Wenn diese größer sind als 2, kann davon
ausgegangen werden, dass in dieser Zelle
eine Besonderheit vorliegt.
• Schätzung der erwarteten Zellhäufigkeiten Unter Annahme der stochastischen Unabhängigkeit):
(Zeilensumme * Spaltensumme) / N
• Vergleich mit beobachteten Häufigkeiten
• Für jede Zelle wird die quadrierte Abweichung zwischen beobachteter und erwarteter Häufigkeit gebildet und an der erwarteten Häufigkeit relativiert, die Summe ist der χ2-Wert
• χ2-Wert als Maß für die Abweichung der beobachteten von den erwarteten Werten.
• Ein hinreichend großer χ2-Wert erlaubt es, die Nullhypothese mit der Fehlerwahrscheinlichkeit α zurückzuweisen.
-> Signifikanzprüfung durch Ablesen in Tabelle unter Berücksichtigung der Freiheitsgrade;
df = (Anzahl Merkmal A -1 ) * (Anzahl Merkmal B - 1)
• Bei völliger Übereinstimmung der erwarteten und beobachteten Häufigkeiten resultiert ein χ2-Wert von Null. Die beiden Merkmale sind vollständig voneinander unabhängig.
• Unspezifische Testung, daher Betrachtung der deskriptiven Werte, wenn signifikant.
• SPSS ermöglicht außerdem die Berechnung
von standardisierten Residuen pro Zelle.
• Wenn diese größer sind als 2, kann davon
ausgegangen werden, dass in dieser Zelle
eine Besonderheit vorliegt.
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Was versteht man unter der Hypothese der stochastischen Unabhängigkeit?
- Betrachtete Merkmale beeinflussen sich nicht gegenseitig.
- Verhältnis der Randhäufigkeiten spiegelt sich in Zellen wider
Sowohl in Zeilen, als auch in Spalten!
- Verändert sich dieses Verhältnis in einer Merkmalskombination
->0 verletzt!
- Verhältnis der Randhäufigkeiten spiegelt sich in Zellen wider
Sowohl in Zeilen, als auch in Spalten!
- Verändert sich dieses Verhältnis in einer Merkmalskombination
->0 verletzt!
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Zweidimensionaler χ2 - Test: Was versteht man unter Randhäufigkeiten?
• Summe der Häufigkeiten in einer Stufe eines Merkmals über alle
Stufen des zweiten Merkmals hinweg (auch Zeilen- bzw. Spaltensummen).
• Addition der Zeilen- bzw. der Spaltensummen ergibt jeweils den
Stichprobenumfang N.
Stufen des zweiten Merkmals hinweg (auch Zeilen- bzw. Spaltensummen).
• Addition der Zeilen- bzw. der Spaltensummen ergibt jeweils den
Stichprobenumfang N.
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Was sind die Voraussetzungen/Bedingungen für den Chi² - Test?
- einzelne Beobachtungen voneinander unabhängig
- Vpn können eindeutig einer Kategorie bzw.
Merkmalskombination zugeordnet werden
- erwarteten Häufigkeiten sind in 80% der Zellen des
Versuchsplans >5
- Vpn können eindeutig einer Kategorie bzw.
Merkmalskombination zugeordnet werden
- erwarteten Häufigkeiten sind in 80% der Zellen des
Versuchsplans >5
Tags: Chi-Quadrat-Test, VL07
Quelle:
Quelle:
Frage
• Spezialfall: Vierfelder χ2-Test (bei zwei dichotomen Merkmalen)
• Beim χ2-Test kann jede begründete Annahme über die
Auftretenswahrscheinlichkeit der Merkmalsstufen in der
Population als Nullhypothese fungieren
• vs. Varianzanalyse, bei der es nur eine mögliche Nullhypothese
gibt (χ2-Test gibt es mehrere mögliche Nullhypothesen)
• Häufige Nullhypothese bei χ2-Test: Gleichverteilungsannahme
• Gleichverteilungsannahme: Häufigkeiten in der untersuchten
Stichprobe verteilen sich über alle Merkmalsstufen hinweg gleich
• Aber auch Annahmen über nicht gleichverteilte Häufigkeiten
möglich, z.B wenn detaillierte Angaben über die relativen
Häufigkeiten der einzelnen Ereignisse auf Populationsebene
vorliegen.
Was ist der Unterschied zwischen absoluter und relativer Häufigkeit?
• Absolute Häufigkeit: beobachtete Anzahl eines bestimmten Ereignisses in einer Grundgesamtheit.
• Relative Häufigkeit: Setzt die absolute Häufigkeit in Beziehung zur Grundgesamtheit (empirisch ermittelte Wahrscheinlichkeit des Ereignisses in der gezogenen Stichprobe)
• Relative Häufigkeit, Vorteil: Interpretation ist von der Stichprobengröße unabhängig
• Beispiel: 480 Mädchen besuchen eine Schule mit insgesamt 960 Schülern. Absolute Häufigkeit: 480, relative Häufigkeit 0,5 (entsteht durch 480 dividiert durch 960).
• Dieser relative Wert kann auch bei anderen Stichproben und absoluten Werten entstehen (daher Unabhängigkeit von Stichprobe)
• Relative Häufigkeit: Setzt die absolute Häufigkeit in Beziehung zur Grundgesamtheit (empirisch ermittelte Wahrscheinlichkeit des Ereignisses in der gezogenen Stichprobe)
• Relative Häufigkeit, Vorteil: Interpretation ist von der Stichprobengröße unabhängig
• Beispiel: 480 Mädchen besuchen eine Schule mit insgesamt 960 Schülern. Absolute Häufigkeit: 480, relative Häufigkeit 0,5 (entsteht durch 480 dividiert durch 960).
• Dieser relative Wert kann auch bei anderen Stichproben und absoluten Werten entstehen (daher Unabhängigkeit von Stichprobe)
Tags: Chi-Quadrat-Test, VL06
Quelle:
Quelle:
Welches Verfahren setzt man ein?
Tags: Übung, Varianzanalyse
Quelle:
Quelle:
Was ist die Clusteranalyse und was passiert da ?
- Verfahren zur Gruppenbildung
- Personen werden gruppiert, die sich ähnlich sind (ähnliche
Eigenschaftsstruktur aufweisen) / es wird eine Typologie gebildet
- zwischen den Gruppen sollte keine Ähnlichkeiten bestehen
- zahlreiche Charakteristika werden herangezogen
„Analyse einer heterogenen Gesamtheit von
Objekten mit dem Ziel, homogene Teilmengen von
Objekten aus der Objektgesamtheit zu
identifizieren“
Beispiel:
Typologie von Internetnutzern
86 Studierende geben 4 Merkmale zur Interneterfahrung (Selbsteinschätzung : Länge Expertiese , Zweck, ...)
3 Gruppen von Internetusern werden ermittelt
- Personen werden gruppiert, die sich ähnlich sind (ähnliche
Eigenschaftsstruktur aufweisen) / es wird eine Typologie gebildet
- zwischen den Gruppen sollte keine Ähnlichkeiten bestehen
- zahlreiche Charakteristika werden herangezogen
„Analyse einer heterogenen Gesamtheit von
Objekten mit dem Ziel, homogene Teilmengen von
Objekten aus der Objektgesamtheit zu
identifizieren“
Beispiel:
Typologie von Internetnutzern
86 Studierende geben 4 Merkmale zur Interneterfahrung (Selbsteinschätzung : Länge Expertiese , Zweck, ...)
3 Gruppen von Internetusern werden ermittelt
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wie läuft eine Clusteranalyse ab ?
- Bestimmung der Ähnlichkeiten
- Auswahl des Fusionierungsalgorithmus
- Bestimmung der Clusterzahl
- Auswahl des Fusionierungsalgorithmus
- Bestimmung der Clusterzahl
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Welche Verfahren unterscheidet man im Rahmen der Clusteranalyse? Welche werden in der Praxis bevorzugt eingesetzt?
• Partitionierende und hierarchische Verfahren
• Hierarchische Verfahren werden häufiger angewandt.
• Hierarchische Verfahren werden häufiger angewandt.
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Welche zwei Proximitätsmaße gibt es und wie unterscheiden sie sich? Wie entscheidet man, welches Maß man einsetzt?
Ähnlichkeitsmaße
- zeigen ähnlichen Verlauf der Profile, diese können aber auf völlig unterschiedlichem Niveau liegen
- Berechnung über Q-Korrelationskoeffizienten
- je größer dieser ist, desto ähnlicher
Distanzmaße
- zeigen (Un-)Ähnlichkeit der Werte, nicht der Profilverläufe an
- Berechnung über quadrierte euklidische Distanz
- je größer diese ist, desto unähnlicher
Die Entscheidung über die Verwendung hängt von inhaltlichen Überlegungen ab.
- zeigen ähnlichen Verlauf der Profile, diese können aber auf völlig unterschiedlichem Niveau liegen
- Berechnung über Q-Korrelationskoeffizienten
- je größer dieser ist, desto ähnlicher
Distanzmaße
- zeigen (Un-)Ähnlichkeit der Werte, nicht der Profilverläufe an
- Berechnung über quadrierte euklidische Distanz
- je größer diese ist, desto unähnlicher
Die Entscheidung über die Verwendung hängt von inhaltlichen Überlegungen ab.
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wie geht man vor bei der Bestimmung der Ähnlichkeiten auf Nominalskalenniveau (Clusteranalyse)?
- bekannte Rohdatanmatrix wird Distanz- oder Ähnlichkeitsmatrix überführt (Personen in Zeilen UND Spalten)
- enthalten sind die Ähnlichkeits - bzw. Unähnlichkeitswerte ( Distanzwerte) zwischen den betrachjteten Personen
- Zwei Proximitätsmaße
- Ähnlichkeitsmaß ( je größer desto ähnlicher )
- Distanzmaß ( je größer desto unähnlicher)
(Je nach Skalenniveau können unterschiedliche Formeln verwendet werden um Proximitätsmaße zu berechnen.)
- enthalten sind die Ähnlichkeits - bzw. Unähnlichkeitswerte ( Distanzwerte) zwischen den betrachjteten Personen
- Zwei Proximitätsmaße
- Ähnlichkeitsmaß ( je größer desto ähnlicher )
- Distanzmaß ( je größer desto unähnlicher)
(Je nach Skalenniveau können unterschiedliche Formeln verwendet werden um Proximitätsmaße zu berechnen.)
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wie bestimmt man bei nominalen Variablen binärer Struktur den Proximitätswert?
Bei binären Verhaltenstrukturen ( z.B. Intennutzer ja/nein):
– für jede Variable feststellen, ob ein Objekt das Merkmal aufweist oder nicht
– 0 (Eigenschaft nicht vorhanden) oder 1 (Eigenschaft vorhanden)
– Berechnung des Tanimoto-, Jaccard-, RR- oder M-Koeffizienten:
- Anzahl übereinstimmender Merkmale werden in den Zähler
gesetzt.
- Anzahl der Merkmale, die nur bei einem vorhanden sind,
werden in den Nenner gesetzt (Tanimoto-Koeffizient)
- Ergebnis 1 bezeichnet totale Ähnlichkeit
Ergebnis 0 bezeichnet keine Ähnlichkeit
Bei mehrkategorialer nominaler Variablenstruktur müssen Kategorien in binären Code überführt werden (bei vier Ausprägungen 1000, 0100, 0010, 0001)!
– für jede Variable feststellen, ob ein Objekt das Merkmal aufweist oder nicht
– 0 (Eigenschaft nicht vorhanden) oder 1 (Eigenschaft vorhanden)
– Berechnung des Tanimoto-, Jaccard-, RR- oder M-Koeffizienten:
- Anzahl übereinstimmender Merkmale werden in den Zähler
gesetzt.
- Anzahl der Merkmale, die nur bei einem vorhanden sind,
werden in den Nenner gesetzt (Tanimoto-Koeffizient)
- Ergebnis 1 bezeichnet totale Ähnlichkeit
Ergebnis 0 bezeichnet keine Ähnlichkeit
Bei mehrkategorialer nominaler Variablenstruktur müssen Kategorien in binären Code überführt werden (bei vier Ausprägungen 1000, 0100, 0010, 0001)!
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wie funktioniert die Bestimmung der Ähnlichkeiten bei metrischen Daten (Clusteranalyse) mittels eines Distanzmaßes?
L-Normen sind verbreitete Distanzmaße
(z.B. Euklidische Distanz (L2-Norm))
– Bildung von Differenzwerten für jede Eigenschaft / Bestimmung der Beziehung zwischen Personen per Distanz (identisch -> Distanz = 0)
– Addition der quadrierten Differenzwerte pro Paar
– Aufsummieren
– Ziehen der Quadratwurzel aus der Summe
– Durch die Quadrierung werden große Differenzwerte stärker berücksichtigt
Rohdatenmatrix wird in Distanzmaßenmatrix überführt.
(z.B. Euklidische Distanz (L2-Norm))
– Bildung von Differenzwerten für jede Eigenschaft / Bestimmung der Beziehung zwischen Personen per Distanz (identisch -> Distanz = 0)
– Addition der quadrierten Differenzwerte pro Paar
– Aufsummieren
– Ziehen der Quadratwurzel aus der Summe
– Durch die Quadrierung werden große Differenzwerte stärker berücksichtigt
Rohdatenmatrix wird in Distanzmaßenmatrix überführt.
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Was sind die Voraussetzungen für die Bildung der Euklidischen Distanz (L-Norm)?
- metrische Daten
- vergleichbare Maßeinheiten
( z.B. Erhebung aller Variablen auf gleichstufiger Skala)
Liegt dies nicht vor muss Standardisierung aller Merkmale vorgenommen werden um Werte vergleichbar zu machen.
- vergleichbare Maßeinheiten
( z.B. Erhebung aller Variablen auf gleichstufiger Skala)
Liegt dies nicht vor muss Standardisierung aller Merkmale vorgenommen werden um Werte vergleichbar zu machen.
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wann wähle ich ein Proximitäts-, wann ein Ähnlichkeitsmaß (Clusteranalyse, metrisch)?
Distanzmaße geeignet wenn
absolute Abstand zwischen Objekten von Interesse ist.und Unähnlichkeit um so größer anzusehen ist, je weiter Objekte voneinander entfernt liuegen
Ähnlichkeitsmaße sind geeignet wenn
der primäre Ähnlichkeitsaspekt im Gleichlauf zweier Profile zu sehen ist, undabhängig davon, auf w2elchem Niveau die Objekte liegen
( in der Praxis häufiger Distanzmaße)
absolute Abstand zwischen Objekten von Interesse ist.und Unähnlichkeit um so größer anzusehen ist, je weiter Objekte voneinander entfernt liuegen
Ähnlichkeitsmaße sind geeignet wenn
der primäre Ähnlichkeitsaspekt im Gleichlauf zweier Profile zu sehen ist, undabhängig davon, auf w2elchem Niveau die Objekte liegen
( in der Praxis häufiger Distanzmaße)
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wie bestimmt man die Ähnlichkeit gemischtskalierter Variablent?
Es gibt zwei verschiedene Möglichkeiten:
Getrennte Berechnung der Proximitätsmaße für metrische und nominale Variablen
- Gesamtähnlichlkeit wird durch gewichteten oder ungewichteten Mittelwert berechnet .
Transformation auf niedrigeres Skalenniveau
- durch Dichitomisierung
- Nachteil: Verlust von vielen Informationen
Getrennte Berechnung der Proximitätsmaße für metrische und nominale Variablen
- Gesamtähnlichlkeit wird durch gewichteten oder ungewichteten Mittelwert berechnet .
Transformation auf niedrigeres Skalenniveau
- durch Dichitomisierung
- Nachteil: Verlust von vielen Informationen
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Welche Möglichkeiten hat man bei der Wahl des Fusionierungsalgorithmus?
Da alle Beschreibungsmerkmale herangezogen werden sollen, werden so genannte polythetische Verfahren genutzt:
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wie unterscheiden sich partitionierende von hierarchischen Verfahren zur Bestimmung des Fusionierungsalgorithmus?
Partitionierende Verfahren gehen von gegebener Gruppierung (Startpartition) aus und ordnen mit Hilfe eines Algorithmus so lange um, bis ein Optimum erreicht ist (während des Prozesses
werden noch Elemente zwischen den Gruppen getauscht)
-> alle ähnlichen Personen zusammengefasst
Hierarschisches Verfahren
agglomerative und divisive Algorithmen:
Bei agglomerativen startet man von der feinsten Partition (Anzahl der Personen), bei der divisiven Vorgehensweise ist die
gröbste Partition der Ausgangspunkt (alle Personen befinden sich in einer Gruppe)
werden noch Elemente zwischen den Gruppen getauscht)
-> alle ähnlichen Personen zusammengefasst
Hierarschisches Verfahren
agglomerative und divisive Algorithmen:
Bei agglomerativen startet man von der feinsten Partition (Anzahl der Personen), bei der divisiven Vorgehensweise ist die
gröbste Partition der Ausgangspunkt (alle Personen befinden sich in einer Gruppe)
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wie laufen agglomerative, hierarchische Partitionierungsverfahren ab?
Schritt 1: Start mit feinsten Partition
(jedes Objekt ist ein Cluster)
Schritt 2: Für alle Objekte Distanz berechnen
(quadrierte Euklidische Distanz)
Schritt 3: Gesucht: die beiden Cluster mit der geringsten
Distanz zueinander
Schritt 4: Zusammenfassung dieser ähnlichsten Objekte
zu einem Cluster; Zahl der Gruppen nimmt um 1 ab
Schritt 5: Berechnung der Abstände zwischen der neuen
und den übrigen Gruppen => reduzierte Distanzmatrix
Schritte 3 - 5 so lange, bis alle Untersuchungsobjekte in
einer Gruppe sind
Ergebnis in Dendrogramm dargestellt
(jedes Objekt ist ein Cluster)
Schritt 2: Für alle Objekte Distanz berechnen
(quadrierte Euklidische Distanz)
Schritt 3: Gesucht: die beiden Cluster mit der geringsten
Distanz zueinander
Schritt 4: Zusammenfassung dieser ähnlichsten Objekte
zu einem Cluster; Zahl der Gruppen nimmt um 1 ab
Schritt 5: Berechnung der Abstände zwischen der neuen
und den übrigen Gruppen => reduzierte Distanzmatrix
Schritte 3 - 5 so lange, bis alle Untersuchungsobjekte in
einer Gruppe sind
Ergebnis in Dendrogramm dargestellt
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wie werden die verschiedene Verfahren anhand ihrer Fusionierungseigenschaften charakterisiert?
- Dilatierende Verfahren
Personen werden in etwa gleich große Gruppen zusammengefasst
- Kontrahierende Verfahren
bilden zunächst wenige große Gruppen, denen viele kleine gegenüberstehen (können Ausreißer indentifizieren)
- Konservative Verfahren
weisen weder Tendenzen zu Dilatation noch Kontraktion auf
Außerdem wird unterschieden, ob das Verfahren zur Kettenbildung neigt (im Prozess werden primär einzelne Objekte aneinandergereiht und erzeugt dadurch große Gruppen)
Personen werden in etwa gleich große Gruppen zusammengefasst
- Kontrahierende Verfahren
bilden zunächst wenige große Gruppen, denen viele kleine gegenüberstehen (können Ausreißer indentifizieren)
- Konservative Verfahren
weisen weder Tendenzen zu Dilatation noch Kontraktion auf
Außerdem wird unterschieden, ob das Verfahren zur Kettenbildung neigt (im Prozess werden primär einzelne Objekte aneinandergereiht und erzeugt dadurch große Gruppen)
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Nenne verschiedene Verfahren mit ihren jeweiligen Fusionierungseigenschaften und Proximitätsmaßen!
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Was ist das Ward-Verfahren und welche Voraussetzung bestehen für dessen Anwendung?
sehr guter Fusionierungsalgorithmus
Vorrausetzungen:
- Verwendung eines Distanzmaßes inhaltlich sinnvoll
- Alle Variablen metrisch
- Keine Ausreißer enthalten (oder vorherneliminiert)
- Variablen sind unkorreliert
- Elementzahl wird in jeder Gruppe ungefähr gleich groß sein
Beruht auf Berücksichtigung der Streuung der Elemente:
Immer diejenigen Objekte werden vereinigt, die die Fehlerquadratsumme am wenigsten erhöhen.
Vorrausetzungen:
- Verwendung eines Distanzmaßes inhaltlich sinnvoll
- Alle Variablen metrisch
- Keine Ausreißer enthalten (oder vorherneliminiert)
- Variablen sind unkorreliert
- Elementzahl wird in jeder Gruppe ungefähr gleich groß sein
Beruht auf Berücksichtigung der Streuung der Elemente:
Immer diejenigen Objekte werden vereinigt, die die Fehlerquadratsumme am wenigsten erhöhen.
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wie bestimmt man die Clusteranzahl?
- Der Anwender muss entscheiden, welche Anzahl von Gruppen die beste ist
- Das Verfahren ist explorativ, ohne sachlogisch begründbare Vorstellung zur Gruppierung
- Daher wird die Bestimmung der Gruppenanzahl an statistischen und nicht sachlogischen Gründen orientiert
- Aus dem Dendrogramm lassen sich bereits optisch sinnvolle Gruppentrennungen erkennen
- Außerdem: Elbow-Kriterium
- SPSS berechnet Homogenitäts-Werte für jede Variable einer gefundenen Gruppe.
Ein Cluster ist dann als vollkommen homogen anzusehen,
wenn alle Werte kleiner sind als 1
- Das Verfahren ist explorativ, ohne sachlogisch begründbare Vorstellung zur Gruppierung
- Daher wird die Bestimmung der Gruppenanzahl an statistischen und nicht sachlogischen Gründen orientiert
- Aus dem Dendrogramm lassen sich bereits optisch sinnvolle Gruppentrennungen erkennen
- Außerdem: Elbow-Kriterium
- SPSS berechnet Homogenitäts-Werte für jede Variable einer gefundenen Gruppe.
Ein Cluster ist dann als vollkommen homogen anzusehen,
wenn alle Werte kleiner sind als 1
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Was ist das Elbow-Kriterium? Wie wird es bestimmt?
Ein Verfahren / Hilfestellung zur Festlegung der Gruppenzahl bei einer Clusteranalyse
- In Grafik wird Heterogentitätsentwicklung und Clusteranzahl abgetragen (je weniger Cluster desto heterogener sind diese)
- Wird ein Sprung (Elbow) in der Heterogentitätsentwicklung deutlich, so kann dies als Entscheidungskriterium genutzt werden,
denn einerseits sollen nicht zu viele Cluster entstehen
(Handhabbarkeit), andererseits sollen die Cluster in sich
möglichst homogen sein.
- In Grafik wird Heterogentitätsentwicklung und Clusteranzahl abgetragen (je weniger Cluster desto heterogener sind diese)
- Wird ein Sprung (Elbow) in der Heterogentitätsentwicklung deutlich, so kann dies als Entscheidungskriterium genutzt werden,
denn einerseits sollen nicht zu viele Cluster entstehen
(Handhabbarkeit), andererseits sollen die Cluster in sich
möglichst homogen sein.
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Nenne einige Anwendungsempfehlungen zur Bestimmung der "optimalen" Clusteranzahl!
- Ausreißer entfernen (Single-Linkage-Verfahren)
- Nur Merkmale berücksichtigen, die relevant für den zu untersuchenden Sachverhalt sind
- Hoch korrelierende Merkmale nicht mit einbeziehen
(entweder als EIN Faktor einbeziehen oder eine Variable ausschließen)
- Standardisierung wenn unterschiedliche Skalenniveaus vorhanden sind
- Agglomerative Verfahren führen bei großen Fallzahlen zu Berechnungsproblemen -> In dem Fall eher partitionierende Verfahren
- Nur Merkmale berücksichtigen, die relevant für den zu untersuchenden Sachverhalt sind
- Hoch korrelierende Merkmale nicht mit einbeziehen
(entweder als EIN Faktor einbeziehen oder eine Variable ausschließen)
- Standardisierung wenn unterschiedliche Skalenniveaus vorhanden sind
- Agglomerative Verfahren führen bei großen Fallzahlen zu Berechnungsproblemen -> In dem Fall eher partitionierende Verfahren
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Welche Vor- und Nachteile bietet die Clusteranalyse?
Anwender hat bei der Clusteranalyse einen breiten Manövrier- und Einflussraum
• Vorteil: breites Anwendungsgebiet der Verfahren
• Nachteil/Gefahr: die Daten so lange zu manipulieren,
bis sich ein gewünschtes Ergebnis zeigt
• Vorteil: breites Anwendungsgebiet der Verfahren
• Nachteil/Gefahr: die Daten so lange zu manipulieren,
bis sich ein gewünschtes Ergebnis zeigt
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Wofür kann Clusteranalyse genutzt werden ?
- Viele zu den Objekten (Personen) erhobene Variablen
-> Entwicklung einer neuen Typologie
- Entstandene Typologien eigenen sich für weitere Berechnungen
- homogene Untergruppen gebildet, die als neue UV genutzt
werden können
- Aufklärung weiterer Varianz
- Gegenüberstellung von bestimmten, sich ähnelnden Gruppen in Bezug auf eine AV (z. B. „Spielspaß“)
- Unterschiede herausstellbar
-> Entwicklung einer neuen Typologie
- Entstandene Typologien eigenen sich für weitere Berechnungen
- homogene Untergruppen gebildet, die als neue UV genutzt
werden können
- Aufklärung weiterer Varianz
- Gegenüberstellung von bestimmten, sich ähnelnden Gruppen in Bezug auf eine AV (z. B. „Spielspaß“)
- Unterschiede herausstellbar
Tags: Clusteranalyse, VL08
Quelle:
Quelle:
Was wird besonders bei der Regressionsanalyse deutlich?
der Einfluss einer oder mehrerer Variablen auf eine andere Variable
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Was ist der Vorteil der Regressionsanalyse ggü. der Varianzanalyse?
der relative Beitrag verschiedener Variablen zur Erklärung eines Wertes wird deutlich
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
a) Nenne Beispiele für eine Studie mit Regressionsanalyse!
b) Was will die Regressionsanalyse allgemein umschrieben vorhersagen?
c) wie werden die relevanten Variablen genannt und wonach bestimmt?
b) Was will die Regressionsanalyse allgemein umschrieben vorhersagen?
c) wie werden die relevanten Variablen genannt und wonach bestimmt?
a) Bsp.: Wie stark ist der Einfluss von Alter, Bildungsstand, Geschlecht, vorheriger Stimmung und Beschäftigung in der Pause auf die Leistung im Rechentest?
b) Allg.: Methode zur Vorhersage eines Merkmals y aus einem Merkmal x.
c) es wird zwischen unabhängiger und abhängiger Variable unterschieden
y = Kriterium (AV: wird vorhergesagt)
x = Prädiktor (UV, sagt vorher)
inhaltliche Erwägungen, welche Variable als Prädiktor und welche als Kriterium dient.
b) Allg.: Methode zur Vorhersage eines Merkmals y aus einem Merkmal x.
c) es wird zwischen unabhängiger und abhängiger Variable unterschieden
y = Kriterium (AV: wird vorhergesagt)
x = Prädiktor (UV, sagt vorher)
inhaltliche Erwägungen, welche Variable als Prädiktor und welche als Kriterium dient.
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Welche Arten von Regressionsanalysen gibt es? Wie unterscheiden sie sich grob gesagt inhaltlich?
einfache lineare Regression als Grundlage
(-> deskrpt. Stat.); nur ein Kriterium und ein Prädiktor wird verwendet
Multiple Regression wird eingesetzt, wenn eine Kriteriumsvariable von mehr als einer unabhängigen Variable vorhergesagt werden soll
Moderierte Regression = nicht-lineare Regression, in der die multiple Regression um das Produkt aus zwei Prädiktorvariablen erweitert wird.
(-> deskrpt. Stat.); nur ein Kriterium und ein Prädiktor wird verwendet
Multiple Regression wird eingesetzt, wenn eine Kriteriumsvariable von mehr als einer unabhängigen Variable vorhergesagt werden soll
Moderierte Regression = nicht-lineare Regression, in der die multiple Regression um das Produkt aus zwei Prädiktorvariablen erweitert wird.
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Welches Verfahren zum Zusammenhang von zwei Variablen kennst du außer der linearen Regression noch? Worin besteht der Unterschied?
bisher bekanntes Verfahren zum Zusammenhang von zwei Variablen: Korrelation. Rechnerisch sind Korrelation und Regression eng miteinander verknüpft.
Bsp.: Produkt-Moment-Korrelation:
- Korrelationswert (r) kann nur Werte zwischen -1 und +1 annehmen -> pos./neg./kein Zusammenhang zwischen x und y
- weitere Korrelationen: Rangkorr., Punktbiserale Korr., Punktbiserale Rangkorrelation (siehe Tabelle -> Skalenniveau)
- Für jeden x-Wert lässt sich der zugehörige y-Wert an einer Geraden ablesen.
- Bsp.: funktionaler Zus.hang zw. Masse u. Gewichtskraft
- Frage: Ist das auch möglich für stochastische, d.h. unvollkommene Zusammenhänge?
Ziel des Verfahrens lineare Regression: stochastischen Zusammenhang zwischen zwei Variablen durch lineare Funktion wiedergeben; Punktewolke wird durch eine einzige,
möglichst repräsentative Gerade ersetzt
Bsp.: Produkt-Moment-Korrelation:
- Korrelationswert (r) kann nur Werte zwischen -1 und +1 annehmen -> pos./neg./kein Zusammenhang zwischen x und y
- weitere Korrelationen: Rangkorr., Punktbiserale Korr., Punktbiserale Rangkorrelation (siehe Tabelle -> Skalenniveau)
- Für jeden x-Wert lässt sich der zugehörige y-Wert an einer Geraden ablesen.
- Bsp.: funktionaler Zus.hang zw. Masse u. Gewichtskraft
- Frage: Ist das auch möglich für stochastische, d.h. unvollkommene Zusammenhänge?
Ziel des Verfahrens lineare Regression: stochastischen Zusammenhang zwischen zwei Variablen durch lineare Funktion wiedergeben; Punktewolke wird durch eine einzige,
möglichst repräsentative Gerade ersetzt
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Wie lautet die Gleichung für die lineare Regression? Erkläre die Bestandteile.
- Steigung dieser Geraden = b (Regressionsgewicht)
- Höhenlage (y-Achsen-Abschnitt) = a
- Variable y wird mit einem ^ gekennzeichnet, da es geschätzt wird (hypothetische Werte werden vorhergesagt, die nicht unbedingt mit den tatsächl. Werten übereinst.).
- Funktion liefert für jeden Wert xi einen zugehörigen Wert ^y
Dieser vorhergesagte Wert kann jedoch von dem empirischen Wert yi abweichen.
- Parameter b und a müssen bestimmt werden
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Was kann man über eine optimale Gerade der linearen Regression sagen?
- gibt einen Punkteschwarm am besten wieder
- über alle Vpn hinweg ist der Vorhersagefehler am kleinsten
- über alle Vpn hinweg ist der Vorhersagefehler am kleinsten
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Wie wird die Gerade der linearen Regression gelegt?
die Gerade wird so gelegt, dass die Summe der Quadrate aller Abweichungen der empirischen y-Werte von den vorhergesagten y-Werten möglichst klein wird
= Methode der kleinsten Abweichungsquadrate
Abweichung der amp. Werte von den vorhergesagten Werten
= Methode der kleinsten Abweichungsquadrate
Abweichung der amp. Werte von den vorhergesagten Werten
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Wie lautet die Formel für die Steigung b und die der Höhenlage a zur linearen Regression?
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Welcher Vorteil ergibt sich, wenn die Regressionsgleichung zwischen 2 Variablen bekannt ist?
Ist die Regressionsgleichung zwischen zwei Variablen bekannt, lässt sich zu einem beliebigen Wert der Prädiktorvariable der zugehörige Kriteriumswert prognostizieren.
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Wie geht man vor, wenn man aus einer Regressionsgleichung zu einer Prädiktorvariablen den zugehörigen Kriteriumswert prognostizieren möchte? (Bsp. Alkoholkonzentration und Reaktionszeit)
- Mittelwerte und Varianz aus Daten errechnen
- Kovarianz aus Prädiktor u. Kriteriumsvariable errechnen
- Steigung errechnen
-> positive Steigung: Reaktionszeit steigt um ~54 ms, wenn man auf der x-Achse eine Einheit weiter geht
- Höhenlage (=Gerade schneidet y-Achse):
-> Nach Einsetzen i. d. Gleichung ergibt sich die vollst. Fkts.gleichung d. ges. Regressionsgerade: y = 54,03*x + 596,29
Es kann bestimmt werden, welche Reaktionszeit bei einer Konzentration von 0,8 Promille zu erwarten ist.
- Kovarianz aus Prädiktor u. Kriteriumsvariable errechnen
- Steigung errechnen
-> positive Steigung: Reaktionszeit steigt um ~54 ms, wenn man auf der x-Achse eine Einheit weiter geht
- Höhenlage (=Gerade schneidet y-Achse):
-> Nach Einsetzen i. d. Gleichung ergibt sich die vollst. Fkts.gleichung d. ges. Regressionsgerade: y = 54,03*x + 596,29
Es kann bestimmt werden, welche Reaktionszeit bei einer Konzentration von 0,8 Promille zu erwarten ist.
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Was ist bei dichotom nominalskalierten Prädiktoren zu beachten?
In der Statistik versteht man unter einer dichotomen (oder binären Variablen) eine Variable, die zwei Ausprägungen hat, zum Beispiel die Variable Geschlecht mit den beiden Ausprägungen weiblich und männlich.
- Bildung einer Dummy-Variablen nötig
- Kategorien werden mit 0 und 1 kodiert
- ein Test der Steigung auf Signifikanz ergibt identische
Resultate, wie ein t-Test für unabh. Stichpr.
- Methode nur bei linearen Zusammenhängen anwenden!
- Post-hoc muss das Streudiagramm überprüft werden, um
Fehlschlüsse zu vermeiden!
- Bildung einer Dummy-Variablen nötig
- Kategorien werden mit 0 und 1 kodiert
- ein Test der Steigung auf Signifikanz ergibt identische
Resultate, wie ein t-Test für unabh. Stichpr.
- Methode nur bei linearen Zusammenhängen anwenden!
- Post-hoc muss das Streudiagramm überprüft werden, um
Fehlschlüsse zu vermeiden!
Tags: Regressionsanalyse, VL 09
Quelle: wikipedia, Skript
Quelle: wikipedia, Skript
Was gibt das Regressionsgewicht b an? Nenne ein Beispiel und weitere Eigenschaften.
- gibt an, um wieviele Einheiten der Originalmetrik sich das Kriterium y verändert, wenn man den Prädiktor x um eine Einheit der Originalmetrik erhöht.
- Bspw. je Promille erhöht sich d. Reaktionszeit um 54 ms.
- unstandardisiertes Regressionsgewicht:
weil die ursprgl. Maßeinheiten erhalten bleiben.
muss von der Originalmetrik der untersuchten Merkmale bereingit werden, d.h. b wird in den Zähler- u. Nennereinheiten an der Streuung der jeweiligen Merkmale relativiert.
- Bspw. je Promille erhöht sich d. Reaktionszeit um 54 ms.
- unstandardisiertes Regressionsgewicht:
weil die ursprgl. Maßeinheiten erhalten bleiben.
muss von der Originalmetrik der untersuchten Merkmale bereingit werden, d.h. b wird in den Zähler- u. Nennereinheiten an der Streuung der jeweiligen Merkmale relativiert.
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Wie heißt das (resultierende) standardisierte Regressionsgewicht und was macht es möglich? Was sind weitere Eigenschaften?
Beta-Gewicht:
- Vergleich zwischen Regressionen wird möglich
- der Koeffizient Beta ist von den Maßeinheiten der untersuchten
Merkmale unabhängig
- drückt aus, um wieviele Standartabweichungen sich y verändert,
wenn sich x um eine Stadardabweichung vergrößert
[- im Fall der einfachen Regression ist der Koeffizient Beta identisch
mit dem Wert r aus der Produkt-Moment-Korrelation]
- Vergleich zwischen Regressionen wird möglich
- der Koeffizient Beta ist von den Maßeinheiten der untersuchten
Merkmale unabhängig
- drückt aus, um wieviele Standartabweichungen sich y verändert,
wenn sich x um eine Stadardabweichung vergrößert
[- im Fall der einfachen Regression ist der Koeffizient Beta identisch
mit dem Wert r aus der Produkt-Moment-Korrelation]
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Wie und warum lässt sich die Signifikanz von Regressionsgewichten testen? Wie lautet das Maß für die Güte einer Regression?
- beurteilen, ob Merkmal X ein Merkmal Y stat. bedeutsam
vorhersagt
- funktioniert ähnlich wie t-Test
- Prüfgröße t bilden, indem d. unstandardisierte Regressionskoeff. b
an seinem Standardfehler relativiert wird
- Standardfehler schätzt die Streuuung der emp. Regr.koeffizienten
um den wahren Populationswert -> analog z. Mittelwertsdifferenz
beim t-Test
- je größer b und je kleiner der Standardfehler, desto größer der
t-Wert und desto eher kann die H0 verworfen werden
- Gütemaß einer Regression: Determinationskoeffizient r^2
(Effektstärkemaß)
vorhersagt
- funktioniert ähnlich wie t-Test
- Prüfgröße t bilden, indem d. unstandardisierte Regressionskoeff. b
an seinem Standardfehler relativiert wird
- Standardfehler schätzt die Streuuung der emp. Regr.koeffizienten
um den wahren Populationswert -> analog z. Mittelwertsdifferenz
beim t-Test
- je größer b und je kleiner der Standardfehler, desto größer der
t-Wert und desto eher kann die H0 verworfen werden
- Gütemaß einer Regression: Determinationskoeffizient r^2
(Effektstärkemaß)
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Wie kann man angeben, wieviel Prozent der gesamten Varianz durch die Regression (also durch die Varianz der x-und y-Werte) erklärbar ist?
der Determinationskoeffizient r^2 * 100
= Prozentsatz
anschauliches Maß für den Zusammenhang zweier Variablen:
Beispiel: Determinationskoeffizient von 0,6 bedeutet, dass 60% der Varianz der y-Werte durch die Kenntnis der Prädiktorvariable x aufgeklärt werden können.
= Prozentsatz
anschauliches Maß für den Zusammenhang zweier Variablen:
Beispiel: Determinationskoeffizient von 0,6 bedeutet, dass 60% der Varianz der y-Werte durch die Kenntnis der Prädiktorvariable x aufgeklärt werden können.
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Was sind die Vorraussetzungen für lineare Regression?
- Kriterium: intervallskaliert und normalverteilt
- Prädiktor: intervallskaliert und normalverteilt
oder dichotom nominalskaliert
- Einzelwerte verschiedener Vpn:
voneinander unabh. zustande gekommen
- Zusammenhang der Variablen: (theoretisch) linear
- Streuung der zu einem x-Wert gehörenden y-Werte:
über den ganzen Wertebereich von x homogen*
(*Homoskedastizität)
- Prädiktor: intervallskaliert und normalverteilt
oder dichotom nominalskaliert
- Einzelwerte verschiedener Vpn:
voneinander unabh. zustande gekommen
- Zusammenhang der Variablen: (theoretisch) linear
- Streuung der zu einem x-Wert gehörenden y-Werte:
über den ganzen Wertebereich von x homogen*
(*Homoskedastizität)
Tags: Regressionsanalyse, VL 09
Quelle:
Quelle:
Was ist der Vorteil der Multiplen Regression? Warum ist sie v.a. in der Psychologie so wichtig?
- Verfahren kann relativen Einfluss einzelner Prädiktoren im Kontext
der anderen Prädiktoren ermitteln
- wägt die Vorhersagekraft der einzelnen Prädiktoren
gegeneinander ab, indem sie Überschneidungen
(Interkorrelationen) zwischen den einzelnen Prädiktoren
berücksichtigt
- durch den Einbezug weiterer Prädiktoren verbessert sich die
Übereinstimmung zwischen beobachtetem und geschätzten Wert
-> man hat weniger Residuen
-> Beta-Werte miteinander vergleichen
psychologische Konstrukte sind so gut wie nie nur durch einen
Prädikator erklärbar!
der anderen Prädiktoren ermitteln
- wägt die Vorhersagekraft der einzelnen Prädiktoren
gegeneinander ab, indem sie Überschneidungen
(Interkorrelationen) zwischen den einzelnen Prädiktoren
berücksichtigt
- durch den Einbezug weiterer Prädiktoren verbessert sich die
Übereinstimmung zwischen beobachtetem und geschätzten Wert
-> man hat weniger Residuen
-> Beta-Werte miteinander vergleichen
psychologische Konstrukte sind so gut wie nie nur durch einen
Prädikator erklärbar!
Tags: Multiple Regression, VL 10
Quelle:
Quelle:
Wie sieht die Gleichung der Multiplen Regression aus?
= a + b1* Prädikator1 + b2 * Prädikator2 + b3*Prädikator3
Tags: Multiple Regression, Vl 10
Quelle:
Quelle:
Nenne die Ablaufschritte der multiplen Regressionsanalyse!
(im Prinzip äquivalent zur einfacheren Regr., dort sind aber Schritt 3+4 identisch)
1. Modellformulierung: Beruht auf theoretischen Vorüberlegungen, Modelle und Annahmen zur Kausalität
2. Schätzung der Regressionsfunktion
3. Prüfung der Regressionsfunktion
4. Prüfung der Regressionskoeffizienten
5. Prüfung der Modellprämissen
1. Modellformulierung: Beruht auf theoretischen Vorüberlegungen, Modelle und Annahmen zur Kausalität
2. Schätzung der Regressionsfunktion
3. Prüfung der Regressionsfunktion
4. Prüfung der Regressionskoeffizienten
5. Prüfung der Modellprämissen
Tags: Multiple Regression, VL 10
Quelle:
Quelle:
Wie lauten die Schritte für die Prüfung zur Regressionsfunktion (Multiple Regressionsanalyse)?
2 Schritte:
globale Prüfung der Regressionfunktion:
= wie gut wird Y durch das Regressionsmodell erklärt?
Ist das Modell als Ganzes nicht geeignet, erübrigt sich die Prüfung der einzelnen Koeffizienten.
Prüfung der Regressionskoeffizienten:
= wie gut tragen einzelne Variablen des Regr.modells zur Erklärung bei?
Wenn eine Variable keinen Beitrag zur Erklärung liefert, ist sie aus der Regressionsfunktion zu entfernen.
globale Prüfung der Regressionfunktion:
= wie gut wird Y durch das Regressionsmodell erklärt?
Ist das Modell als Ganzes nicht geeignet, erübrigt sich die Prüfung der einzelnen Koeffizienten.
Prüfung der Regressionskoeffizienten:
= wie gut tragen einzelne Variablen des Regr.modells zur Erklärung bei?
Wenn eine Variable keinen Beitrag zur Erklärung liefert, ist sie aus der Regressionsfunktion zu entfernen.
Tags: Multiple Regrssion, VL 10
Quelle:
Quelle:
Was sind die Gütemaße zur globalen Prüfung der Regressionsfunktion?
Bestimmungsmaß r^2:
der durch die UV erklärte Anteil, Wertebereich zw. 0 und 1
(1, wenn die gesamte Streuung erklärt wird, mit jedem hinzukommenden Prädikator wird mehr erklärt)
die F-Statistik:
besitzt das geschätzte Modell auch über die Stichprobe hinaus Gütligkeit für die Grundgesamteheit, empirischer F-Wert wird mit kritischem Wert verglichen
der Standardfehler.
der durch die UV erklärte Anteil, Wertebereich zw. 0 und 1
(1, wenn die gesamte Streuung erklärt wird, mit jedem hinzukommenden Prädikator wird mehr erklärt)
die F-Statistik:
besitzt das geschätzte Modell auch über die Stichprobe hinaus Gütligkeit für die Grundgesamteheit, empirischer F-Wert wird mit kritischem Wert verglichen
der Standardfehler.
Tags: Multiple Regression, VL 10
Quelle:
Quelle:
Wie läuft die Prüfung des Regressionskoeffizienten bei der Multiplen Regressionsanalyse ab?
(wie gut tragen einzelne Variablen des Regressionsmodells zur Erklärung bei? Wenn eine Variable keinen Beitrag zur Erklärung liefert, ist sie aus der Regressionsfunktion zu entfernen)
- t-Test
die einzelnen Regressionskoeffizienten werden durch eine t-Verteilung geprüft, man erhält den t-Wert, indem der Regressionskoeffizient durch den Standardfehler dividiert wird
- Beta-Wert
- t-Test
die einzelnen Regressionskoeffizienten werden durch eine t-Verteilung geprüft, man erhält den t-Wert, indem der Regressionskoeffizient durch den Standardfehler dividiert wird
- Beta-Wert
Tags: Multiple Regression, VL 10
Quelle:
Quelle:
Wie läuft die Prüfung der Modellprämissen bei der Multiplen Regressionsanalyse ab?
Gegenüber der einfachen Regression kommt hinzu:
- Keine übermäßige Multikollinearität der Prädiktoren
Unter Multikollinearität versteht man sehr hohe lineare Zusammenhänge zwischen den Prädiktoren, so dass im Extremfall eine Prädiktorvariable aus den anderen Prädiktoren vorhersagbar wäre.
- Dies würde dazu führen, dass die Einflussgewichte der einzelnen Prädiktoren nicht mehr genau bestimmbar sind.
- Keine übermäßige Multikollinearität der Prädiktoren
Unter Multikollinearität versteht man sehr hohe lineare Zusammenhänge zwischen den Prädiktoren, so dass im Extremfall eine Prädiktorvariable aus den anderen Prädiktoren vorhersagbar wäre.
- Dies würde dazu führen, dass die Einflussgewichte der einzelnen Prädiktoren nicht mehr genau bestimmbar sind.
Tags: Multiple Regression, VL 10
Quelle:
Quelle:
Welche verschiedenen Regressionsanalyse-Möglichkeiten gibt es?
-schrittweise Regressionsanalyse
-blockweise Regressionsanalyse
-hierarchische Regressionsanalyse
-blockweise Regressionsanalyse
-hierarchische Regressionsanalyse
Tags: Multiple Regression, VL 10
Quelle:
Quelle:
Wie sieht die schrittweise Regressionsanalyse genauer aus? Was wird an dieser Methode kritisiert?
- bei 3 Prädktoren kann man 7 verschiedene Modelle bilden:
- 3 Modelle mit einem Prädiktor, 3 mit zwei P. und eins mit drei P.
- Entscheidung über theor. Vorüberlegung, dann mit der Methode
"Einschluss" berechnet
- durch das 'schrittweise'-Modell kann man sich eine Auswahl von
Modellen anzeigen lassen, die das Datenmaterial gut abbilden,
und versucht, das gewählte Modell sinnvoll zu interpretieren.
- außerdem werden die Prädikatoren einzeln nacheinander in die
Regressionsgleichung einbezogen. Es wird jeweils eine Variable
gewählt, die ein bestimmtes Gütekriterium maximiert.
- erster Schritt: Variable mit höchster Korrelation (=höchster
Erklärungswert); folgende Schritte: jeweils die, mit der höchsten
partiellen Korrelation
- Rangfolge: statistische Wichtigkeit der Variable
Kritik: explorativer Charakter (das Modell wird ja nicht theoretisch abgeleitet) und: wenn ein Prädiktor allein nicht zur Varianzaufklärung in y beiträgt, wird er nicht ins Modell aufgenommen
- 3 Modelle mit einem Prädiktor, 3 mit zwei P. und eins mit drei P.
- Entscheidung über theor. Vorüberlegung, dann mit der Methode
"Einschluss" berechnet
- durch das 'schrittweise'-Modell kann man sich eine Auswahl von
Modellen anzeigen lassen, die das Datenmaterial gut abbilden,
und versucht, das gewählte Modell sinnvoll zu interpretieren.
- außerdem werden die Prädikatoren einzeln nacheinander in die
Regressionsgleichung einbezogen. Es wird jeweils eine Variable
gewählt, die ein bestimmtes Gütekriterium maximiert.
- erster Schritt: Variable mit höchster Korrelation (=höchster
Erklärungswert); folgende Schritte: jeweils die, mit der höchsten
partiellen Korrelation
- Rangfolge: statistische Wichtigkeit der Variable
Kritik: explorativer Charakter (das Modell wird ja nicht theoretisch abgeleitet) und: wenn ein Prädiktor allein nicht zur Varianzaufklärung in y beiträgt, wird er nicht ins Modell aufgenommen
Tags: Multiple Regression, Vl 10
Quelle:
Quelle:
Was versteht man unter der blockweisen Regressionsanalyse?
– In SPSS Methode „Einschluss“ – (theoriegeleitet) werden Variablen in einem Block in die Regressionsanalyse einbezogen
– Alle Variablen werden berücksichtigt, in der Tabelle „Koeffizienten“ wird der Beta-Koeffizient angegeben, durch den man bestimmen kann, welcher Prädiktor den höchsten Einfluss nimmt
– Alle Variablen werden berücksichtigt, in der Tabelle „Koeffizienten“ wird der Beta-Koeffizient angegeben, durch den man bestimmen kann, welcher Prädiktor den höchsten Einfluss nimmt
Tags: Regressionsanalyse, VL 10
Quelle:
Quelle:
Was passiert bei der hierarchischen Regressionsanalyse?
– Die Funktion Einschluss wird genutzt, um (theoriegeleitet) unterschiedliche Blöcke von Variablen in die Regressionsanalyse einzubeziehen
– Zunächst nimmt man die Variable(n), die vor dem Hintergr. d. Theorie zentral erscheinen
– In einem zweiten Block fügt man (eine) potenziell weitere erklärende Variable(n) hinzu und kann über die Funktion „Änderung in R-Quadrat“ feststellen, ob diese die Vorhersage signifikant verbessert
– Gegenstand der multiplen (hierarchischen) Regression:
Erklärung der Varianz in der Kriteriumsvariablen durch zwei (oder mehr) Prädiktor/Moderatorvariablen
– Beispiel: Wie viel Varianz der Gedächtnisleistung wird durch Alter und Intelligenz erklärt?
– Zunächst nimmt man die Variable(n), die vor dem Hintergr. d. Theorie zentral erscheinen
– In einem zweiten Block fügt man (eine) potenziell weitere erklärende Variable(n) hinzu und kann über die Funktion „Änderung in R-Quadrat“ feststellen, ob diese die Vorhersage signifikant verbessert
– Gegenstand der multiplen (hierarchischen) Regression:
Erklärung der Varianz in der Kriteriumsvariablen durch zwei (oder mehr) Prädiktor/Moderatorvariablen
– Beispiel: Wie viel Varianz der Gedächtnisleistung wird durch Alter und Intelligenz erklärt?
Tags: Regressionsanalyse, VL 10
Quelle:
Quelle:
Ist die moderierte Regression nicht-linear oder linear?
Nenne Beispiele für Kriteium und Prädiktor
Nenne Beispiele für Kriteium und Prädiktor
= nicht-lineare Regression, in der die multiple Regression um das Produkt aus zwei Prädiktorvariablen erweitert wird.
d.h.:
Kriterium : Gedächtniswert
Prädiktoren : Alter
Intelligenz
-> Alter * Intelligenz
d.h.:
Kriterium : Gedächtniswert
Prädiktoren : Alter
Intelligenz
-> Alter * Intelligenz
Tags: Regressionsanalyse, VL 10
Quelle:
Quelle:
Was passiert bei der Moderierten Regression, wenn ich einfach die beiden Prädiktorvariablen miteinander multipliziere?
Wenn beide Variablen gleich skaliert sind und deren Mittelwerte gleich sind: Alles OK
Beispiel: verbale Intelligenz plus non-verbale Intelligenz
jeweils Mittelwert in Stichprobe = 100, SD = 15
Kommt in der Realität so gut wie nie vor
Wenn beide Variablen nicht gleich skaliert sind und deren Mittelwerte nicht gleich sind:
Die Variablen gehen mit unterschiedlichen Gewichten in den multiplikativen Term ein
→ keine homogene Interaktion analysierbar
Beispiel: verbale Intelligenz plus non-verbale Intelligenz
jeweils Mittelwert in Stichprobe = 100, SD = 15
Kommt in der Realität so gut wie nie vor
Wenn beide Variablen nicht gleich skaliert sind und deren Mittelwerte nicht gleich sind:
Die Variablen gehen mit unterschiedlichen Gewichten in den multiplikativen Term ein
→ keine homogene Interaktion analysierbar
Tags: Regressionsanalyse, VL 10
Quelle:
Quelle:
Was kann ich tun, um aus zwei Prädiktorvariablen mit ungleichen Skalen/Mittelwerten den
multiplikativen Term bilden zu können?
multiplikativen Term bilden zu können?
Standardisieren von Variablen:
Z-Standardisierung; Ergebnis: Mittelwert = 0 SD = 1
oder
Zentralisieren von Variablen: (Aiken & West, 1991)
Bei beiden Variablen wird getrennt voneinander der Mittelwert auf 0 gesetzt indem die Abweichungen vom Mittelwert pro Vpn berechnet werden. Bsp.: mx = mean(alter) alter_z = alter – mx
Verteilungsform (SD) der Variablen bleibt erhalten: zentralisierte Variablen haben die gleiche SD wie vor der Zentralisierung.
Aus den beiden zentralisierten Variablen wird das Produkt gebildet.
Anschließend: Berechnung einer multiplen (hierarchischen) Regression mit den beiden Prädiktor/Moderatorvariablen plus dem multiplikativen Term der zentralisierten Prädiktorvariablen.
Z-Standardisierung; Ergebnis: Mittelwert = 0 SD = 1
oder
Zentralisieren von Variablen: (Aiken & West, 1991)
Bei beiden Variablen wird getrennt voneinander der Mittelwert auf 0 gesetzt indem die Abweichungen vom Mittelwert pro Vpn berechnet werden. Bsp.: mx = mean(alter) alter_z = alter – mx
Verteilungsform (SD) der Variablen bleibt erhalten: zentralisierte Variablen haben die gleiche SD wie vor der Zentralisierung.
Aus den beiden zentralisierten Variablen wird das Produkt gebildet.
Anschließend: Berechnung einer multiplen (hierarchischen) Regression mit den beiden Prädiktor/Moderatorvariablen plus dem multiplikativen Term der zentralisierten Prädiktorvariablen.
Tags: VL 10
Quelle:
Quelle:
Moderierte Regression: Was sagt mir eine signifikante Interaktion?
- zunächst einfach „nur“, dass durch die Interaktion der beiden Prädiktorvariablen mehr Varianz in der Kriteriumvariablen erklärt wird als durch die beiden Prädiktorvariablen zusammengenommen
- Betrachtung (und Berechnung) der „single slopes“ erklärt die „Richtung“ des Interaktionseffektes
- Betrachtung (und Berechnung) der „single slopes“ erklärt die „Richtung“ des Interaktionseffektes
Tags: Regressionsanalyse, VL 10
Quelle:
Quelle:
Kann man eine moderierte Regression auch durchführen, wenn eine der Prädiktorvariablen dichotom ist („dummy Variable“)? Nenne ein Beispiel.
JA!
Kriterium: Gedächtniswert
Prädiktoren: Umgebungskontext (mit Fernseher/ohne Fernseher)
Aufmerksamkeitsleistung; (Umgebung * Aufmerksamkeit)
Design:
– 100 Vpn, Kriteriumvariable: Score in einem Gedächtnistest
– 2 Gruppen (jeweils n = 50):
• A) Gedächtnistest während Fernseher läuft
• B) Gedächtnistest in ruhigem Raum
Moderatorvariable: Aufmerksamkeitsleistung (wurde vorher erfasst)
Kriteriumvariable: Score in einem Gedächtnistest
Prädiktorvariable: „Gruppe“ (Fernsehen vs. Ruhe)
Hypothese: Ausprägung der Gedächtnisleistung (Kriterium) wird durch die Gruppenzugehörigkeit (Prädiktor) erklärt; der Effekt der Gruppenzugehörigkeit auf die Gedächtnisleistung wird jedoch durch die generelle Aufmerksamkeitsleistung (Moderator) moderiert.
Kriterium: Gedächtniswert
Prädiktoren: Umgebungskontext (mit Fernseher/ohne Fernseher)
Aufmerksamkeitsleistung; (Umgebung * Aufmerksamkeit)
Design:
– 100 Vpn, Kriteriumvariable: Score in einem Gedächtnistest
– 2 Gruppen (jeweils n = 50):
• A) Gedächtnistest während Fernseher läuft
• B) Gedächtnistest in ruhigem Raum
Moderatorvariable: Aufmerksamkeitsleistung (wurde vorher erfasst)
Kriteriumvariable: Score in einem Gedächtnistest
Prädiktorvariable: „Gruppe“ (Fernsehen vs. Ruhe)
Hypothese: Ausprägung der Gedächtnisleistung (Kriterium) wird durch die Gruppenzugehörigkeit (Prädiktor) erklärt; der Effekt der Gruppenzugehörigkeit auf die Gedächtnisleistung wird jedoch durch die generelle Aufmerksamkeitsleistung (Moderator) moderiert.
Tags: Regressionsanalyse, VL 10
Quelle:
Quelle:
Was bringt bei diesem Design (moderierte Regression mit dichotomer Mod./Präd.-Variablen) eine moderierte Regression mehr als t-Test plus Korrelation?
mit t-Test +Korrelation: nur Aussagen über den Gruppenunterschied und über den Zusammenhang zwischen den beiden Variablen (Kriterium und Moderatorvariable) möglich. Keine Aussagen über die Interaktion zwischen Gruppenzugehörigkeit und Moderatorvariable möglich
Tags: Regressionsanalyse, VL 10
Quelle:
Quelle:
Was ist die erste Frage im "Entscheidungsbaum"?
Wie verfährt man bei diesem Schritt weiter?
Wie verfährt man bei diesem Schritt weiter?
Zusammenhangs- oder Unterschiedshypothese?
– Bei Zusammenhangshypothese: Korrelationsverfahren
– Bei Unterschiedshypothese: t-Tests, Varianzanalysen
– Bei Zusammenhangshypothese: Korrelationsverfahren
– Bei Unterschiedshypothese: t-Tests, Varianzanalysen
Tags: Entscheidungsbaum, VL 11
Quelle:
Quelle:
Wonach richtet man sich, um zu erfahren, welches Korrelationsverfahren angewendet werden muss?
Tabelle nach Skalenniveaus.
Tags: VL 11
Quelle:
Quelle:
Entscheidungsbaum bei Unterschiedshypothesen: Was ist die erste Frage?
Wie ist das Skalenniveau der abhängigen Variable?:
- nominal: Chi-Quadrat Test
- metrisch oder ordinal:
- 2 Gruppen (z.B. Männer/Frauen; t-Tests und verwandte Tests)
- mehr als 2 Gruppen (z.B. 3 Bedingungen in einem Experiment)
- mehr als 2 Faktoren (können zwei, aber auch mehr Stufen/
Gruppen haben) werden gleichzeitig betrachtet (ermöglicht
Interaktionsanalysen)
siehe Tabellen VL 11, S.6-8
- nominal: Chi-Quadrat Test
- metrisch oder ordinal:
- 2 Gruppen (z.B. Männer/Frauen; t-Tests und verwandte Tests)
- mehr als 2 Gruppen (z.B. 3 Bedingungen in einem Experiment)
- mehr als 2 Faktoren (können zwei, aber auch mehr Stufen/
Gruppen haben) werden gleichzeitig betrachtet (ermöglicht
Interaktionsanalysen)
siehe Tabellen VL 11, S.6-8
Tags: Vl 11
Quelle:
Quelle:
Sie haben eine empir. Untersuchung durchgeführt (z.B. Experim., Fragebogenstudie) und in diesem Rahmen Daten erhoben. Was sind die 6 Schritte für eine prototypische Vorgehensweise zur Datenanalyse?
1. Eingabe der Daten in SPSS
2. Despkriptive Analysen
3. Vorbereitung der Inferenzstatistik
a) standardisierter Fragebogen
b) ad-hoc-Fragebogen
4. Inferenzstatistik
5. Regressionsanalyse
6. Clusteranalyse
2. Despkriptive Analysen
3. Vorbereitung der Inferenzstatistik
a) standardisierter Fragebogen
b) ad-hoc-Fragebogen
4. Inferenzstatistik
5. Regressionsanalyse
6. Clusteranalyse
Tags: VL 11
Quelle:
Quelle:
Wie sieht Schritt 1 bei der prototypischen Vorgehensweise zur Datenanalyse genauer aus?
1. Schritt: Eingabe der Daten in SPSS und Datenprüfung
- Wenn Nutzung eines paper-pencil Fragebogens:
bei der Eingabe in SPSS kann es zu Fehlern kommen
-> Minima & Maxima angeben lassen (z.B., dass fälschlicherw. eine 33 statt einer 3 eingeg. wurde)
- Wenn Nutzung eines paper-pencil Fragebogens:
bei der Eingabe in SPSS kann es zu Fehlern kommen
-> Minima & Maxima angeben lassen (z.B., dass fälschlicherw. eine 33 statt einer 3 eingeg. wurde)
Tags: VL 11
Quelle:
Quelle:
Wie sieht Schritt 2 bei der prototypischen Vorgehensweise zur Datenanalyse genauer aus?
Deskriptive Analysen
- Je nach Fragestellung empfiehlt sich eventuell zu Beginn, eine Übersicht* über das generelle (Antwort)verhalten, unabhg. von evtl. variierten Bedingungen, zu erhalten
- Dazu werden Häufigkeiten (bei nominalen Variablen) oder Mittelwerte und Standardabweichungen (bei metrischen Variablen) angegeben
*Um eine Übersicht über den Zusammenhang zwischen den erhobenen Variablen zu erhalten, können Korrelationsverfahren genutzt werden
- Je nach Fragestellung empfiehlt sich eventuell zu Beginn, eine Übersicht* über das generelle (Antwort)verhalten, unabhg. von evtl. variierten Bedingungen, zu erhalten
- Dazu werden Häufigkeiten (bei nominalen Variablen) oder Mittelwerte und Standardabweichungen (bei metrischen Variablen) angegeben
*Um eine Übersicht über den Zusammenhang zwischen den erhobenen Variablen zu erhalten, können Korrelationsverfahren genutzt werden
Tags: VL 11
Quelle:
Quelle:
Wie sieht Schritt 3(mit Fall a) bei der prototypischen Vorgehensweise zur Datenanalyse genauer aus?
Vorbereitung der Inferenzstatistik
Wenn in einem Fragebogen Skalen genutzt werden (Gruppen von Items, die zu einem bestimmten Bereich Auskunft geben sollen, z.B. Motive zur Fernsehnutzung, Persönlichkeitseigenschaften), sollten diese vor Beginn der Analysen verdichtet werden
Fall A: standardisierter Fragebogen
- es handelt sich um einen standardisierten Fragebogen, für den eine Auswertungsanweisung vorliegt (z.B. Neo-FFI zur Messung von Persönlichkeit), d.h. es wurde in vorherig. Studien festgestellt, welche Items zu welchem Faktor gehören
Mittelwert- oder Summenbildung für jede Dimension/Subskala
Wenn in einem Fragebogen Skalen genutzt werden (Gruppen von Items, die zu einem bestimmten Bereich Auskunft geben sollen, z.B. Motive zur Fernsehnutzung, Persönlichkeitseigenschaften), sollten diese vor Beginn der Analysen verdichtet werden
Fall A: standardisierter Fragebogen
- es handelt sich um einen standardisierten Fragebogen, für den eine Auswertungsanweisung vorliegt (z.B. Neo-FFI zur Messung von Persönlichkeit), d.h. es wurde in vorherig. Studien festgestellt, welche Items zu welchem Faktor gehören
Mittelwert- oder Summenbildung für jede Dimension/Subskala
Tags: VL 11
Quelle:
Quelle:
Wie sieht Schritt 3(mit Fall b) bei der prototypischen Vorgehensweise zur Datenanalyse genauer aus?
Vorbereitung der Inferenzstatistik
Fall B: ad-hoc Fragebogen
- Da kein standardisierter Fragebogen vorlag, haben Sie einen ad-hoc Fragebogen mit z.B. 20 Items zusammengestellt (z.B. zur Wirkung von 3D-Filmen)
- Die Auswertung nicht auf Basis der Einzelitems (wäre besonders nachteilig wenn Berücksichtigung als moderierende Variable, z.B. Motive der Internetnutzung)
- zunächst Faktorenanalyse (Items werden zu wenigen Faktoren zusammenfasst)
- Durchführung einer explorativen Faktorenanalyse
- Üblich: Hauptkomponentenanalyse mit Varimax Rotation
- Zunächst Eigenwertkriterium nutzen, um Faktorenanzahl bestimmen zu lassen
- Ergeben sich keine semantisch sinnvollen/eindeutig benennbaren Faktoren, andere
Faktorenanzahl ausprobieren (z.B. aufgrund Screeplot)
- Die Faktorenlösung auf Konsistenz überprüfen
- Erfordernis: für alle Faktoren ein Cronbach´s Alpha >0.7
- dann Abspeicherung der Faktoren als Faktorwerte und damit weiterrechnen
- bei Faktoren <0.7: so lange die am schlechtesten zum Faktor beitragenden Items
entfernen, bis der Wert bei neuem Rechnen der Faktorenanalyse o.k. ist (dann s.o.)
Fall B: ad-hoc Fragebogen
- Da kein standardisierter Fragebogen vorlag, haben Sie einen ad-hoc Fragebogen mit z.B. 20 Items zusammengestellt (z.B. zur Wirkung von 3D-Filmen)
- Die Auswertung nicht auf Basis der Einzelitems (wäre besonders nachteilig wenn Berücksichtigung als moderierende Variable, z.B. Motive der Internetnutzung)
- zunächst Faktorenanalyse (Items werden zu wenigen Faktoren zusammenfasst)
- Durchführung einer explorativen Faktorenanalyse
- Üblich: Hauptkomponentenanalyse mit Varimax Rotation
- Zunächst Eigenwertkriterium nutzen, um Faktorenanzahl bestimmen zu lassen
- Ergeben sich keine semantisch sinnvollen/eindeutig benennbaren Faktoren, andere
Faktorenanzahl ausprobieren (z.B. aufgrund Screeplot)
- Die Faktorenlösung auf Konsistenz überprüfen
- Erfordernis: für alle Faktoren ein Cronbach´s Alpha >0.7
- dann Abspeicherung der Faktoren als Faktorwerte und damit weiterrechnen
- bei Faktoren <0.7: so lange die am schlechtesten zum Faktor beitragenden Items
entfernen, bis der Wert bei neuem Rechnen der Faktorenanalyse o.k. ist (dann s.o.)
Tags: VL 11
Quelle:
Quelle:
Wie sieht Schritt 4 bei der prototypischen Vorgehensweise zur Datenanalyse genauer aus?
Inferenzstatistik
- Wenn es eine Unterschiedshypothese oder eine entsprechende
Fragestellung gibt, werden diese nun geprüft
- dazu werden (je nach Hypothese/Fragestellung) entweder t-Test,
ein- oder mehrfaktorielle Varianzanalyse, Varianzanalyse mit
Messwdh. oder Chi2-Test (je nach Skalenniveau) genutzt
- vgl. Entscheidungsbaum
- moderierende Variablen
- wenn metrisch als Kovariate (z.B. Motive der Mediennutzung),
- wenn nominal als weiterer fester Faktor (UV) in einer mehrfakt. VA
(z.B. Geschlecht)
- Soll eine metr. Variable als fester Faktor genutzt werden, muss
sie vorher in wenige Gruppen aufgeteilt werden (entweder durch
Mediansplit oder Einteilung in 4 Gruppen durch visuelle
Klassierung) – z.B. Personen, die eine höhere/niedrigere Intelligenz aufweisen
- Wenn es eine Unterschiedshypothese oder eine entsprechende
Fragestellung gibt, werden diese nun geprüft
- dazu werden (je nach Hypothese/Fragestellung) entweder t-Test,
ein- oder mehrfaktorielle Varianzanalyse, Varianzanalyse mit
Messwdh. oder Chi2-Test (je nach Skalenniveau) genutzt
- vgl. Entscheidungsbaum
- moderierende Variablen
- wenn metrisch als Kovariate (z.B. Motive der Mediennutzung),
- wenn nominal als weiterer fester Faktor (UV) in einer mehrfakt. VA
(z.B. Geschlecht)
- Soll eine metr. Variable als fester Faktor genutzt werden, muss
sie vorher in wenige Gruppen aufgeteilt werden (entweder durch
Mediansplit oder Einteilung in 4 Gruppen durch visuelle
Klassierung) – z.B. Personen, die eine höhere/niedrigere Intelligenz aufweisen
Tags: VL 11
Quelle:
Quelle:
Wie sieht Schritt 5 bei der prototypischen Vorgehensweise zur Datenanalyse genauer aus?
Regressionsanalyse
- abschließend kann eine Regressionsanalyse durchgeführt werden (bzw. je nach Fragestellung wird direkt eine Regressionsanalyse durchgeführt)
- wenn sich theoretisch ein Modell über den Zusammenhang
zwischen den Variablen ableiten lässt
oder
- um die Relation der Variablen untereinander zu klären
- schrittweise Regressionsanalyse (explorativen Charakter)
- hierarchische Analyse, wenn ein Modell oder theor. abgeleitete
Hypothesen vorhanden
- die moderierte Regression kann durchgeführt werden, wenn
zusätzlich Wissen/Modell darüber besteht, dass zwei Variablen
miteinander interagieren
- abschließend kann eine Regressionsanalyse durchgeführt werden (bzw. je nach Fragestellung wird direkt eine Regressionsanalyse durchgeführt)
- wenn sich theoretisch ein Modell über den Zusammenhang
zwischen den Variablen ableiten lässt
oder
- um die Relation der Variablen untereinander zu klären
- schrittweise Regressionsanalyse (explorativen Charakter)
- hierarchische Analyse, wenn ein Modell oder theor. abgeleitete
Hypothesen vorhanden
- die moderierte Regression kann durchgeführt werden, wenn
zusätzlich Wissen/Modell darüber besteht, dass zwei Variablen
miteinander interagieren
Tags: VL 11
Quelle:
Quelle:
Wie sieht Schritt 6 bei der prototypischen Vorgehensweise zur Datenanalyse genauer aus?
Clusteranalyse
- Wenn man eine Typologie entwickeln will (z.B. eine Typologie
von Internetnutzern) - Etwa um durch eine solche Typologie zusätzliche Varianz in
Varianzanalysen aufzuklären
- Bildung von Gruppen von PERSONEN
- basierend auf mehreren unkorrelierten und z-standard. (metr.n &
nom.) Variablen
- Variablen sollten theoriebasiert ausgewählt werden
- möglich ist eine hierarchische Clusteranalyse oder ein
partitionierendes Verfahren (Clusterzentrenanalyse)
- Zugehörigkeit jeder Pers. zu einem Cluster wird in einer neuen
Variable angegeben
- die Clusterzugehörigkeit kann dann als UV oder zweiter fester
Faktor zur zusätzlichen Aufklärung von Varianz genutzt werden
- Anwendung eher selten, vorherige Verfahren werden stärker genutzt
- Wenn man eine Typologie entwickeln will (z.B. eine Typologie
von Internetnutzern) - Etwa um durch eine solche Typologie zusätzliche Varianz in
Varianzanalysen aufzuklären
- Bildung von Gruppen von PERSONEN
- basierend auf mehreren unkorrelierten und z-standard. (metr.n &
nom.) Variablen
- Variablen sollten theoriebasiert ausgewählt werden
- möglich ist eine hierarchische Clusteranalyse oder ein
partitionierendes Verfahren (Clusterzentrenanalyse)
- Zugehörigkeit jeder Pers. zu einem Cluster wird in einer neuen
Variable angegeben
- die Clusterzugehörigkeit kann dann als UV oder zweiter fester
Faktor zur zusätzlichen Aufklärung von Varianz genutzt werden
- Anwendung eher selten, vorherige Verfahren werden stärker genutzt
Tags: VL 11
Quelle:
Quelle:
Was kritisiert Gigerenzer 2004 in seinem Text "mindless statistics"?
Was ist mit Null-Ritual gemeint? Wer war noch gegen dieses Verfahren?
Was ist mit Null-Ritual gemeint? Wer war noch gegen dieses Verfahren?
Er kritisiert, dass alle Forscher das so genannte „Null-Ritual“ anwenden, ohne es kritisch zu hinterfragen:
"Statistische Rituale verdrängen das statistische Denken in den Sozialwissenschaften."
... und das, obwohl die Statistik-Entwickler sich das eigentlich anders gedacht hatten...
Außerdem ist Girenzer der Meinung, dass Beurteilen nicht willkommen ist.
Null-Ritual: das Nullhypothesen-Testen.
- stelle eine statistische Nullhypothese ("kein Hauptunterschied", "keine Korrelation.")
- spezifiziere nicht die Vorhersagen deiner Untersuchungshypothese
oder irgendeiner stichhaltigen Alternativhypothese
- Nutze 5% als Begrenzung um 'die Null' zu widerlegen
- Falls signifikant, akzeptiere deine Untersuchungshypothese.
- weise dein Ergebnis als p<0.05 oder p<0.01 oder p<0.001 aus,
welches auch immer als nächstes am erhaltenen p-Wert dran ist
- nutze immer diese Vorgehensweise
weitere Gegner: Neyman und Pearson
"Statistische Rituale verdrängen das statistische Denken in den Sozialwissenschaften."
... und das, obwohl die Statistik-Entwickler sich das eigentlich anders gedacht hatten...
Außerdem ist Girenzer der Meinung, dass Beurteilen nicht willkommen ist.
Null-Ritual: das Nullhypothesen-Testen.
- stelle eine statistische Nullhypothese ("kein Hauptunterschied", "keine Korrelation.")
- spezifiziere nicht die Vorhersagen deiner Untersuchungshypothese
oder irgendeiner stichhaltigen Alternativhypothese
- Nutze 5% als Begrenzung um 'die Null' zu widerlegen
- Falls signifikant, akzeptiere deine Untersuchungshypothese.
- weise dein Ergebnis als p<0.05 oder p<0.01 oder p<0.001 aus,
welches auch immer als nächstes am erhaltenen p-Wert dran ist
- nutze immer diese Vorgehensweise
weitere Gegner: Neyman und Pearson
Tags: kritische Reflektion, VL 11
Quelle:
Quelle:
Was kritisierte Sir Ronald A. Fisher bereits 1956 speziell an der Statistik?
Was sind weitere Kritikpunkte zur Statistik allgemein?
Was sind weitere Kritikpunkte zur Statistik allgemein?
"Kein Wissenschaftler hat ein feststehendes Signifikanzlevel, auf das er sich über Jahre hinweg in allen Umständen zurückbezieht und daraufhin Hypothesen ablehnt. Er setzt sich besser mit jedem einzelnen Fall auseinander, im Lichte seiner Belege und Ideen."
frei übersetzt^^
- Lehrbücher und Curricula berücksichtigten nicht die gesamte „Toolbox“ -> deskriptive Statistik, Tukey’s explorative Methoden, Bayes´sche Statistik, Neyman- Pearson-Entscheidungstheorie und Wald’s sequentielle Analyse
- statt dessen wird ausschließlich das „Null-Ritual“ gelehrt
frei übersetzt^^
- Lehrbücher und Curricula berücksichtigten nicht die gesamte „Toolbox“ -> deskriptive Statistik, Tukey’s explorative Methoden, Bayes´sche Statistik, Neyman- Pearson-Entscheidungstheorie und Wald’s sequentielle Analyse
- statt dessen wird ausschließlich das „Null-Ritual“ gelehrt
Tags: VL 11
Quelle:
Quelle:
Fisher hat das Nullhypothesen-Testen erfunden, sieht es aber kritisch. Warum?
- ursprüngl. Fassung: Nullhypothese war nicht zwingend die These, die keinen Unterschied postulierte, sondern irgendeine inhaltliche These, die widerlegt werden konnte
- damals wurde kein konstanter Level von .05 vorgeschlagen
- Nullhypothesen Testen wurde sogar von Fischer als die primitivste statistische Vorgehensweise empfunden und sollte nur für Probleme gewählt werden, über die wenig der kein Wissen vorliegt
- damals wurde kein konstanter Level von .05 vorgeschlagen
- Nullhypothesen Testen wurde sogar von Fischer als die primitivste statistische Vorgehensweise empfunden und sollte nur für Probleme gewählt werden, über die wenig der kein Wissen vorliegt
Tags: VL 11
Quelle:
Quelle:
Wie zeigte Gigerenzer, dass p-Werte oft falsch interpretiert werden?
- Fragebogen an Statistikdozenten u. Studierende, die die Statistikprüfung bestanden hatten (an 6 dt. Unis).
„You compare the means of your control and experimental groups (say 20 subjects in each sample). You use a simple independent means t-test and your result is significant (t = 2.7, d.f. = 18, p = 0.01). Please mark each of the statements below as “true” or “false.” “
- der p-Wert bedeutet: die Wahrscheinlichk., dass die erhaltenen Daten (oder extremere Werte) gefunden werden, unter der H0
- 1 & 3 falsch, da ein Signifikanztest niemals Hypothesen endgültig verwerfen oder bestätigen kann
- 2 & 4 falsch, da der Signifikanzwert nicht die Wahrscheinlichk. für eine Hypothese angibt (das könnten nur Bayes´sche Verfahren), 5 macht letztlich dieselbe Behauptung wie 2 und ist daher auch falsch → Auch Aussage 6 ist falsch
- 90% auch der Dozenten glaubten, dass mind. eine der Aussagen stimmt
- die Aussagen 5 und 6 wurden am ehesten geglaubt
- Insgesamt wurde die Aussagekraft des p-Wertes überschätzt
- Laut Gigerenzer wird das null-Ritual nur durch diese Illusion über die Aussagekraft des p-Wertes aufrecht erhalten
„You compare the means of your control and experimental groups (say 20 subjects in each sample). You use a simple independent means t-test and your result is significant (t = 2.7, d.f. = 18, p = 0.01). Please mark each of the statements below as “true” or “false.” “
- der p-Wert bedeutet: die Wahrscheinlichk., dass die erhaltenen Daten (oder extremere Werte) gefunden werden, unter der H0
- 1 & 3 falsch, da ein Signifikanztest niemals Hypothesen endgültig verwerfen oder bestätigen kann
- 2 & 4 falsch, da der Signifikanzwert nicht die Wahrscheinlichk. für eine Hypothese angibt (das könnten nur Bayes´sche Verfahren), 5 macht letztlich dieselbe Behauptung wie 2 und ist daher auch falsch → Auch Aussage 6 ist falsch
- 90% auch der Dozenten glaubten, dass mind. eine der Aussagen stimmt
- die Aussagen 5 und 6 wurden am ehesten geglaubt
- Insgesamt wurde die Aussagekraft des p-Wertes überschätzt
- Laut Gigerenzer wird das null-Ritual nur durch diese Illusion über die Aussagekraft des p-Wertes aufrecht erhalten
Tags: VL 11
Quelle:
Quelle:
Was hat Gigerenzer mit seiner Kritik erreicht?
- Durch Kritik an dem Verfahren (unter anderem von Gigerenzer) hat sich das Vorgehen gewandelt: es müssen nun auch deskriptive Ergebnisse berichtet werden (Mittelwerte, Standardfehler, Standardabweichungen, Konfidenzintervalle)
- Laut Gigerenzer ist eine gute Dokumentation der deskriptiven Ergebnisse unverzichtbar
- Auch Effektstärken werden mehr und mehr berichtet, weil sie aussagekräftiger sind
- Laut Gigerenzer ist eine gute Dokumentation der deskriptiven Ergebnisse unverzichtbar
- Auch Effektstärken werden mehr und mehr berichtet, weil sie aussagekräftiger sind
Tags: VL 11
Quelle:
Quelle:
Kartensatzinfo:
Autor: P-H-I-L
Oberthema: Statistik
Thema: Inferenzstatistik
Veröffentlicht: 13.04.2010
Schlagwörter Karten:
Alle Karten (167)
Chi-Quadrat-Test (12)
Clusteranalyse (21)
Effektstärke (2)
Kruskal-Wallis (4)
Regressionsanalyse (24)
Tutorium (2)
Übung (6)
Varianzanalyse (68)
VL 09 (17)
VL 10 (15)
Vl 10 (2)
VL 11 (15)
Vl 11 (1)
VL03 (14)
VL04 (22)
VL05 (11)
VL06 (2)
VL07 (11)
VL08 (21)