Was gehört zum Qualitätsprofil für Psycholog(inn)en" im Fach Psychologischer Diagnostik (17)?
- Profunde Kenntnisse über Konzepte und Regeln der Gesprächsführung in Bezug auf die "Sammlung der typischerweise mit dem gegebenen Sachverhalt in Verbindung stehenden Informationen" (u.a. Projektion, Gegenübertragung, Reaktanz)
- Fertigkeit, umgangssprachlich formulierte Fragestellungen (Untersuchungsanlässe; Aufträge) in psychologische Fragen umzuformulieren (Herausarbeitung eindeutig zu beantwortender diagnostischer Fragestellungen mit Hilfe entscheidungsorientierter Gesprächsführung).
- Fertigkeit, je diagnostischer Fragestellung ein Anforderungsprofil auszuarbeiten.
- Verfügbarkeit eines Kompendiums allgemeiner Bedingungszusammenhänge möglicher, den Untersuchungsanlass (mit-)beeinflussender Faktoren zur dementsprechenden Hypothesenbildung und -abklärung
- Detailkenntnisse von psychologisch-diagnostischen Verfahren (z.B. Tests) der Psychologischen Diagnostik ("state of the art")
- Qualifikation zur selbständigen Kompetenzgewinnung in der Anwendung neuer bzw. spezieller psychologische-diagnostischen Verfahren (z.B. Tests)
- Beherrschung der wissenschaftlich fundierten Richtlinien bei der Beurteilung der Qualität psychologisch-diagnostischer Verfahren.
- Ansprechende Routine in der Administration psychologisch-diagnostischer Verfahren (Einzeltestung, Gruppentestung, Computerdiagnostik)
- Kenntnis der rechtlichen Rahmenbedingungen psychologischen Diagnostizierens (Datenschutz, ethische Richtlienien,...)
- Kenntnis der spezieller Testbedingungen spezieller Populationen (Kleinkinder, etc.)
- Objektivität in der Darstellung von Ergebnissen (strikte Trennung zur Interpretation)
- Kompetenz in der Interpretation psychologisch-diagnostischer Ergebnisse sowie in der Umsetzung in psychologische Fachgutachten (Auflösen vermeintlicher Widersprüche, Integration diverser Sachverhalte und Einzelergebnisse).
- Kenntnis der psychohygienischen Versorgungsinstitutionen samt deren Angeboten in Bezug auf psychologische Behandlungsmöglichkeiten
- Kenntnis der Bildungsinstitutionen
- Profunde Kenntnis über Konzepte und Regeln in der Präsentation psychologisch-diagnostischer Ergebnisse (Gesprächsführung zur Übermittlung von Katastrophennachrichten)
- Kompetenz zur adressatengemäßgen Diktion bei der Gutachtenerstellung (z.B. sachliche Umschreibung von Fachtermini)
- Kompetenz zur Abfassung psychologischer Gutachten in einer Art und Weise, dass die Fragestellung eindeutig beantwortet wird, ein Maßnahmenvorschlag getroffen wird und die getroffene Schlussfolgerung für Fachkollegen nachvollziehbar sind.
Tags: Diagnostik, Profil, Psychologe
Quelle: S2
Quelle: S2
Wie lässt sich das "Psychologisches Diagnostizieren" definieren (2 Definitionen)?
Psychologisches Diagnostizieren ist ein Prozess, der unter Zuhilfenahme besonderer Verfahren zielgerichtete Informationen über die psychischen Merkmale von einem (oder mehreren) Menschen gewinnen will.
Dieser Prozess bezieht sich auf
2. Definition: Psychologisches Diagnostizieren ist die wissenschaftliche Disziplin ("Lehrfach"), die psychologisches Diagnostizieren für die Praxis vorbereitet.
Weitere Infos:
Das Teilgebiet der Psychologie, dass sich mit der Theorie, der Konstruktion und der Analyse von Diagnostikverfahren befasst, ist die Psychologische Diagnostik.
In der traditionellen Einteilung der psychologischen Teilfächer ist die Diagnostik eng verwandt mit der differentiellen Psychologie.
Dieser Prozess bezieht sich auf
- Klärung der Fragestellung,
- Auswahl der einzusetzenden Verfahren,
- Anwendung und Auswertung dieser Verfahren
- Interpretation und Gutachtenerstellung,
- Festsetzen der Intervention (des Maßnahmenvorschlags).
2. Definition: Psychologisches Diagnostizieren ist die wissenschaftliche Disziplin ("Lehrfach"), die psychologisches Diagnostizieren für die Praxis vorbereitet.
Weitere Infos:
Das Teilgebiet der Psychologie, dass sich mit der Theorie, der Konstruktion und der Analyse von Diagnostikverfahren befasst, ist die Psychologische Diagnostik.
In der traditionellen Einteilung der psychologischen Teilfächer ist die Diagnostik eng verwandt mit der differentiellen Psychologie.
Tags: Definition, Diagnostik
Quelle: S7
Quelle: S7
Welche 6 Teilbereiche der Psychologie sind mit der psychologischen Diagnostik verwandt bzw. nutzen diese?
In der traditionellen Einteilung der psychologischen Teilfächer ist die Diagnostik eng verwandt mit der differentiellen Psychologie.
Folgende Teilbereiche nutzen die psychologische Diagnostik:
In diesen Bereichen spielt neben dem "Beschreiben" und "Erkären" besonders das "Messen" psychischer und psychologischer Phänomene eine Rolle.
Folgende Teilbereiche nutzen die psychologische Diagnostik:
- Klinische Psychologie
- Arbeits- und Organisationspsychologie
- Pädagogische Psychologie
- Gesundheitspsychologie
- Forensische Psychologie
In diesen Bereichen spielt neben dem "Beschreiben" und "Erkären" besonders das "Messen" psychischer und psychologischer Phänomene eine Rolle.
Tags: Diagnostik
Quelle: S6
Quelle: S6
Inwiefern beeinflusst das Menschenbild die psychologische Diagnostik?
Je nach Menschenbild, also philosophisch-anthropologischer Annahme, kann das "Psychische" eines Menschen, also seine "Persönlichkeit", als grundsätzlich messbar aufgefasst werden oder, (lediglich) phänomenologisch-betrachtend, als "erschließbar" durch "mitmenschliche Begegnungen". Wichtig ist, dass sich beide Standpunkte ergänzen.
Tags: Diagnostik
Quelle: S6
Quelle: S6
Was ist eine Diagnose? Was ist eine Prognose?
Die Feststellung des Vorhandenseins oder Ausprägungsgrades psychologischer Merkmale (Eigenschaften, Fähigkeiten, Verhaltensweisen, usw.) unter Beachtung bestimmter Kriterien bezeichnet man inder Psychologie als Diagnose.
Diagnostizieren in der Psychologie kann als das Aufstellen und Prüfen "idiographischer" Hypothesen verstanden werden die sich auf konkrete Einzelfälle beziehen.
Bei den Einzelfällen handelt es sich um
Diagnosen sind häufig mit Prognosen verknüpft: Kenn man die ... Eigenschaft ... eines Menschen, so sind unter Umständen Voraussagen über seine künftigen Merkmale, Erfolge bei verschiedenen Ausbildungen oder seine Bewährung bei unterschiedlichen Tätigkeiten möglich.
Diagnostizieren in der Psychologie kann als das Aufstellen und Prüfen "idiographischer" Hypothesen verstanden werden die sich auf konkrete Einzelfälle beziehen.
Bei den Einzelfällen handelt es sich um
- einzelne Personen (Klient, Patient),
- spezifische Gruppen von Personen (Paar, Familie, Schulklasse,...) und
- ganze Organisationen (Betrieb, Behörde, Institution) in Frage.
Diagnosen sind häufig mit Prognosen verknüpft: Kenn man die ... Eigenschaft ... eines Menschen, so sind unter Umständen Voraussagen über seine künftigen Merkmale, Erfolge bei verschiedenen Ausbildungen oder seine Bewährung bei unterschiedlichen Tätigkeiten möglich.
Tags: Diagnostik, Prognose
Quelle: S6
Quelle: S6
Was ist ein psychisches Merkmal?
Obwohl in der Angewandten Statistik, insbesonder innerhalb der Psychologie, die Bezeichnung "Merkmal" (oft auch: Variable) geläufig ist, repräsentiert "psychisches Merkmal" kein verbindlichen terminus technicus.
Hier soll damit ein Oberbegriff gemeint sein von Eigenschaft (englisch: trait) einerseits und Erlebens- und Verhaltensweisen andererseits.
Dabei kann als Eigenschaft einer Person vorläufig vereinfachend verstanden werden: die "Bereitschaft, auf eine funktional äquivalente Klasse von Situationen mit einer funktional äquivalten Klasse von Reaktionen zu antworten." (Psychologie-Lexikon). Insbesondere beinhaltet der Begriff Eigenschaft auch (spezifische) kognitive Fähigkeiten.
Hier soll damit ein Oberbegriff gemeint sein von Eigenschaft (englisch: trait) einerseits und Erlebens- und Verhaltensweisen andererseits.
Dabei kann als Eigenschaft einer Person vorläufig vereinfachend verstanden werden: die "Bereitschaft, auf eine funktional äquivalente Klasse von Situationen mit einer funktional äquivalten Klasse von Reaktionen zu antworten." (Psychologie-Lexikon). Insbesondere beinhaltet der Begriff Eigenschaft auch (spezifische) kognitive Fähigkeiten.
Tags: Eigenschaft, Merkmal, trait
Quelle: S7
Quelle: S7
Was versteht man unter psychologisch-diagnostischer Verfahren (2 Definitionen)?
Ein psychologisch-diagnostisches Verfahren (vereinfacht oft "Tests" genannt) erhebt unter standardisierten Bedingungen eine Informationsstichprobe über einen (oder mehrere) Menschen, indem systematisch erstellte Fragen/Aufgaben interessierende Verhaltensweisen oder psychische Vorgänge auslösen;
Ziel ist es, die fragliche Merkmalsausprägung zu bestimmen.
Definition von Lienert:
"Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung."
(Persönlichkeit lt Lienert: Menge aller psychischer Merkmale eines Menschen)
Ziel ist es, die fragliche Merkmalsausprägung zu bestimmen.
Definition von Lienert:
"Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung."
(Persönlichkeit lt Lienert: Menge aller psychischer Merkmale eines Menschen)
Tags: Definition, Test, Verfahren
Quelle: S10
Quelle: S10
Welche psychologisch-diagnostischen Verfahren (Tests) gibt es (7)?
- Persönlichkeitsfragebogen (wird am häufigsten implizit angenommen)
- Anamneseerhebung: Erfragen der Vorgeschichte der untersuchten Person
- Exploration: Erkunden bestimmter Sachverhalte und Stimmungen mittels qualifizierter Gesprächsführung
- Verhaltensbeobachtung: persönlichkeitsbezogenen Informationsgewinn über die untersuchte Person durch das Wahrnehmen ihrer Aktionen und Reaktionen
Sodann sind zu den psychologisch-diagnostischen Verfahren zu zählen
- Biografisches Inventar: fragt nach grundsätzlich überprüfbaren Informationen aus der Lebensgeschichte einer untersuchten Person, die einen Einblick in deren (leistungsbezogene) Zukunft versprechen.
- Assessment-Center: erfasst die Qualität der Bewältigungsversuche einer Person bei vorgegebenen berufsrelevanten Anforderungen.
- Arbeitsplatzanalyse untersucht die psychologischen Bedingungen und psychischen Voraussetzungen, welche eine bestimmte berufsbezogene Tätigkeit an den Menschen stellt.
Tags: Diagnostik, Verfahren
Quelle: S11
Quelle: S11
Welche ist hinsichtlich der rechtlichen Rahmenbedingungen beim Psychologischen Diagnostizieren zu berücksichtigen?
- Um mit klinischem Klientel arbeiten zu dürfen ist eine postgraduelle Ausbildung zum Klinischen Psychologen und Gesundheitspsychologen notwendig.
- Wichtig ist das Psychologen in der Diagnostik immer auf dem aktuellen wissenschaftlichen Stand arbeiten.
- Allgemein gilt, dass die Erstellung und Verwendung von Gutachten und Untersuchungsberichten von Psychologen größtmögliche sachliche und wissenschaftliche Fundiertheit, Sorgfalt und Gewissenhaftigkeit erfordert.
- Gutachten und Untersuchungsberichte müssen für die Adressaten inhaltlich nachvollziehbar sein.
Reglementierung zum Konsumentenschutz
- Der Konsument (die Testperson) hat die Garantie, fachgemäß psychologische behandelt zu werden.
Tags: Diagnostik, Rechtliche Rahmenbedingungen
Quelle: VO01
Quelle: VO01
Was versteht man unter Verhaltensdisposition?
Grundsätzlich ist zwischen tatsächlichen Verhalten und der "Verhaltensdisposition" einer Person strikt zu unterscheiden.
Dabei ist unter Verhaltensdisposition gerade das präziser zu verstehen, was oft ziemlich abstrakt als Eigenschaft bezeichnet wurde: Bestimmte, einer Person letzlich zuzuschreibende, aber eben nicht direkt beobachtbare Eigenschaft machen - vor allem unter gewissen Bedingungen - bestimmte Verhaltensweisen (Haltungen) mehr oder weniger wahrscheinlich; es besteht eine Disposition, ein "Anlage" dazu, gerade diese Verhaltensweise tatsächlich zu realisieren.
Andere Eigenschaften machen die selben Verhaltensweisen mehr oder weniger unwahrscheinlich.
Unbekannte Größen aller Art können aber dieses Verhalten, diese Handlungen auch (gelegentlich) verhindern. Daraus folgt: Mittels psychologischen Diagnostizieren sind schwerlich konkrete Handlungen vorauszusagen, bestenfalls die grundsätzlich Disposition dazu.
Dabei ist unter Verhaltensdisposition gerade das präziser zu verstehen, was oft ziemlich abstrakt als Eigenschaft bezeichnet wurde: Bestimmte, einer Person letzlich zuzuschreibende, aber eben nicht direkt beobachtbare Eigenschaft machen - vor allem unter gewissen Bedingungen - bestimmte Verhaltensweisen (Haltungen) mehr oder weniger wahrscheinlich; es besteht eine Disposition, ein "Anlage" dazu, gerade diese Verhaltensweise tatsächlich zu realisieren.
Andere Eigenschaften machen die selben Verhaltensweisen mehr oder weniger unwahrscheinlich.
Unbekannte Größen aller Art können aber dieses Verhalten, diese Handlungen auch (gelegentlich) verhindern. Daraus folgt: Mittels psychologischen Diagnostizieren sind schwerlich konkrete Handlungen vorauszusagen, bestenfalls die grundsätzlich Disposition dazu.
Tags: Diagnostik, Verhaltensdisposition
Quelle: S14
Quelle: S14
Was ist die Grundidee der Psychologischen Diagnostik?
Angelehnt an die experimentelle Idee des systematischen Manipulierens geht es in der Psychologischen Diagnostik darum, bei der untersuchten Person Verhalten (Reaktionen, gelegentlich auch Aktionen) zu provizieren.
Dieses provozierte Verhalten stellt eine Verhaltensstichprobe der Menge aller (gegenwärtig möglichen) Verhaltensweisen der Person dar und wird als das Produkt der eigentlich interessierenden, aber latenten Eigenschaft (Verhaltensdisposition) dieser Person aufgefasst bzw. als ein Ergebnis, das durch diese Eigenschaft (mit-)verursacht wurde.
Mittels Umkehrschluss folgt, dass diese Person die interessierende Eigenschaft zu einem bestimmten Ausprägungsgrad haben muss, weil sie eben genau das konkrete Verhalten gezeigt hat. Mit je nach dem unterschiedlich stark eingeschränkter Sicherheit kann schließlich eine Prognose über das typische Verhalten dieser Person in die Zukunft gegeben werden.
Dieses provozierte Verhalten stellt eine Verhaltensstichprobe der Menge aller (gegenwärtig möglichen) Verhaltensweisen der Person dar und wird als das Produkt der eigentlich interessierenden, aber latenten Eigenschaft (Verhaltensdisposition) dieser Person aufgefasst bzw. als ein Ergebnis, das durch diese Eigenschaft (mit-)verursacht wurde.
Mittels Umkehrschluss folgt, dass diese Person die interessierende Eigenschaft zu einem bestimmten Ausprägungsgrad haben muss, weil sie eben genau das konkrete Verhalten gezeigt hat. Mit je nach dem unterschiedlich stark eingeschränkter Sicherheit kann schließlich eine Prognose über das typische Verhalten dieser Person in die Zukunft gegeben werden.
Tags: Diagnostik
Quelle: S15
Quelle: S15
Welche Einstellungen der Öffentlichkeit (Laien) gibt es die den faktischen Möglichkeiten der psychologischen Diagnostik nicht gerecht werden?
- Laienhafte "Gläubigkeit" Eine typische Fehleinschätzung von Laien betrifft die Verbindlichkeit eines Testergebnisses für eine Prognose über einen sehr weit in der Zukunft liegenden Zeitpunkt.(Prognosen sind immer kritisch, aber v.a. für die sehr ferner Zukunft)Eine andere betrifft die "Ehrfurcht", Psychologen könnten mit ihren Verfahren alle Intimitäten einer Person erkennen. Beim psychologischen Diagnostizieren ist regelmäßig die Bereitschaft der untersuchten Person nötig, sich typisch zu verhalten.
- unsachliche Disqualifikation ihrer Relevanz als eine entscheidungsbegründende psychohygienische Methode Es gibt aber auch häufig Skepsis und Vorurteile gegenüber der Psychologischen Diagnostik: - Zweifel an den Theorien der Psychologie,- Zweifel an der Qualität der "Tests",- Zweifel an der Relevanz der "Tests",- Zweifel an der Richtigkeit der Diagnose.Entsprechende Vorbehalte sind je Fall sachlich angebracht und daher jeweils abzuklären.
Tags: Diagnostik, Laien, Voraussetzung
Quelle: S16
Quelle: S16
Welche Arten von Quellen sind hinsichtlich der Reglementierung zum Konsumentenschutz zu unterscheiden?
- Grundsätzlich verankerte Rechten, die "Würde des Menschens" betreffend (sinngemäß in der Europäischen Konvention zum Schutz der Menschenrechte und Grundfreiheiten, konkret genannt im Grundgesetz der BRD)
- gesetzliche Einzelregelungen (thematischer oder "hoheitsgebietlicher" Art),
- berufsordnungsmäßig festgelegte ethische Verpflichtungen im Rang von Vereinssatzungen bzw. Qualitätsstandards von Normungsinstituten,
- fachautorisierte "Apelle".
Tags: Diagnostik, Grundsätze
Quelle: S28
Quelle: S28
Welche Grundsätze (Regelungen) Ausübung des psychologischen Diagnostizieren gibt es im Überblick?
- Berufsordnung der BDP (Berufsverband Deutscher Psychologinnen und Psychologen e.V.) für (freiwillige) Mitglieder
- Berufsbezogene Eignungsbeurteilung: DIN 33430 (Personen die sich dazu verpflichtet haben)
- in AT: Psychologengesetz (allgemeine Grundsätze psychologischen DIagnostizierens)
Die 3 Reglementierungen ergänzen sich einander hervorragend:
- Psychologengesetz und Berufsordnung setzen berufsständigsche ethische Richtlinien fest, die
- DIN 33430 regelt konkret die Anforderungen an Verfahren und deren Einsatz bei der berufsbezogenen Eignungsbeurteilung, wobei sie sich in wesentlichen Teilen auf die bereits angesprochenen Gütekriterien bezieht; damit erhalten diese (endlich) mehr an Gewicht als bloß das eines fachautorisierten Appells.
Tags: Diagnostik, Grundsätze
Quelle: S29
Quelle: S29
Was sind die Berufspflichten der Klinischen Psychologen und Gesundheitspsychologen (Psychologengesetz)?
- §13 (1) Klinische Psychologen und Gesundheitspsychologen haben ihren Beruf nach bestem Wissen und Gewissen und unter Beachtung der Entwicklung der Erkenntnisse der Wissenschaft auszuüben. Diesem Erfordernis ist insbesondere durch den regelmäßigen Besuch von Fortbildungsveranstaltungen zu entsprechen.
- (3) Klinische Psychologen und Gesundheitspsychologen dürfen psychologische Tätigkeiten nur mit der Zustimmung des Behandelten oder seines gesetzlichen Vertreters anwenden.
- (4) Klinische Psychologen und Gesundheitspsychologen sind verpflichtet dem Behandelten oder seinem gesetzlichen Vertreter alle Auskünfte über die Behandlung insbesondere über Art, Umfang und Entgelt, zu erteilen.
- (5) Klinische Psychologen und Gesundheitspsychologen haben sich bei der Ausübung ihres Berufs auf jene psychologischen Arbeitsgebiete und Behandlungsmethoden zu beschränken, auf denen sie nachweislich ausreichende Kenntnisse und Erfahrungen erworben haben.
- §10 (4) Zur Ausübung des psychologischen Berufs berechtigte Personen dürfen psychologische Gutachten nur nach genauer Erhebung der im Gutachten zu beurteilenden Tatsachen nach bestem Wissen und Gewissen ausstellen.
Tags: Grundsätze, Psychologengesetz
Quelle: S30
Quelle: S30
Was sind die wesentlichen ethischen Richtlinien (15) der DGP und BDP?
- Psychologen müssen ihre Klienten/Patienten über alle wesentlichen Maßnahmen und Behandlungsabläufe unterrichten und sich ihre Einwilligung versichern.
- Klienten/Patienten haben das Recht, ohne Gegenwart eines Dritten beraten oder behandelt zu werden.
- Psychologen sind in der Zusammenarbeit mit Angehörigen anderer Berufe loyal, tolerant und hilfsbereit.
- Angestellt oder beamtete Psychologen haben bei Begründung eines Dienstverhältnisses auf ihre eigenverantwortliche Berufsausübung hinzuweisen, insbesondere auf die ihnen kraft Gesetzes obliegende Schweigepflicht.
- Sie haben darauf hinzuweisen, dass ihre persönliche Verantwortung für Patient und Klient Grenzen der dienstlichen und fachlichen Aufsicht über ihre Arbeit bedingen kann und darauf hinzuwirken, dass insbesondere in der heilkundlich-klinischen Psychologie den Psychologen ein weisungsfreier Kernbereich bleibt.
- Sie haben darauf hinzuwirken, dass ethischen Anforderungen zuwiderlaufende und nicht fachgerecht zu erfüllende Aufgaben nicht abverlangt werden können.
- Dem Arbeitgeber soll eine Ausfertigung dieser ethischen Richtlinien übergeben werden.
- Psychologen sind nach §203 StGB verpflichtet, über alle ihnen in Ausübung ihrer Berufstätigkeit anvertrauten und bekannt gewordenen Tatsachen zu schweigen, soweit nicht das Gesetz Ausnahmen vorsieht oder ein bedrohtes Rechtsgut überwiegt.
- Die Schweigepflicht von Psychologen besteht auch gegenüber Familienangehörigen der ihnen anvertrauten Personen.
- Ebenso besteht Schweigepflicht von Psychologen gegenüber ihren Kollegen und Vorgesetzten.
- Psychologen sind verpflichtet, über Beratungen und Behandlungen aussagefähige Aufzeichnungen zu erstellen
- Allgemein gilt, dass die Erstellung und Verwendung von Gutachten und Untersuchungsberichten von Psychologen größtmögliche sachliche und wissenschaftliche Fundiertheit, Sorgfalt und Gewissenhaftigkeit erfordert.
- Gutachten und Untersuchungsberichte müssen für die Adressaten inhaltlich nachvollziehbar sein.
- Psychologen sind gehalten, darauf hinzuwirken, dass die Begutachteten ihre Gutachten bzw. den Untersuchungsbericht auf Wunsch einsehen können, sofern für sie kein gesundheitlicher Schaden zu befürchten ist.
- Falls der Auftrag eine Einsichtnahme von vornherein ausschließt, müssen die Begutachteten vorab davon in Kenntnis gesetzt werden.
Tags: Ethik, Grundsätze
Quelle: S30
Quelle: S30
Was sind Ziele und Qualitätskriterien der DIN 33430?
Die Norm dient
Hinsichtlich der Auswahl, Zusammenstellung, Durchführung, Auswertung und Interpretation der Verfahren fordert die DIN33430, dass
- dem Schutz der Kandidaten vor unsachgemäßer oder missbräuchlicher Anwendung von Verfahren zu Eignungsbeurteilungen,
- Personalverantwortlichen bei der Qualitätssicherung und -optimierung von Personalentscheidungen.
Hinsichtlich der Auswahl, Zusammenstellung, Durchführung, Auswertung und Interpretation der Verfahren fordert die DIN33430, dass
- die zur Eignungsbeurteilung eingesetzten Verfahren auf Grundlage einer Arbeits- und Anforderungsanalyse festgelegt werden,
- für jedes Verfahren (z.B. auch für Interviews und Assessment-Center) ausführliche Verfahrenshinweise (Manuale) vorliegen,
- die Regeln zur Auswertung und Interpretation und Entscheidung vorab festgelegt werden,
- die zur Eignungsbeurteilung herangezogenen Normwerte der Referenzgruppe der Kandidaten entsprechen,
- die Gültigkeit der eingesetzten Verfahren empirisch nachgewiesen ist,
- die Gültigkeit der Normwerte spätestens alle acht Jahre überprüft werden,
- der gesamte Prozess der Eignungsbeurteilung, inklusive der Gütekriterien und Entscheidungsregeln, nachvollziehbar dokumentiert wird.
Tags: Diagnostik, Grundsätze
Quelle: S32
Quelle: S32
Wie ist die rechtliche Verbindlichkeit der DIN 33430?
DIN-Normen haben zunächst keine Rechtsverbindlichkeit. Eine Pflicht zur Anwendung der DIN 33430 gibt es nicht.
Die Einführung und Umsetzung der DIN 33430 ist vollkommen freiwillig. Ein Arbeitgeber muss sie also nicht zwingend anwenden, ein Bewerber kann die Anwendung nicht einfordern. Dennoch kann die DIN33430 verbindlich werden.
Die Einführung und Umsetzung der DIN 33430 ist vollkommen freiwillig. Ein Arbeitgeber muss sie also nicht zwingend anwenden, ein Bewerber kann die Anwendung nicht einfordern. Dennoch kann die DIN33430 verbindlich werden.
- Wenn sich z.B. Auftraggeber und Auftragnehmer vorher die Anwendung der DIN33430 vertraglich festlegen.
- Einen hohen Verbindlichkeitsgrad kann die DIN 33430 durch Betriebsräte erhalten. Nach (deutschem) Betr.VG §95 Absatz 2 kann der Betriebsrat in Unternehmen mit mehr als 400 Mitarbeitern die Aufstellung von Auswahlrichtlinien verlangen.
- Im öffentlichen Dienst kann die DIN 33430 wegen der Möglichkeit einer Konkurrentenklage zum harten Faktor werden.
- ...
Tags: Grundsätze
Quelle: S32
Quelle: S32
Was sind die Gütekriterien psychologisch-diagnostischer Verfahren nach Lienert/Gulliksen im Überblick? Welche Kriterien wurden später ergänzt?
Gütekriterien nach Lienert/Gulliksen
Hauptgütekriterien
Weitere Gütekriterien
Später ergänzte Kriterien
Hauptgütekriterien
- Objektivität
- Reliabilität
- Validität
Weitere Gütekriterien
- Normierung/Eichung
- Ökonomie
- Nützlichkeit
Später ergänzte Kriterien
- Zumutbarkeit
- (Un-)Verfälschbarkeit
- Fairness
- Skalierung (ergibt sich aus der Item-Response-Theorie)
Tags: Diagnostik, Gütekriterien
Quelle: F37, VO02
Quelle: F37, VO02
Was versteht man unter Objektivität? Welche Arten können unterschieden werden?
„Unter Objektivität eines Tests ist zu verstehen, dass die mit ihm gewonnenen Ereignisse unabhängig vom Untersucher sind.“
- Durchführungsobjektivität (Testleiterunabhängigkeit): Fokus auf den Prozess der Durchführung
- Auswertungsobjektivität (Verrechnungssicherheit): Fokus auf die Auswertung
- Interpretationsobjektivität (Interpretationseindeutigkeit): Kommt jeder Testleiter bei den gleichen Ergebnissen zur Interpretation (ist bei der Normierung meist gegeben)
Tags: Objektivität
Quelle: S38, VO02
Quelle: S38, VO02
Was versteht man unter der Testleiterunabhängigkeit? Welche Effekte treten damit im Zusammenhang auf?
(auch Durchführungsobjektivität)
Testleiterunabhängigkeit ist dann gegeben, wenn das Testverhalten der Testperson und damit ihr Testergebnis unabhängig ist von zufälligen oder systematischen Verhaltensvariationen aller denkbaren Testleiter.
„Halo“-Effekt:
Der Beurteiler hat die Tendenz, bei der Beurteilung einer Persönlichkeitseigenschaft sich von einem Gesamteindruck oder einer hervorstechenden Eigenschaft leiten zu lassen.
Einfluss non-verbaler Kommunikation
Darunter fallen
Rosenthal-Effekt:
Infolge manipulierter Einstellungen der „Lehrer“ gelangen zwei grundsätzlich gleiche Gruppen von Versuchsobjekten (Ratten, Schüler) zu unterschiedlichen Leistungen.
(Studie Preusche, 2007 – Untersuchte v.a. den Einfluss vom Geschlecht der Testleiter auf das Ergebnis.)
Beispiel: Das Beet ist 2m lang und 1m breit. Wie lang muss die Schnur mindestens sein, wenn sie zwei Mal um das Beet herum gespannt werden soll?
Durch unterschiedliche Betonung kann der Testperson Hilfestellungen gegeben werden (z.B. Betonung auf „zwei Mal“)
Um dem Entgegenzuwirken sollen z.B. bestimmte Worte die im Manual vorgegeben werden, verwendet werden.
Zeigt den Übungseffekt bzw. Effekte von unterschiedlichen Testleitern
Testleiterunabhängigkeit ist dann gegeben, wenn das Testverhalten der Testperson und damit ihr Testergebnis unabhängig ist von zufälligen oder systematischen Verhaltensvariationen aller denkbaren Testleiter.
„Halo“-Effekt:
Der Beurteiler hat die Tendenz, bei der Beurteilung einer Persönlichkeitseigenschaft sich von einem Gesamteindruck oder einer hervorstechenden Eigenschaft leiten zu lassen.
Einfluss non-verbaler Kommunikation
Darunter fallen
- Körperbewegungen bzw. kinästhetisches Verhalten (Gestik, Körperhaltung, Gesichtsausdruck, Augenbewegung und Kopfhaltung)
- Paralinguistische Qualitäten (Töne und Laute)
- "Proxemics", das ist der soziale bzw. persönliche Abstand gegenüber anderen.
Rosenthal-Effekt:
Infolge manipulierter Einstellungen der „Lehrer“ gelangen zwei grundsätzlich gleiche Gruppen von Versuchsobjekten (Ratten, Schüler) zu unterschiedlichen Leistungen.
(Studie Preusche, 2007 – Untersuchte v.a. den Einfluss vom Geschlecht der Testleiter auf das Ergebnis.)
Beispiel: Das Beet ist 2m lang und 1m breit. Wie lang muss die Schnur mindestens sein, wenn sie zwei Mal um das Beet herum gespannt werden soll?
Durch unterschiedliche Betonung kann der Testperson Hilfestellungen gegeben werden (z.B. Betonung auf „zwei Mal“)
Um dem Entgegenzuwirken sollen z.B. bestimmte Worte die im Manual vorgegeben werden, verwendet werden.
Zeigt den Übungseffekt bzw. Effekte von unterschiedlichen Testleitern
- Fett gedruckte Zahlen sind signifikant
- Letzte Spalte: 1.08 – Übungseffekt von 8% beim selben Testleiter
- Bei den anderen Spalten wurde jeweils bei einem Testleiter und dann beim zweiten Testleiter untersucht. - V.a. beim Untertest Synonyme Finden zeigten sich signifikante Werte.- Der Untertest Synonyme Finden ist ev. nicht nur auf Testleiterunabhängigkeit zurückzuführen, sondern auch auf die VerrechnungssicherheitBeispiel: Was ist ein Synonym für Bergsteigen? Als richtig angegeben im Test ist Klettern – aber was ist wenn das Kind mit Wandern antwortet?- Untertest Funktionen abstrahieren: Was ist das gemeinsame von Gefängnis und Zoo? – Auch hier kann es ev. zu Verrechnungsunsicherheit kommen.
Tags: Objektivität
Quelle: S39, VO02
Quelle: S39, VO02
Was versteht man unter "Verrechnungssicherheit"? Was zeigte die Studie von Hebenstreit (2002)?
(auch Auswertungsobjektivität)
Mit Verrechnungssicherheit ist gemeint, dass die Reglementierung (im Manual eines psychologisch-diagnostischen Verfahrens), wie die einzelnen Testleitungen bzw. -reaktionen auf Items zu numerischen oder kategorialen Testwerten zu verrechnen sind, derart exakt festgelegt ist, dass jeder Auswerter zu denselben Ergebnissen kommt.
Beispiel: Projektive Verfahren
Die Vorgaben zur Bewertung sind häufig nur schwer einzuhalten (z.B. „Fest angedrückter Stift bedeutet….“ – Was bedeutet „fest angedrückt“?)
Gütekriterien sind der Maßstab an dem die Qualität eines Verfahrens gemessen wird.
Freies vs. Multiple Choice Antwortformat
- Die Verrechnungssicherheit ist bei Multiple Choice Tests gegeben.
- Beispiel: Logisch Schlussfolgerndes Denken
Es gibt Personen die das Problem über das Eliminieren von falschen Antworten lösen und nicht über Schlussfolgerndes Denken - Thema Validität
- Offenes Antwortformat: Es gibt häufig Probleme mit der Verrechnungssicherheit.
Studie von Hebenstreit (2002):
3 Beispiele – AID, Test d2, ZVT
AID
Test D2
ZVT-Test
Mit Verrechnungssicherheit ist gemeint, dass die Reglementierung (im Manual eines psychologisch-diagnostischen Verfahrens), wie die einzelnen Testleitungen bzw. -reaktionen auf Items zu numerischen oder kategorialen Testwerten zu verrechnen sind, derart exakt festgelegt ist, dass jeder Auswerter zu denselben Ergebnissen kommt.
Beispiel: Projektive Verfahren
Die Vorgaben zur Bewertung sind häufig nur schwer einzuhalten (z.B. „Fest angedrückter Stift bedeutet….“ – Was bedeutet „fest angedrückt“?)
Gütekriterien sind der Maßstab an dem die Qualität eines Verfahrens gemessen wird.
Freies vs. Multiple Choice Antwortformat
- Die Verrechnungssicherheit ist bei Multiple Choice Tests gegeben.
- Beispiel: Logisch Schlussfolgerndes Denken
Es gibt Personen die das Problem über das Eliminieren von falschen Antworten lösen und nicht über Schlussfolgerndes Denken - Thema Validität
- Offenes Antwortformat: Es gibt häufig Probleme mit der Verrechnungssicherheit.
Studie von Hebenstreit (2002):
3 Beispiele – AID, Test d2, ZVT
- Ergebnisberichte von Studierenden wurden untersucht
- Inwiefern wurden die Tests richtig ausgewertet und normiert/umgerechnet wurden?
AID
- AID, Adaptives Testen; Umwandlung von Testwert in T-Wert
- Der Testwert ist -2,4 – in der T-Wert-Tabelle ist nur -1,8 bis -2,9 – es muss (linear) interpoliert werden.
- Häufig wird von den Anwendern dann nicht interpoliert, sondern nur ein Werte genommen.
- Ergebnis - N=184 Psychologiestudierende im Rahmen der Ü zur Psychologischen Diagnostik- 23 machten Rechenfehler (beim Summieren)- 21 ordneten in der Normtabelle einen falschen Wert (Fähigkeitsparameter) zu- 75 machten Interpolierfehler beim Nachschlagen in der Normtabelle – im Durchschnitt 4,24 solche Fehler bei 13 Testwerten
Test D2
- Konzentrationstest, es sollen möglichst schnell „d“s weggestrichen werden die mit 2 Strichen gekennzeichnet sind.
- Der Test D2 sollten keinen Personen gegeben werden, die Probleme mit Buchstaben haben oder Probleme damit haben Unterschiede visuell festzustellen.
- Verrechnung relativ einfach
- Ergebnis - N=107 Psychologiestudierende- 53 machten Fehler beim Auszählen mittels Schablone
ZVT-Test
- Zahlenverbindungstest (stammt aus der Theorie des Mental Speed)
- Mental Speed korreliert relativ hoch mit Intelligenz (0,8) (Theorie von Roth)
- Auswertung (sehr einfach): Zählen wie weit die Person gekommen ist
- Ergebnis - N=73- 7 machten Rechenfehler (beim Summieren)- 32 ordneten in der Normtabelle einen falschen Wert zu
Tags: Objektivität
Quelle: S43, VO02
Quelle: S43, VO02
Was versteht man unter "Projektive Verfahren"?
Das sind eine Gruppe von psychol. Techniken und Vorgehensweisen, die für sich in Anspruch nehmen, die grundlegende (zugrunde liegende, verborgene) Persönlichkeitsstruktur und die Motive eines Individuums aufzudecken, indem sie das Individuum auffordern, sich mit Material oder Stimuli auseinanderzusetzen oder auf sie zu reagieren in einer freien, nicht festgelegten Weise.
Etwa um die Jahrhundertwende wurde mit dem Ausdruck Projektion die Tendenz eines Individuums bezeichnet, einer anderen Person eigene Gefühle, Gedanken oder Einstellungen zuzuschreiben oder in gewisser Weise die äußere Wirklichkeit als Repräsentanz solcher Gefühle zu betrachten.
(Definition aus "Lexikon der Psychologie")
Etwa um die Jahrhundertwende wurde mit dem Ausdruck Projektion die Tendenz eines Individuums bezeichnet, einer anderen Person eigene Gefühle, Gedanken oder Einstellungen zuzuschreiben oder in gewisser Weise die äußere Wirklichkeit als Repräsentanz solcher Gefühle zu betrachten.
(Definition aus "Lexikon der Psychologie")
Tags: Objektivität, Projektive Verfahren
Quelle: S44
Quelle: S44
Was versteht man unter "Interpretationseindeutigkeit"?
(auch Interpretationsobjektivität)
Die Interpretationseindeutigkeit ist gegeben, wenn aus denselben Auswertungsergebnissen verschiedene "Interpreten" zum selben Schluss gelangen.
Die Interpretationseindeutigkeit ist bei geeichten Tests über die sog. "Prozentränge" jedes Mal erfüllt. Zum Beispiel ist ein als Testwert erreichter Prozentrang von 95% in einem Leistungstest eindeutig dahingehend zu interpretieren, dass nur 5% der sog. "Referenzpopulation" bessere Leistungen zielen.
Dagegen sind projektive Verfahren (fast definitionsgemäß) nicht interpretationseindeutig.
Wichtig: Hier geht es nicht um die Formulierung der Maßnahme (Maßnahmenvorschlag „z.B. der darf die Klasse überspringen“, „der muss zur Psychotherapie“), sondern über die Interpretation des Testrohwerts im Vergleich zur Referenzpopulation.
Eine gegebene Interpretationseindeutigkeit gewährleistet übrigens nicht zwingend die Objektivität der diagnostischen Konsequenzen - "Konsequenzverbindlichkeit". Dies wäre psychologisch auch selten verantwortbar.
Die Interpretationseindeutigkeit ist gegeben, wenn aus denselben Auswertungsergebnissen verschiedene "Interpreten" zum selben Schluss gelangen.
Die Interpretationseindeutigkeit ist bei geeichten Tests über die sog. "Prozentränge" jedes Mal erfüllt. Zum Beispiel ist ein als Testwert erreichter Prozentrang von 95% in einem Leistungstest eindeutig dahingehend zu interpretieren, dass nur 5% der sog. "Referenzpopulation" bessere Leistungen zielen.
Dagegen sind projektive Verfahren (fast definitionsgemäß) nicht interpretationseindeutig.
Wichtig: Hier geht es nicht um die Formulierung der Maßnahme (Maßnahmenvorschlag „z.B. der darf die Klasse überspringen“, „der muss zur Psychotherapie“), sondern über die Interpretation des Testrohwerts im Vergleich zur Referenzpopulation.
Eine gegebene Interpretationseindeutigkeit gewährleistet übrigens nicht zwingend die Objektivität der diagnostischen Konsequenzen - "Konsequenzverbindlichkeit". Dies wäre psychologisch auch selten verantwortbar.
Tags: Objektivität
Quelle: S46, VO02
Quelle: S46, VO02
Was versteht man unter Reliabilität? Wie kann diese bestimmt werden (im Überblick)?
Die Reliabilität eines Tests beschreibt den Grad der Genauigkeit, mit dem er ein bestimmtes psychisches Merkmal misst, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht.
Auch: Messgenauigkeit
Es geht darum ob das Ergebnis exakt ist. Die unter gleichen Bedingungen gemessenen Messwerte ein und derselben Person sollten übereinstimmen.
(theoretische Reproduzierbarkeit - jedoch in Diagnostik nicht halbar (Übungseffekte, Erinnerungseffekte)
(Methoden der Klassischen Testtheorie)
Auch: Messgenauigkeit
Es geht darum ob das Ergebnis exakt ist. Die unter gleichen Bedingungen gemessenen Messwerte ein und derselben Person sollten übereinstimmen.
(theoretische Reproduzierbarkeit - jedoch in Diagnostik nicht halbar (Übungseffekte, Erinnerungseffekte)
- Paralleltest-Reliabilität
- Retest-Reliablität
- innere Konsistenz: split-half-Methode, Spearman-Brown-Formel, Standardmessfehler, Konfidenzintervall
(Methoden der Klassischen Testtheorie)
Tags: Reliabilität, Test
Quelle: S49, VO02
Quelle: S49, VO02
Was ist die Paralleltest-Reliablität?
Die Paralelltest-Realiabilität geht davon aus, dass zwar nicht eine Testwiederholung mit dem ursprünglichen Test möglich ist, jedoch eine mit einer völlig gleichwertigen Nachahmung des Tests (sog. Paralleltest).
Die Korrelation zwischen Test und Paralleltest beschreibt dann das Ausmaß, in dem die Relationen der Testwerte (Messungen) der einzelnen Tpn zueinander kostant bleiben.
Der Haupteinwand gegen diese Methode besteht darin, dass die Klassische Testtheorie größte Probleme hat, Paralleltests überhaupt zu erstellen.
Die Konstruktion mit Hilfe der Item-Response-Theorie ist wesentlich einfach und auch methodisch eindeutig kontrollierbar.
Die Korrelation zwischen Test und Paralleltest beschreibt dann das Ausmaß, in dem die Relationen der Testwerte (Messungen) der einzelnen Tpn zueinander kostant bleiben.
Der Haupteinwand gegen diese Methode besteht darin, dass die Klassische Testtheorie größte Probleme hat, Paralleltests überhaupt zu erstellen.
Die Konstruktion mit Hilfe der Item-Response-Theorie ist wesentlich einfach und auch methodisch eindeutig kontrollierbar.
Tags: Reliabilität
Quelle: S51, VO02
Quelle: S51, VO02
Was versteht man unter der Retest-Reliabilität?
Sinnvoll um zu überprüfen wie Stabil ein Merkmal ist.
Die Idee der kurzfristigen Wiederholung ein und desselben Tests wurde bereits als unrealistische bezeichnet; trotzdem wird die Retest-Reliabilität als eine Methode der Reliabilitätsbestimmung angeführt.
Über einen längeren Zeitraum hinweg, liefert die Korrelation zwischen Test und sog. "Retest" jedoch sehr wohl relevante Information über den Test bzw. die mit ihm gemessene Eigenschaft: In diesem Zusammenhang ist aber dann besser die Bezeichnung "Stabilität" zu verwenden.
Die Idee der kurzfristigen Wiederholung ein und desselben Tests wurde bereits als unrealistische bezeichnet; trotzdem wird die Retest-Reliabilität als eine Methode der Reliabilitätsbestimmung angeführt.
Über einen längeren Zeitraum hinweg, liefert die Korrelation zwischen Test und sog. "Retest" jedoch sehr wohl relevante Information über den Test bzw. die mit ihm gemessene Eigenschaft: In diesem Zusammenhang ist aber dann besser die Bezeichnung "Stabilität" zu verwenden.
Tags: Reliabilität
Quelle: S52, VO02
Quelle: S52, VO02
Was ist die "innere Konsistenz" und wie kann diese überprüft werden?
Die Messgenauigkeit eines Tests wird beurteilt danach, wie sehr seine einzelnen Teile (Items) dasselbe messen.
Die Items müssen also eine bestimmte Homogenität zeigen, dass sie alle das gleiche Messen, da sonst die Testergebnisse stark von Zufälligkeiten abhängen, was die Exaktheit der Messung reduziert.
Methoden zur Überprüfung:
Weitere Methoden (nicht in der VO besprochen):
Die Items müssen also eine bestimmte Homogenität zeigen, dass sie alle das gleiche Messen, da sonst die Testergebnisse stark von Zufälligkeiten abhängen, was die Exaktheit der Messung reduziert.
Methoden zur Überprüfung:
- Split-half-Methode (odd-even): Die Hälfte aller Aufgaben wird verwendet um einen Test zu generieren und die andere Hälfte für einen 2. Test. Die beiden Tests werden dann korreliert.
- Spearman-Brown-Formel: - Bei der Split-Half-Methode wird die Messgenauigkeit nur für einen halben Test bestimmt und mit dieser Formel wird dies auf einen ganzen Test hochgerechnet(Die Indizierung "tt" soll anzeigen, dass der Korrelationskoeffizient zwischen test und test bestimmt wurde.)
- Standardmessfehler Wichtig immer die richtige Standardabweichung (z.B. IQ = 15) heranziehen.
- Konfidenzinterfall (siehe Grafik)
Weitere Methoden (nicht in der VO besprochen):
- Cronbach-alpha: zur Abschätzung der unteren Grenze der Reliabilität; s2 = Varianz des Gesamttests / s1 und s2 Varianzen der beiden Testteile)
- Kuder-Richardson-Formel 20: "Konsistenzanalyse", Ein Test wird in so viele Teile zerlegt wie er Items besitzt. (pi für die geschätzte Lösungswahrscheinlichkeit von Item i, i=1,2,...k)(Die Kuder-Richardson-Formel 20 gilt nur für dichotom zu verrechnete Items und setzt (unrealistischerweise) voraus, dass sämtliche Interkorrelationen gleich sind. .... sonst nur Abschätzung der Reliabilität)
Tags: Reliabilität
Quelle: S52, VO02
Quelle: S52, VO02
Wie groß ist das Konfidenzintervall bei einem Intelligenztest (IQ, ) wenn gilt:
a) (und ).
b) ().
Interpretiere das Ergebnis.
a) (und ).
b) ().
Interpretiere das Ergebnis.
Die Formeln:
Die Berechnung:
a)
b) für
Das heißt, selbst bei hoch reliablen Tests muss mit einer im Vergleich zu physikalischen Messungen (Fieberthermometer) relativ großen Messungenauigkeit gerechnet werden.
Die Berechnung:
a)
b) für
Das heißt, selbst bei hoch reliablen Tests muss mit einer im Vergleich zu physikalischen Messungen (Fieberthermometer) relativ großen Messungenauigkeit gerechnet werden.
Tags: Konfidenzintervall, Reliabilität
Quelle: S54
Quelle: S54
Was versteht man unter Validität im Allgemeinen?
Unter Validität eines Tests ist zu verstehen, dass er tatsächlich jenes Persönlichkeitsmerkmal misst, welches er zu messen behauptet.
Tags: Validität
Quelle: S55
Quelle: S55
Welche verschiedenen Konzepte und Begriffe der Validität können unterschieden werden (im Überblick)?
- Inhaltliche Gültigkeit
- Konstruktvalidität
- Kriteriumsvalidität
Tatsache ist, dass die Validierungsversuche vieler Tests sehr unbefriedigend sind, zumindest was ihre prognostische Validität betrifft!
Tags: Validität
Quelle: S55
Quelle: S55
Was versteht man unter der "inhaltlichen Gültigkeit"? Welche Arten können unterschieden werden? Was ist das Problem der "inhaltlichen Gültigkeit"?
Von "inhaltlicher Gültigkeit" eines Tests ist zu sprechen, wenn dieser selbst, quasi definitionsgemäßg, das optimale Kritierum des interessierenden Merkmals darstellt.
Problem der inhaltlichen Gültigkeit: Man erhält kein konkretes, valides Maß der inhatlichen Gültigkeit.
- Triviale Validität: z.B. Arbeitsprobe zur Textverarbeitung (einen Text abtippen)
- Logische Validität: z.B. Schulleistungstests (Rechenaufgaben die dem Lehrstoff entsprechen)
- Regelgeleitete Itemkonstruktion: Die inhatliche Gültigkeit ist dann gegeben wenn tatsächlich logische Regeln angewendet werden müssen um die Aufgaben zu lösen. (Beispiel Wiener Matrizen Test)
- Expertenrating: jedes einzelne Item wird von Experten dahingehend geprüft, ob es in Bezug auf die gegebene operationale Definition passt. - Validierung eines Intelligenztests für Kinder (Beispielitems: Welcher Tag kommt nach Sonntag? Wieviele Planeten sind in diesem Sonnensystem?) … Jedes Testitem – Ist dies ein notwendiges und wichtiges Wissen? – so gab es z.B. eine große Diskussion bei der Frage zu Planeten.- Problem:Wer sind die Experten? Wie repräsentativ ist die Auswahl der Experten – Lehrer, Pädagogen, Eltern, Psychologen … - sehr häufig werden Psychologiestudenten eingesetzt (problematisch)Wie erfolgt die Qualifikation von Experten?
Problem der inhaltlichen Gültigkeit: Man erhält kein konkretes, valides Maß der inhatlichen Gültigkeit.
Tags: Validität
Quelle: S55, VO03
Quelle: S55, VO03
Was ist der Zusammenhang zwischen inhaltlicher Gültigkeit (trivialer + logischer Validität) und Augenscheinvalidität?
Inhaltliche Gültigkeit != Augenscheinvalidität
Augenscheinvalidität meint, dass der TP augenscheinlich klar ist, was mit dem Test zu messen beabsichtigt wird; sie durchschaut die Messintention. … nicht: dass der Test augenscheinlich valide ist.
Augenscheinvalidität meint, dass der TP augenscheinlich klar ist, was mit dem Test zu messen beabsichtigt wird; sie durchschaut die Messintention. … nicht: dass der Test augenscheinlich valide ist.
- Nachteil Augenscheinvalidität: Verfälschbarkeit hinsichtlich sozialer Erwünschtheit
- Vorteil Augenscheinvalidität: Es gibt Personen die nicht gerne getestet werden möchten (z.B. Manger). Beispiel Auswahl von Justizanstaltsleiter – Bewerber weigerten sich die Tests durchzuführen). Wenn die Personen jedoch genau Wissen was getestet wird, kann die Bereitschaft erhöht werden.
Tags: Augenscheinvalidität, Validität
Quelle: VO03
Quelle: VO03
Was versteht man unter "ökologischer Validität"?
Unter ökologischer Validität versteht man, dass das psychologische Diagnostizieren den Anforderungen der „natürlichen Lebensbedingungen“ entspricht.
Es geht also um die Beschreibung und „Funktionsanalyse“ des Menschen unter seinen natürlichen Alltagsbedingungen.
Beispiel: Es gibt 2 Möglichkeiten um den Arbeitsstil einer Testperson zu überprüfen (z.B. impulsives Arbeitsverhalten (Vorteil: schnelle Entscheidung, Nachteil: es passieren Fehler) oder reflexiver Stil (Vorteil: überlegte Entscheidungen und es passieren wenig Fehler, Nachteil: dauert länger)
Es geht also um die Beschreibung und „Funktionsanalyse“ des Menschen unter seinen natürlichen Alltagsbedingungen.
Beispiel: Es gibt 2 Möglichkeiten um den Arbeitsstil einer Testperson zu überprüfen (z.B. impulsives Arbeitsverhalten (Vorteil: schnelle Entscheidung, Nachteil: es passieren Fehler) oder reflexiver Stil (Vorteil: überlegte Entscheidungen und es passieren wenig Fehler, Nachteil: dauert länger)
- Fragebogen – ist dies eine gültige Information?
- Beobachtung bei der Ausführung einer Arbeitsaufgabe – höhere ökologische Validität
- Beobachtung im täglichen Leben – höchste ökologische Validität
Tags: Validität
Quelle: VO03
Quelle: VO03
Was versteht man unter "Konstruktvalidität"? Welche Arten werden unterschieden werden?
Wenn ein Test gewisse theoretische bzw. theoriegeleitete Vorstellungen erfüllt.
- Klassische Ansatz: Faktorenanalyse Beispiele: Wechsler – „verbale Intelligenz“, „praktische (Handlungs)Intelligenz“Falls faktorenanalytisch Ergebnisse überhaupt Hypothesen stützen können.... tun dies diejenigen bezüglich des HAWIK-III: Es resultieren zwei Faktoren mit einem Eigenwert deutlich größer als 1Siehe auch Grafische Darstellung der Ladungen der 13 Untertests des HAWIK-III in der Varimax-rotierten 2-Faktorenlösung
- Nicht-korrelative Ansätze - Extremgruppenvalidierung: Analyse interindividueller Unterschiede und zwar zwischen Gruppen, die sich aus dem Konstrukt ableiten – z.B. Konstruktvalidierung bei VAGO – Test zu Kooperativen Verhalten (2 Gruppen finden – Personen die sich kooperativ zeigen (Mannschaftssportler) und Personen die sich nicht kooperativ zeigen (Individualsportler).Ergebnis: immerhin 72,5% der Einzelsportler und 57,5% der Mannschaftssportler richtig zugeordnet.- Analyse intraindividueller UnterschiedWird ein Test mehrmals vorgegeben, so sollten bei habituellen Merkmalen keine Veränderungen in den Testwerten resultieren;Bei situationsabhängigen Verhaltensweisen müssten aber entsprechende deutliche Unterschiede auftreten. z.B. Validierungsversuche von computerisierten Belastbarkeitstests (Man versucht die Testpersonen manipulativ zu belasten, z.B. mit Bildschirm flimmert, Tastatur funktioniert nicht mehr). Validierung erfolgt indem jeweils ein Durchgang durchgeführt mit und ein Durchgang ohne Belastung und dabei wurde der Hautleitwiderstand und die Herzfrequenz gemessen. - Selbst- bzw. Fremdbeobachtungen während der Bearbeitung des TestsInsbesondere durch Beobachten des Entscheidungs- bzw. Lösungsprozesses (z.B. Methode des „lauten Denkens“)
Tags: Validität
Quelle: S57, VO03
Quelle: S57, VO03
Was versteht man unter Kriteriumsvalidität?
Eine bestimmte als relevant angesehene Variable (sog. „Außenkriterium“) wird mit dem interessierenden Test korreliert.
Beispiele für „Außenkriterium“: Leistungstest – höchster Schulabschluss, Notendurchschnitt, Berufliche Erfolg
Problem der Übereinstimmungsvalidität:
Problem der prognostischen Validität:
Je ferner das Außenkriterium in der Zukunft liegt, desto schwieriger wird es unabhängig von anderen Einflussfaktoren eine prognostische Validität zu untersuchen.
Beispiele für „Außenkriterium“: Leistungstest – höchster Schulabschluss, Notendurchschnitt, Berufliche Erfolg
Problem der Übereinstimmungsvalidität:
- wenn der alte Test mangelhaft ist – taugt er als Außenkritierium wenig
- wenn er die Gütekriterien erfüllt – besteht für den neuen Test kein Bedarf
Problem der prognostischen Validität:
Je ferner das Außenkriterium in der Zukunft liegt, desto schwieriger wird es unabhängig von anderen Einflussfaktoren eine prognostische Validität zu untersuchen.
Tags: Validität
Quelle: S64
Quelle: S64
Was belegen die Taylor-Russel-Tafeln?
Die Taylor-Russel-Tafeln belegen aber, warum auch der Einsatz von wenig-validen Tests für praktische Zwecke sinnvoll ist.
Grafik zur Taylor-Russel-Tafel: Selektionsrate – Wieviel Prozent der Bewerber werden aufgenommen?
Exkurs zu den Taylor-Russel-Tafeln:
Die Taylor-Russel-Tafeln sind hergeleitet aus der Verteilungsfunktion einer bivariaten Normalverteilung, wobei die eine Variable den interessierenden Testkennwert darstellt, die andere die Eignung als einer (angenommener Weise) ursprünglich normalverteilten Variable - die jeweilige Validität ist dabei der Korrelationskoeffizient der bivariaten Normalverteilung.
Je nach Selektionsquote und Grundrate wird nun zur Bestimmung des Prozentsatzes der (zu erwartenden) selektierten Geeigneten sowohl die Randverteilung des Testkennwerts als auch die Randverteilung der Eignung mit einem cutting point versehen, um letzlich die resultierenden bivariate "Fläche" zu integrieren.
Grafik zur Taylor-Russel-Tafel: Selektionsrate – Wieviel Prozent der Bewerber werden aufgenommen?
- Bei einer geringen Grundrate: "30-50% der Bewerber sind grundsätzlich für den Beruf geeignet."
- Wenn man 10% der Bewerber auswählen möchte und einen Test mit 0,55 Validität hat dann hat man unter den selektierten Bewerben 70% geeignete Bewerber.
- Ersttestung Differentialdiagnose z.B. Störung der akustischen Differenzierungsfähigkeit
- Spezifische Förderung (Training) Training zur akustischen Differenzierungfähigkeit: z.B. nach Sindelar
- Förderungsevaluation (Zweittestung) - Spezifische Effekte oder Transfereffekte?- Gibt es eine Besserung der Fähigkeiten so zeigt sich, dass die Therapie wirksam ist, aber auch dass die Diagnose korrekt war.
Exkurs zu den Taylor-Russel-Tafeln:
Die Taylor-Russel-Tafeln sind hergeleitet aus der Verteilungsfunktion einer bivariaten Normalverteilung, wobei die eine Variable den interessierenden Testkennwert darstellt, die andere die Eignung als einer (angenommener Weise) ursprünglich normalverteilten Variable - die jeweilige Validität ist dabei der Korrelationskoeffizient der bivariaten Normalverteilung.
Je nach Selektionsquote und Grundrate wird nun zur Bestimmung des Prozentsatzes der (zu erwartenden) selektierten Geeigneten sowohl die Randverteilung des Testkennwerts als auch die Randverteilung der Eignung mit einem cutting point versehen, um letzlich die resultierenden bivariate "Fläche" zu integrieren.
Tags: Taylor-Russel-Tafeln
Quelle: S67, VO03
Quelle: S67, VO03
Was ist ein neues Validierungskonzept (Konzept zur Überprüfung der Validität)?
Als neues Validierungskonzept kann die "Evaluation diagnosespezifischer Förderung" angesehen werden.
Wenn ein Test valide sein soll, dann muss er mit seiner Diagnose zumindest zwischen zwei Gruppen differenzieren.
Verfügen wir nun über bewährte differenzielle Therapie-(Förderungs-)Programme, so sollten diese, diagnosespezifisch eingesetzt, auch nur bei denjenigen Gruppen Erfolg zeigen, wofür sie gedacht sind. Gelingt dieser Nachweis nicht, so muss die (differenzielle) Diagnose rückwirkend als nicht valide bezeichnet werden.
(Beispiel: Kinder die beim AID in bestimmten Untertests Teilleistungsstörungen zeigten, wurden 6 Monate einschlägig mit Förderprogrammen trainiert, und zeigten signifikant größere Leistungsfortschritte als Kinder mit anderen diagnostizieren Teilleistungsstörungen)
Wenn ein Test valide sein soll, dann muss er mit seiner Diagnose zumindest zwischen zwei Gruppen differenzieren.
Verfügen wir nun über bewährte differenzielle Therapie-(Förderungs-)Programme, so sollten diese, diagnosespezifisch eingesetzt, auch nur bei denjenigen Gruppen Erfolg zeigen, wofür sie gedacht sind. Gelingt dieser Nachweis nicht, so muss die (differenzielle) Diagnose rückwirkend als nicht valide bezeichnet werden.
(Beispiel: Kinder die beim AID in bestimmten Untertests Teilleistungsstörungen zeigten, wurden 6 Monate einschlägig mit Förderprogrammen trainiert, und zeigten signifikant größere Leistungsfortschritte als Kinder mit anderen diagnostizieren Teilleistungsstörungen)
Tags: Validität
Quelle: S68
Quelle: S68
Was erfüllt ein Test das Gütekriterium Eichung? Welche Arten von Eichen sind zu betrachten (Überblick)?
Ein Test erfüllt das Gütekriterium Eichung, wenn für sein Bezugssystem zur Relativierung des individuellen Testergebnisses (die sog. "Eichtabellen") folgende Bedingungen gegeben sind:
(der frühere Begriff Normierung sollte vermieden werden)
Es ist sinnvoll dies als Nebengütekriterium zu sehen,
Es geht um das
- Die Eichtabellen sind gültig, d.h. nicht veraltet.
- die Population, für die die Eichtabellen gelten, ist definiert,
- die für die Einstellung der Eichtabellen herangezogene Stichprobe ist repräsentativ
(der frühere Begriff Normierung sollte vermieden werden)
Es ist sinnvoll dies als Nebengütekriterium zu sehen,
- da Eichung nur sinnvoll ist, wenn Hauptkriterien erfüllt sind
- und eine Diagnostik in Bezug auf bestimmte Kriterien (in Bezug zur Fragestellung) sinnvoller ist als eine "normorientierte" Diagnostik
Es geht um das
- Eichen im Sinn von Relativieren
- Eichen im Sinn von Repräsentativerhebung und
- kriteriumsorientierte Diagnostik
Tags: Eichung
Quelle: S68
Quelle: S68
Was versteht man unter Eichen im Sinne von Relativieren? Welche Eichmaßstäbe (8) können unterschieden werden?
Unter Eichen im Sinne von Relativieren versteht man das in Bezug setzen der Testwerte, um die relative Position einer Tp bzw. ihrer Testleistung hinsichtlich der entsprechenden Referenzpopulation adäquat zu beschreiben.
Aus der Statistik - z-Wert:
Die standardnormalverteilte Variable z als ein "Eichmaßstab" (Normwert) könnte die relative Position einer Tp bzw. ihrer Testleistung hinsichtlich der entsprechenden Referenzpopulation adäquat beschreiben.
Positive z-Werte bedeuten überdurchschnittliche, negative bedeuten unterdurchschnittliche Testleistungen. Durch die Transformation wird der Populationsmittelwert auf 0 und die Standardabweichung auf 1 gesetzt.
Von Wechsler - Wertpunkte (W)
Die Transformation "mal 3" und "plus 10" ist willkürlich und entspricht dem Festlegen ("Eichen" im Sinne von Relativieren) des Maßstabs samt Null- bzw. Bezugspunkt. (Mittelwert der Population = 10 und eine Standardabweichung von 3).
Weiterer Eichmaßstab von Wechsler - IQ
(Mittelwert von 100 und Standardabweichung von 15)
Betrachtet man die IQ-Werte und die z-Werte so sieht man folgendes: Auf einen IQ von 110 kommt man über z0=0,67; da diesem Tabellenwert p=0,25 entspricht, fallen in das Intervall 90 ≤ IQ ≤ 11ß die mittleren 50% der Referenzpopulation. Leistungen innerhalb diesen Intervalls werden üblicherweise als "durchschnittlich" bzw. "normal" beziechnet.
Weitere Eichmaßstäbe
Aus der Statistik - z-Wert:
Die standardnormalverteilte Variable z als ein "Eichmaßstab" (Normwert) könnte die relative Position einer Tp bzw. ihrer Testleistung hinsichtlich der entsprechenden Referenzpopulation adäquat beschreiben.
Positive z-Werte bedeuten überdurchschnittliche, negative bedeuten unterdurchschnittliche Testleistungen. Durch die Transformation wird der Populationsmittelwert auf 0 und die Standardabweichung auf 1 gesetzt.
Von Wechsler - Wertpunkte (W)
Die Transformation "mal 3" und "plus 10" ist willkürlich und entspricht dem Festlegen ("Eichen" im Sinne von Relativieren) des Maßstabs samt Null- bzw. Bezugspunkt. (Mittelwert der Population = 10 und eine Standardabweichung von 3).
Weiterer Eichmaßstab von Wechsler - IQ
(Mittelwert von 100 und Standardabweichung von 15)
Betrachtet man die IQ-Werte und die z-Werte so sieht man folgendes: Auf einen IQ von 110 kommt man über z0=0,67; da diesem Tabellenwert p=0,25 entspricht, fallen in das Intervall 90 ≤ IQ ≤ 11ß die mittleren 50% der Referenzpopulation. Leistungen innerhalb diesen Intervalls werden üblicherweise als "durchschnittlich" bzw. "normal" beziechnet.
Weitere Eichmaßstäbe
- Z-Werte
- Centil-Werte
- Stanine-Werte ("standard-nine") mit für und für
- Sten-Werte ("standard-ten")
- t-Werte
- Prozentrang
Tags: Eichmaßstäbe, Eichung
Quelle: S69
Quelle: S69
Wie entwickelte sich der Begriff des Intelligenzquotient?
Die Bezeichnung "Intelligenzquotient" geht auf William Stern zurück und war ursprünglich tatsächlich als Quotient definiert: "Intelligenzalter" gebrochen durch Lebensalter ("Intelligenzalter ist nach Binet das Alter derjenigen Referenzpopulation, welche durchschnittlich denselben Testwert erreicht wie die betreffende Tp).
Seit Wechsler ist der "IQ" jedoch als Abweichungsmaß definiert. Von Quotient im mathematischen Sinn ist daher nicht mehr die Rede.
Bemühungen das Q in IQ alternativ zu nutzen (z.B. Intelligenzquantität im AID) fruchteten bislang nicht. Mittlerweile scheint sich der Begriff "IQ" in der Öffentlichkeit verselbstständigt zu haben.
Seit Wechsler ist der "IQ" jedoch als Abweichungsmaß definiert. Von Quotient im mathematischen Sinn ist daher nicht mehr die Rede.
Bemühungen das Q in IQ alternativ zu nutzen (z.B. Intelligenzquantität im AID) fruchteten bislang nicht. Mittlerweile scheint sich der Begriff "IQ" in der Öffentlichkeit verselbstständigt zu haben.
Tags: Intelligenz, IQ
Quelle: S71
Quelle: S71
Wann bezeichnet man ein Testergebnis als "durchschnittlich"?
Zu einzelnen Verfahren finden sich (verbindlich gemeinte) Interpretationsregeln in publizierten Manualen, diejenigen geeichten Testwerte als "durchschnittlich" zu interpretieren. , welche innterhalb des Intervalls plus/minus einer Standardabweichung um den Mittelwert liegen.
Weil z0=-1,00 einem p=0,1587 entspricht und z0=1,00 einem p=0,8413, bedeutet dann "durchschnittlich" alles was nicht gerade die nidrigsten etwa 16% (15,87) der geeichten Testwerte innerhalb der Population betrifft und gleichzeitig nicht die höchsten etwa 16%.
Vielmehr bezieht sich "durchschnittlich" auf die mittleren etwa 68% der geeichten Testwerte, also grob gesprochen auf 2/3 der Population.
Beim IQ spricht man hingegen von einem Durchschnittsbereich die Werte in denen die mittleren 50% der Referenzpopulation liegen (90 ≤ IQ ≤ 110 - also für p=0,25 und p=0,75)
Weil z0=-1,00 einem p=0,1587 entspricht und z0=1,00 einem p=0,8413, bedeutet dann "durchschnittlich" alles was nicht gerade die nidrigsten etwa 16% (15,87) der geeichten Testwerte innerhalb der Population betrifft und gleichzeitig nicht die höchsten etwa 16%.
Vielmehr bezieht sich "durchschnittlich" auf die mittleren etwa 68% der geeichten Testwerte, also grob gesprochen auf 2/3 der Population.
Beim IQ spricht man hingegen von einem Durchschnittsbereich die Werte in denen die mittleren 50% der Referenzpopulation liegen (90 ≤ IQ ≤ 110 - also für p=0,25 und p=0,75)
Tags: Eichung
Quelle: S71
Quelle: S71
Welche z-Werte sind äußerst unwahrscheinlich? (Werte bei den anderen Eichmaßstäben)
- z-Wert: -3 ≤ z ≤ +3
- Wertpunkte W: 1 ≤ W ≤ 19
- Intelligenzquotient IQ: 55 ≤ IQ ≤ 145
- Z-Werte (Standardwerte, SW): 70 ≤ Z ≤ 130
- Centil-Werte: -1 ≤ C ≤ 11
- Sten-Werte: in 98,8% aller Fälle: 1 ≤ St ≤ 10
- T-Werte: 20 ≤ T ≤ 80
Tags: Eichmaßstäbe, Eichung
Quelle: S73
Quelle: S73
Was versteht man unter dem "Prozentrang"?
Der Prozentrang (PR) gibt den relativen Anteil von Personen in der Referenzpopulation an, die (denselben oder) einen niedrigeren Testwert erreichen.
Der Prozentrang entspricht der Verteilungsfunktion der Standardnormalverteilung an der Stelle z0, das ist die Wahrscheinlichkeit, irgendeinen Wert z ≤ z0 zu erhalten. Für das Beispiel IQ = 110 folgt z0 = 0,67, was einem Prozentrang von 75% entspricht. Und diese ist dahingehend zu interpretieren, dass nur 25% der Referenzpopulation bessere Leistungen erzielen.
Die Prozentränge erlauben insofern also eine inhaltlich unmittelbar einsichtige Beschreibung des Testergebnisses.
Der Prozentrang entspricht der Verteilungsfunktion der Standardnormalverteilung an der Stelle z0, das ist die Wahrscheinlichkeit, irgendeinen Wert z ≤ z0 zu erhalten. Für das Beispiel IQ = 110 folgt z0 = 0,67, was einem Prozentrang von 75% entspricht. Und diese ist dahingehend zu interpretieren, dass nur 25% der Referenzpopulation bessere Leistungen erzielen.
Die Prozentränge erlauben insofern also eine inhaltlich unmittelbar einsichtige Beschreibung des Testergebnisses.
Tags: Eichung, Prozentrang
Quelle: S73
Quelle: S73
Welche Eichmaßstäbe können bei nicht-normalverteilten Testwerten verwendet werden?
Die Prozentränge sind auch bei nicht-normalverteilten Testwerten eruierbar, indem sie unmittelbar aus der Häufigkeitsfunktion der Eichstichprobe empirisch bestimmt werden.
Und die T-Werte waren ursprünglich sogar dafür gedacht, nichtnormalverteilte Testwerte in normalverteilte zu transformieren. Zum Beispiel kann für einen bestimmten Testwert, dem ein Prozentrang von 5% entspricht, leicht über die Standardnormalverteilungstabelle der zugehörigen (normalverteilte) T-Werte errechnet werden: T= (-1,645) * 10 + 50 = 33,6. Dieses Vorgehen wird als Flächentransformation bezeichnet; sie könnte natürlich auch für alle übrigen Eichmaßstäbe erfolgen.
Und die T-Werte waren ursprünglich sogar dafür gedacht, nichtnormalverteilte Testwerte in normalverteilte zu transformieren. Zum Beispiel kann für einen bestimmten Testwert, dem ein Prozentrang von 5% entspricht, leicht über die Standardnormalverteilungstabelle der zugehörigen (normalverteilte) T-Werte errechnet werden: T= (-1,645) * 10 + 50 = 33,6. Dieses Vorgehen wird als Flächentransformation bezeichnet; sie könnte natürlich auch für alle übrigen Eichmaßstäbe erfolgen.
Tags: Eichmaßstäbe, Eichung, Prozentrang
Quelle: S73
Quelle: S73
Was ist ein häufiger Fehler beim Vergleich zweier Testwerte?
In der Praxis kommt es gelegentlich zu voreiligen Schlussfolgerungen, was die Unterschiede zweier Testwerte betrifft.
Wenn es zum Beispiel inhaltlich gerechtfertigt sein soll, bezüglich IQ = 100 und IQ = 101 von bedeutenden, d.h. statistisch signifikanten Unterschieden zu sprechen, dann dürfte sich das (einseitige) Konfidenzintervall für die Person mit IQ = 100 höchsten (nicht ganz) bis 100,5 erstrecken; zusätzlich dürfte das (in die andere Richtung bestimmte einseitige) Konfidenzintervall für die Person mit IQ = 101 den Minimalwert 100,5 nicht unterschreiten.
Mit Hilfe der Formel des SMF lässt sich aus diesen Bedingungen der dabei notwendige Reliabilitätskoeffizient von rtt=0,99996 leicht ausrechnen - eine garantiert unrealistische Voraussetzung.
Wenn es zum Beispiel inhaltlich gerechtfertigt sein soll, bezüglich IQ = 100 und IQ = 101 von bedeutenden, d.h. statistisch signifikanten Unterschieden zu sprechen, dann dürfte sich das (einseitige) Konfidenzintervall für die Person mit IQ = 100 höchsten (nicht ganz) bis 100,5 erstrecken; zusätzlich dürfte das (in die andere Richtung bestimmte einseitige) Konfidenzintervall für die Person mit IQ = 101 den Minimalwert 100,5 nicht unterschreiten.
Mit Hilfe der Formel des SMF lässt sich aus diesen Bedingungen der dabei notwendige Reliabilitätskoeffizient von rtt=0,99996 leicht ausrechnen - eine garantiert unrealistische Voraussetzung.
Tags: Konfidenzintervall, Reliabilität
Quelle: S74
Quelle: S74
Was versteht man unter Eichung im Sinn von Repräsentativerhebung?
Was ist dabei zu berücksichtigen?
Was ist dabei zu berücksichtigen?
Repräsentativität der Eichstichprobe zu erreichen, ist stets ein kritischer Punkt der Testentwicklung. Auch besonders große Stichproben sind keine Garantie für Repräsentativität.
Jedoch: Ausreichend große und repräsentative Stichproben zu erhalten, ist heute sowohl stimmungsmäßig als auch rechtlich, in Schulen wie in Betrieben, erschwert oder gar - infolge reduzierter Forschungsmittel für Eichungen - unmöglich.
Besonders kritisch steht es oft um die Aktualität der Eichtabellen, da die gemessenen Eigenschaften häufig einen steten Wandel durchmachen (Beispiel IQ: stieg innerhalb von 20 Jahren um bis zu 25 Punkte).
Die Initiative der DIN33430 berücksichtigte dies und legte eine verbindliche Reglementierung fest, die Angemessenheit der Normwerte (besser: Eichtabellen) ist spätestens alle 8 Jahre zu prüfen.
Repräsentativität in anderen Ländern
Inwiefern sind die verwendeten Eichstichproben aus dem einen Staat für andere deutschsprachige Länder repräsentativ?
Hierfür gibt es jedoch nur wenig Studien.
Gelegentlich ist die Wahl der Referenzpopulation strittig.
Beispiel verkehrspsychologische Begutachtung: 2 mögliche Populationen: aller Personen mit motorisierten Kraftfahrzeugen oder Stichprobe von Klienten verkehrspsychologischer Untersuchungsstellen (verkehrsauffällige Fahrer, Alkoholauffällige, Prüfungsversager und Berufsfahrer)
Die Erhebung einer Zufallsstichprobe ist bei Erwachsenen meist schwieriger als bei Schulkindern. Häufig ist diese jedoch sehr aufwändig, d.h. genügt auch eine sog. "Klumpenerhebung" (es werden nur einzelne Schulen und deren Schulkinder betrachtet).
Wichtig ist hier nur, dass die Klumpen zufällig gewählt werden, am besten nach regional festgelegten Quoten = Quotenstichprobe.
Häufiges Problem: "Freiwillige" für die Eichung eines Tests
Jedoch: Ausreichend große und repräsentative Stichproben zu erhalten, ist heute sowohl stimmungsmäßig als auch rechtlich, in Schulen wie in Betrieben, erschwert oder gar - infolge reduzierter Forschungsmittel für Eichungen - unmöglich.
Besonders kritisch steht es oft um die Aktualität der Eichtabellen, da die gemessenen Eigenschaften häufig einen steten Wandel durchmachen (Beispiel IQ: stieg innerhalb von 20 Jahren um bis zu 25 Punkte).
Die Initiative der DIN33430 berücksichtigte dies und legte eine verbindliche Reglementierung fest, die Angemessenheit der Normwerte (besser: Eichtabellen) ist spätestens alle 8 Jahre zu prüfen.
Repräsentativität in anderen Ländern
Inwiefern sind die verwendeten Eichstichproben aus dem einen Staat für andere deutschsprachige Länder repräsentativ?
Hierfür gibt es jedoch nur wenig Studien.
Gelegentlich ist die Wahl der Referenzpopulation strittig.
Beispiel verkehrspsychologische Begutachtung: 2 mögliche Populationen: aller Personen mit motorisierten Kraftfahrzeugen oder Stichprobe von Klienten verkehrspsychologischer Untersuchungsstellen (verkehrsauffällige Fahrer, Alkoholauffällige, Prüfungsversager und Berufsfahrer)
Die Erhebung einer Zufallsstichprobe ist bei Erwachsenen meist schwieriger als bei Schulkindern. Häufig ist diese jedoch sehr aufwändig, d.h. genügt auch eine sog. "Klumpenerhebung" (es werden nur einzelne Schulen und deren Schulkinder betrachtet).
Wichtig ist hier nur, dass die Klumpen zufällig gewählt werden, am besten nach regional festgelegten Quoten = Quotenstichprobe.
Häufiges Problem: "Freiwillige" für die Eichung eines Tests
Tags: Eichung, Repräsentativität
Quelle: S75
Quelle: S75
Was ist ein häufiges aber vernachlässigtes Problem bei der Eichung im Sinne von Repräsentativerhebung?
Ein häufig vernachlässigtes, aber grundsätzliches Problem stellt die Verwendung von "Freiwilligen" bei der Eichung eines Tests dar - eigentlich besteht dieses Problem auch bei der Validierung und Reliabilitätsbestimmung.
Damit ist die Freiwilligkeit der Personen gemeint, die für eine bestimmte Studie rekrutiert bzw. akquiriert wurden, für die die entsprechende psychologische Untersuchung gar nicht indiziert ist und für die folglich auch mit dem jeweiligen Testergebnis keine verbindlichen Konsequenzen verbunden sind.
Beim Rekrutieren hätte es unter Umständen für die Betroffenen die Möglichkeit gegeben, die Teilnahme zu verweigern, beim Akquierieren kam es gar zu einer Selbstnominierung der Tpn, mit oder ohne Honorierung für die Untersuchungsteilnahme.
Spätestens seit Karner (2002) ist jedoch bekannt, dass Volunteers ein gänzlich anderes Testverhalten zeigen können als Tpn, die tatsächlich der Referenzpopulation entstammen. So gesehen müsste für entsprechende Studien die Stichprobe auch insofern repräsentativ sein, als sie explizit nicht aus Volunteers besteht.
Angezeigt ist beim Gebrauch von Volunteers stehts eine sog. "Non-Responder-Analyse". Die Idee besteht bei einer Non-Responder-Analyse darin, verschiedene Untergruppen von Respondern zu untersuchen und zu vergleichen, und zwar solche, die sich im Grad der Freiwilligkeit bzw. in der "Schnelligkeit" der Selbstnominierung unterscheiden.
Besteht zwischen diesen Gruppen kein signifikanter Unterschied in den Testwerten, lässt das hoffen, dass auch Non-Responder nicht abweichen; ein Beweis wäre dies allerdings nicht.
Damit ist die Freiwilligkeit der Personen gemeint, die für eine bestimmte Studie rekrutiert bzw. akquiriert wurden, für die die entsprechende psychologische Untersuchung gar nicht indiziert ist und für die folglich auch mit dem jeweiligen Testergebnis keine verbindlichen Konsequenzen verbunden sind.
Beim Rekrutieren hätte es unter Umständen für die Betroffenen die Möglichkeit gegeben, die Teilnahme zu verweigern, beim Akquierieren kam es gar zu einer Selbstnominierung der Tpn, mit oder ohne Honorierung für die Untersuchungsteilnahme.
Spätestens seit Karner (2002) ist jedoch bekannt, dass Volunteers ein gänzlich anderes Testverhalten zeigen können als Tpn, die tatsächlich der Referenzpopulation entstammen. So gesehen müsste für entsprechende Studien die Stichprobe auch insofern repräsentativ sein, als sie explizit nicht aus Volunteers besteht.
Angezeigt ist beim Gebrauch von Volunteers stehts eine sog. "Non-Responder-Analyse". Die Idee besteht bei einer Non-Responder-Analyse darin, verschiedene Untergruppen von Respondern zu untersuchen und zu vergleichen, und zwar solche, die sich im Grad der Freiwilligkeit bzw. in der "Schnelligkeit" der Selbstnominierung unterscheiden.
Besteht zwischen diesen Gruppen kein signifikanter Unterschied in den Testwerten, lässt das hoffen, dass auch Non-Responder nicht abweichen; ein Beweis wäre dies allerdings nicht.
Tags: Eichung, Freiwillige, Repräsentativität
Quelle: S79
Quelle: S79
Was versteht man unter "kriteriumsorientierter Diagnostik"? Wo kann diese sinnvoll eingesetzt werden?
Abgesehen davon, dass der Normalitätsbegriff an sich problematisch ist, ist in vielen Fällen die Relativierung eines Testwerts in Bezug auf die Referenzpopulation nicht zweckmäßig. Die Alternative ist kriteriumsorientiertes psychologisches Diagnostizieren.
Kriteriumsorientierte Diagnostik bedeutet, dass andere Vergleichsmaßstäbe zur Interpretation eines Testwertes herangezogen werden, als die Testwertverteilung in der Referenzpopulation.
Als möglicher Vergleichsmaßstab kommt entweder ein absolut festgelegter oder ein individuumsbezogener, relativ gewählter Ziel-Testwert in Frage.
Insbesondere für die pädagogisch-psychologische Diagnostik ist der Ansatz der kriteriumsorientierten Diagnostik von Bedeutung (Bezug auf einzelne Lernende oder Gruppe von Lernende). Dieser Ansatz überzeugt auch bei der klinisch-psychologischen Diagnostik, im Zuge einer (psycho-)therapieleitenden Diagnostik.
Umgekehrt sind im Zuge einer förderungsorientierten Diagnostik etwa Teilleistungsstörungen nur unter Verwendung einer geeichten Testbatterie zu entdecken. Ohne Bezug auf die Referenzpopulation wären Hochs und Tiefs nicht identifizierbar (Leistungsprofil im AID).
Im übertragenen Sinn findet kriteriumsorientiertes psychologisches Diagnostizieren manchmal auf statt, wenn der Testwert auf eine Referenzpopulation bezogen wird: Inwiefern nämlich, als gelegentlich das Kriterium festgelegt werden muss, welche Referenzpopulation tatsächlich die relevante ist.
Kriteriumsorientierte Diagnostik bedeutet, dass andere Vergleichsmaßstäbe zur Interpretation eines Testwertes herangezogen werden, als die Testwertverteilung in der Referenzpopulation.
Als möglicher Vergleichsmaßstab kommt entweder ein absolut festgelegter oder ein individuumsbezogener, relativ gewählter Ziel-Testwert in Frage.
- Eine individuelle Bezugsnorm liegt zugrunde, wenn eine Testwert auf den entsprechenden Testwert einer früheren Testung bezogen wird, also eine individuelle Veränderung gemessen wird.
- Eine sachliche, oder eben "kriteriumsorientierte" Bezugsnorm liegt dann zugrunde, wenn der Testwert auf ein bestimmtes Kriterium (Lern- oder Therapieziel) bezogen wird.
Insbesondere für die pädagogisch-psychologische Diagnostik ist der Ansatz der kriteriumsorientierten Diagnostik von Bedeutung (Bezug auf einzelne Lernende oder Gruppe von Lernende). Dieser Ansatz überzeugt auch bei der klinisch-psychologischen Diagnostik, im Zuge einer (psycho-)therapieleitenden Diagnostik.
Umgekehrt sind im Zuge einer förderungsorientierten Diagnostik etwa Teilleistungsstörungen nur unter Verwendung einer geeichten Testbatterie zu entdecken. Ohne Bezug auf die Referenzpopulation wären Hochs und Tiefs nicht identifizierbar (Leistungsprofil im AID).
Im übertragenen Sinn findet kriteriumsorientiertes psychologisches Diagnostizieren manchmal auf statt, wenn der Testwert auf eine Referenzpopulation bezogen wird: Inwiefern nämlich, als gelegentlich das Kriterium festgelegt werden muss, welche Referenzpopulation tatsächlich die relevante ist.
Tags: Eichung, Kriteriumsorientierte Diagnostik
Quelle: S80
Quelle: S80
Wann erfüllt ein Test das Gütekriterium der Skalierung?
Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsvorschriften resultierenden Testwerte die empirischen Verhaltensrelationen adäquat abbilden.
Es geht also um die Angemessenheit der im Manual eines Tests festgesetzten Reglementierung, wie die einzelnen Testleistungen bzw. -reaktionen einer Tp zu einem numerischen Testwert zu verrechnen sind. "Angemessenheit" erhebt dabei den Anspruch auf "faktische Gegebenheit" im Sinne der Messtheorie, wie sie der empirischen Psychologie allgemein zugrunde liegt.
Es geht also um die Angemessenheit der im Manual eines Tests festgesetzten Reglementierung, wie die einzelnen Testleistungen bzw. -reaktionen einer Tp zu einem numerischen Testwert zu verrechnen sind. "Angemessenheit" erhebt dabei den Anspruch auf "faktische Gegebenheit" im Sinne der Messtheorie, wie sie der empirischen Psychologie allgemein zugrunde liegt.
Was versteht man unter "Messen"?
Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-)Objekts und erfolgt durch eine Zuordnung von Zahlen zu Messobjekten. (Orth, 1995)
.... wobei allerdings eine "Zurodnung von Zahlen zu Messobjekten ... nur dann eine Messung ist, "wenn die Zahlen ("Messwerte") empirische Sachverhalte ausdrücken, d.h. wenn die (numerischen) Beziehungen zwischen Messwerten empirischen Beziehungen zwischen den Messobjekten ausdrücken."
.... wobei allerdings eine "Zurodnung von Zahlen zu Messobjekten ... nur dann eine Messung ist, "wenn die Zahlen ("Messwerte") empirische Sachverhalte ausdrücken, d.h. wenn die (numerischen) Beziehungen zwischen Messwerten empirischen Beziehungen zwischen den Messobjekten ausdrücken."
Tags: Messen, Skalierung
Quelle: S83
Quelle: S83
Was definiert die "Schwierigkeit" einer Aufgabe bei der Klassischen Testtheorie und bei Persönlichkeitsfragebögen?
Im einfachsten Fall, bei dichotom zu verrechnenden Aufgaben eines Leistungstests (richtig vs. falsch), ergibt sich die (Item-)Schwierigkeit laut Klassischer Testtheorie als die relative Lösungshäufigkeit, mit der eine Aufgabe in der Eichstichprobe gelöst wurde.
Bei mehrkategoriell zu verrechnenden Aufgaben können zwar die relativen Häufigkeiten bestimmt werden, mit denen die einzelnen Kategorien in einer (Eich-)Stichprobe realisiert wurden, die Bezeichnung als "Schwierigkeit" ist aber pro Kategorie unüblich.
Demgegenüber wird die Bezeichnung "Schwierigkeit" häufig auch bei dichotom zu verrechnenden Items eines Persönlichkeitsfragebogens verwendet, obwohl es inhaltlich treffender wäre, vom "Grad der Herausforderung" zu sprechen, mit dem ein Item die Tp konfrontiert, in bestimmter Weise zu reagieren.
Bei mehrkategoriell zu verrechnenden Aufgaben können zwar die relativen Häufigkeiten bestimmt werden, mit denen die einzelnen Kategorien in einer (Eich-)Stichprobe realisiert wurden, die Bezeichnung als "Schwierigkeit" ist aber pro Kategorie unüblich.
Demgegenüber wird die Bezeichnung "Schwierigkeit" häufig auch bei dichotom zu verrechnenden Items eines Persönlichkeitsfragebogens verwendet, obwohl es inhaltlich treffender wäre, vom "Grad der Herausforderung" zu sprechen, mit dem ein Item die Tp konfrontiert, in bestimmter Weise zu reagieren.
Tags: Klassische Testtheorie, Persönlichkeitsfragebogen, Schwierigkeit, Skalierung
Quelle: S83
Quelle: S83
Was ist das Problem von Testungen unter "Speed-and-Power"-Bedingungen in Bezug auf die Skalierung?
Skalierung als Gütekriterium bezieht sich auf die Eindimensionalität eines Tests und ob die Verrechnung zu Testwerten empirisch begründet ist.
Bei Testungen unter "Speed-and-Power" Bedingungen werden häufig zwei Eigenschaften vermengt, nämlich die Fähigkeit, bestimmte Anforderungen - auch schwierige - grundsätzlich zu erfüllen, mit der Fähigkeit, dies auch (hinreichend) schnell zu können.
Daher ist die Voraussetzung der Eindimensionalität nicht gegeben.
Bei Testungen unter "Speed-and-Power" Bedingungen werden häufig zwei Eigenschaften vermengt, nämlich die Fähigkeit, bestimmte Anforderungen - auch schwierige - grundsätzlich zu erfüllen, mit der Fähigkeit, dies auch (hinreichend) schnell zu können.
Daher ist die Voraussetzung der Eindimensionalität nicht gegeben.
Tags: Skalierung
Quelle: S84
Quelle: S84
Welche Probleme können bei einer Faktorenanalyse für dichotome zu verrechnende Items entstehen? Welche Ansätze könnten stattdessen angewendet werden?
(Kapitel Skalierung)
Die (herkömmliche, weil auf Intervallsksala aufbauende) Faktorenanalyse funktioniert im beabsichtigten Zusammenhang allerdings höchstens bei nicht dichotom zu verrechnenden Items.
Testbatterien mit dichotom zu verrechnenden Items, die auf Faktorenanalyse beruhen und dementsprechend je Untertest Eindimensionalität behaupten, genügen diesem Anspruch nur vordergründig.
Zum Beispiel Guttmann (1955) hat schon vor langer Zeit gezeigt, dass die Anwendung der Faktorenanalyse auf dichotome Variablen stets zu artifiziellen Faktoren führt. Lange bekannt, aber kaum umgesetzt ist auch, dass die Lösung des Problems die Verwendung eines anderen, besonderen Korrelationsmaßes wäre; nämlich der tetrachorischen statt der obligaten Pearson-Korrelation.
Und vor allem gäbe es im Rahmen der sog. "linearen Strukturgleichungsmodell" Ansätze, die als Faktorenanalyse für dichotome Daten gelten können.
Beispiel: Erklärung siehe Seite 85
Die (herkömmliche, weil auf Intervallsksala aufbauende) Faktorenanalyse funktioniert im beabsichtigten Zusammenhang allerdings höchstens bei nicht dichotom zu verrechnenden Items.
Testbatterien mit dichotom zu verrechnenden Items, die auf Faktorenanalyse beruhen und dementsprechend je Untertest Eindimensionalität behaupten, genügen diesem Anspruch nur vordergründig.
Zum Beispiel Guttmann (1955) hat schon vor langer Zeit gezeigt, dass die Anwendung der Faktorenanalyse auf dichotome Variablen stets zu artifiziellen Faktoren führt. Lange bekannt, aber kaum umgesetzt ist auch, dass die Lösung des Problems die Verwendung eines anderen, besonderen Korrelationsmaßes wäre; nämlich der tetrachorischen statt der obligaten Pearson-Korrelation.
Und vor allem gäbe es im Rahmen der sog. "linearen Strukturgleichungsmodell" Ansätze, die als Faktorenanalyse für dichotome Daten gelten können.
Beispiel: Erklärung siehe Seite 85
Tags: Faktorenanalyse, Skalierung
Quelle: S84
Quelle: S84
Welche Rolle spielt die Skalierung in der Klassischen Testtheorie?
(Skalierung als Gütekriterium bezieht sich bei gegebener Eindimensionalität eines Tests darauf, ob die Verrechnung zu Testwerten empirisch begründet ist.)
Die Methoden der klassischen Testtheorie sind völlig ungeeignet, einen Test hinsichtlich des Gütekriteriums Skalierung zu prüfen und deshalb gibt es dieses Gütekriterium in diesem Ansatz gar nicht.
Im Zusammenhang mit der Skalierung verwendet die klassische Testtheorie folgende Methoden (in denen es vor allem um die Zusammenfassung von Items zu Tests geht):
Die Zielsetzung eindimensionaler Messungen entsprechend soll die innere Konsistenz eines Tests möglichst groß sein: Die Items ein und desselben Tests sollen gemeinsam auf einen einzigen Faktor laden und die Interkorrelationen aller Items nahzu 1 betragen.
Des Weiteren fordert die klassische Testtheorie bei der Itemzusammenstellung eines Test auch
Die Methoden der klassischen Testtheorie müssen jedoch grundsätzlich kritisiert werden. Sie sind alle stichprobenabhängig.
(Abbildung unten zeigt, dass die Korrelation der Testwerte zweier Aufgaben für 2 Teilstichproben gänzlich andere Werte annehmen kann als für die Gesamtstichprobe.)
Anders als die Klassische Testtheorie kann die Item-Response-Theorie durchaus prüfen, ob die gegebenen Verrechnungsvorschriften eines Tests zu Testwerten führen, die verhaltensadäquate Relationen wiedergeben.
Die Methoden der klassischen Testtheorie sind völlig ungeeignet, einen Test hinsichtlich des Gütekriteriums Skalierung zu prüfen und deshalb gibt es dieses Gütekriterium in diesem Ansatz gar nicht.
Im Zusammenhang mit der Skalierung verwendet die klassische Testtheorie folgende Methoden (in denen es vor allem um die Zusammenfassung von Items zu Tests geht):
- Innere Konsistenz
- Faktorenanalyse
- Interkorrelationen
Die Zielsetzung eindimensionaler Messungen entsprechend soll die innere Konsistenz eines Tests möglichst groß sein: Die Items ein und desselben Tests sollen gemeinsam auf einen einzigen Faktor laden und die Interkorrelationen aller Items nahzu 1 betragen.
Des Weiteren fordert die klassische Testtheorie bei der Itemzusammenstellung eines Test auch
- dass sich die Schwierigkeit des Items gleichmäßig innerhalb des Intervalls (0,05 bis 0,95) verteilen,
- dass die sog. "Trennschärfeindizes" der Items (das sind die Korrelationen des Testwerts pro Item mit dem Testwert aus allen übrigen Items) sehr hohe Werte annehmen.
Die Methoden der klassischen Testtheorie müssen jedoch grundsätzlich kritisiert werden. Sie sind alle stichprobenabhängig.
(Abbildung unten zeigt, dass die Korrelation der Testwerte zweier Aufgaben für 2 Teilstichproben gänzlich andere Werte annehmen kann als für die Gesamtstichprobe.)
Anders als die Klassische Testtheorie kann die Item-Response-Theorie durchaus prüfen, ob die gegebenen Verrechnungsvorschriften eines Tests zu Testwerten führen, die verhaltensadäquate Relationen wiedergeben.
Tags: Faktorenanalyse, Innere Konsistenz, Item-Response-Theorie, Klassische Testtheorie, Skalierung
Quelle: S84
Quelle: S84
Was ist der einfachste Verrechnungsmodus (Methode der Skalierung)? Welche Bedingung muss gelten, damit dieser Verrechnungsmodus fair ist?
Der einfachste Verrechnungsmodus sieht als Testkennwert die Anzahl gelöster Aufgaben vor. Das heißt, ungeachtet dessen, welche Aufgaben von einer Tp gelöst und welche nicht gelöst werden, zählen nur die "Treffer".
Fischer gibt dazu einen Beweis, wonach das (dichotome) logistische Testmodell von Georg Rasch - Rasch-Modell - notwendigerweise gelten muss, damit dieser Verrechnungsmodus fair ist.
Das Rasch-Modell beschreibt die Wahrscheinlichkeit, dass Tp Item löst (+), in Abhängigkeit des Personenparameters , das ist die (wahre) Fähigkeit von , und des Itemparameters , das ist die (wahre) Schwierigkeit von :
Weil sich dieses Modell als im statistischen Sinn stichprobenunabhängig herausstellt, kann auch ein besonderer Modelltest abgeleitet werden - somit muss es nie ungeprüft vorausgesetzt werden.
Fischer gibt dazu einen Beweis, wonach das (dichotome) logistische Testmodell von Georg Rasch - Rasch-Modell - notwendigerweise gelten muss, damit dieser Verrechnungsmodus fair ist.
Das Rasch-Modell beschreibt die Wahrscheinlichkeit, dass Tp Item löst (+), in Abhängigkeit des Personenparameters , das ist die (wahre) Fähigkeit von , und des Itemparameters , das ist die (wahre) Schwierigkeit von :
Weil sich dieses Modell als im statistischen Sinn stichprobenunabhängig herausstellt, kann auch ein besonderer Modelltest abgeleitet werden - somit muss es nie ungeprüft vorausgesetzt werden.
Tags: Rasch-Modell, Skalierung, Stichprobenunabhängig
Quelle: S88
Quelle: S88
Was ist der sog. "Notwendigkeits-Beweis" des Rasch-Modells?
Die vereinfacht ausgedrückte Bedingung, dass das Rasch-Modell notwendigerweise gelten muss, wenn die Anzahl gelöster Aufgaben ein faires Maß für die erbrachte Testleistung sein soll, ist exakter Weise so zu formulieren:
... das Rasch-Modell - oder eine monotone Transformation davon.
Vorausgesetzt wird, dass es um eine einzige Eigenschaftsdimension geht, die mit dem Test erfasst werden soll; somit kann diese Eigenschaft pro Person durch eine einzige Zahl (Parameter) repräsentiert werden. Letzteres gilt sinngemäß auch für jede Aufgabe.
Weiters stellt die sog. "lokale stochastische Unabhängigkeit" eine bedeutende Voraussetzung für die Gültigkeit des genannten Beweises dar - allerdings eine, die inhaltlich durchaus zu rechtfertigen ist:
Ob eine Tp eine Aufgabe löst oder nicht, hängt abgesehen vom Zufall, nur von ihrer Fähigkeit und von der Schwierigkeit der Aufgabe ab, nicht aber davon, welche anderen Aufgaben sie schon gelöst hat oder noch lösen wird.
Die Tragweite des Beweises liegt im Attribut "notwendigerweise". Mit ihm ist nämlich der Umkehrschluss zwingend, dass Tests, für die das Rasch-Modell nicht gilt, auch nicht verrechnungsfair sind. Möglich wäre es zwar, dass schlicht ein anderer Verrechnungsmodus verhaltensadäquat ist, zum Beispiel wenn die einzelnen Antworten aufgabenspezifisch gewichtet werden, bezüglich des festgelegten Verrechnungsmodus sind sie es aber nicht.
... das Rasch-Modell - oder eine monotone Transformation davon.
Vorausgesetzt wird, dass es um eine einzige Eigenschaftsdimension geht, die mit dem Test erfasst werden soll; somit kann diese Eigenschaft pro Person durch eine einzige Zahl (Parameter) repräsentiert werden. Letzteres gilt sinngemäß auch für jede Aufgabe.
Weiters stellt die sog. "lokale stochastische Unabhängigkeit" eine bedeutende Voraussetzung für die Gültigkeit des genannten Beweises dar - allerdings eine, die inhaltlich durchaus zu rechtfertigen ist:
Ob eine Tp eine Aufgabe löst oder nicht, hängt abgesehen vom Zufall, nur von ihrer Fähigkeit und von der Schwierigkeit der Aufgabe ab, nicht aber davon, welche anderen Aufgaben sie schon gelöst hat oder noch lösen wird.
Die Tragweite des Beweises liegt im Attribut "notwendigerweise". Mit ihm ist nämlich der Umkehrschluss zwingend, dass Tests, für die das Rasch-Modell nicht gilt, auch nicht verrechnungsfair sind. Möglich wäre es zwar, dass schlicht ein anderer Verrechnungsmodus verhaltensadäquat ist, zum Beispiel wenn die einzelnen Antworten aufgabenspezifisch gewichtet werden, bezüglich des festgelegten Verrechnungsmodus sind sie es aber nicht.
Inwiefern ist das Rasch-Modell stichprobenunabhängig?
Im Gegensatz zu anderen testtheoretischen Modellen erfüllt das Rasch-Modell" einen besonderen wissenschaftstheoretischen Ansatz, nämlich den sog. "spezifisch objektive" Vergleiche zu ermöglichen:
Den Unterschied in den Fähigkeiten und zwischen je zwei Personen und kann unabhängig davon bestimmt werden, welche Aufgaben des Tests herangezogen werden; bzw. umgekehrt und wichtiger, der Vergleich je zweier Aufgaben und bezüglich und ist unabhängig davon mögliche, welche Stichprobe dafür verwendet wird.
Das heißt, die Schätzung der Parameter sind insofern stichprobenunabhängig, als die Wahl der Stichprobe aus einer bestimmten Population für die statistische Interferenz dieser Parameter keine Rolle spielt.
Diese Tatsache kann für den Spezialfall eines Tests mit nur zwei Aufgaben leicht bewiesen werden, und zwar ausgehend vom zitierten Beweis, wonach bei Geltung des Rasch-Modells die Anzahl gelöster Aufgaben (S) einen fairen Testkennwert darstellt.
Stellt sich dementsprechend einmal empirisch heraus, dass (abgesehen von zufallsbedingten Variationen) die Differenz von Stichprobe zu Stichprobe verschieden ist, so stünde das in Widerspruch zu der abgeleiteten Konsequenz des Rasch-Modells; was heißt: Das Rasch-Modell kann nicht gelten - folglich wäre die zur Diskussion stehende Verrechnung nicht fair.
Den Unterschied in den Fähigkeiten und zwischen je zwei Personen und kann unabhängig davon bestimmt werden, welche Aufgaben des Tests herangezogen werden; bzw. umgekehrt und wichtiger, der Vergleich je zweier Aufgaben und bezüglich und ist unabhängig davon mögliche, welche Stichprobe dafür verwendet wird.
Das heißt, die Schätzung der Parameter sind insofern stichprobenunabhängig, als die Wahl der Stichprobe aus einer bestimmten Population für die statistische Interferenz dieser Parameter keine Rolle spielt.
Diese Tatsache kann für den Spezialfall eines Tests mit nur zwei Aufgaben leicht bewiesen werden, und zwar ausgehend vom zitierten Beweis, wonach bei Geltung des Rasch-Modells die Anzahl gelöster Aufgaben (S) einen fairen Testkennwert darstellt.
Stellt sich dementsprechend einmal empirisch heraus, dass (abgesehen von zufallsbedingten Variationen) die Differenz von Stichprobe zu Stichprobe verschieden ist, so stünde das in Widerspruch zu der abgeleiteten Konsequenz des Rasch-Modells; was heißt: Das Rasch-Modell kann nicht gelten - folglich wäre die zur Diskussion stehende Verrechnung nicht fair.
Tags: Rasch-Modell, stichprobenunabhängig
Quelle: S89
Quelle: S89
Wie kann die Geltung des Rasch-Modells geprüft werden?
Soll nun ein Test tatsächlich auf Geltung des Rasch-Modells geprüft werden, dann können dazu pro Aufgabe die zweifach, an Hand von zwei Personen-Teilstichproben modellgemäß geschätzten Itemparameter miteinander verglichen werden (indem eigentlich nur Parameterdifferenzen zu schätzen sind, muss zuvor ein Maßstab willkürlich festgelegt werden, z.B. ).
Am einfachsten geschieht dies mittels Grafik, in der die Parameterschätzungen pro Item in einem rechtwinkeligen Koordinatensystem gegeneinander aufgetragen werden.
Im theoretischen Idealfall ergibt sich dabei das Bild einer durch den Ursprung gehenden 45°-Geraden:
Weil die Parameter dann pro Aufgaben identisch wären, entstünden nur Punkte, die auf dieser Gerade liegen.
Weichen einzelne oder alle Punkte von der 45°-Geraden deutlich ab, so gilt für diese die Stichprobenunabhängigkeit nicht, also ist die gegebene Verrechnung auch nicht fair.
Interferenzstatistisch erfolgt der Modelltest des Rasch-Modells sinngemäß über einen Likelihood-Quotienten-Test.
Beispiel: Untertest 6 aus dem AID (Gegenüberstellung Population DE+CH zu Population AT)
Obwohl, streng genommen, die Umkehrung nicht gilt, also im Fall, dass ein psychologischer Test den Modelltests standhält, die Geltung des Rasch-Modells nicht (zwingend) bewiesen ist (auf Grund des Falsifikationsprinzip), wird sie überblicherweise dann als gegeben erachtet: Der Grad der Bewährung nach Karl Popper ist für das Modell ausreichend.
Am einfachsten geschieht dies mittels Grafik, in der die Parameterschätzungen pro Item in einem rechtwinkeligen Koordinatensystem gegeneinander aufgetragen werden.
Im theoretischen Idealfall ergibt sich dabei das Bild einer durch den Ursprung gehenden 45°-Geraden:
Weil die Parameter dann pro Aufgaben identisch wären, entstünden nur Punkte, die auf dieser Gerade liegen.
Weichen einzelne oder alle Punkte von der 45°-Geraden deutlich ab, so gilt für diese die Stichprobenunabhängigkeit nicht, also ist die gegebene Verrechnung auch nicht fair.
Interferenzstatistisch erfolgt der Modelltest des Rasch-Modells sinngemäß über einen Likelihood-Quotienten-Test.
Beispiel: Untertest 6 aus dem AID (Gegenüberstellung Population DE+CH zu Population AT)
Obwohl, streng genommen, die Umkehrung nicht gilt, also im Fall, dass ein psychologischer Test den Modelltests standhält, die Geltung des Rasch-Modells nicht (zwingend) bewiesen ist (auf Grund des Falsifikationsprinzip), wird sie überblicherweise dann als gegeben erachtet: Der Grad der Bewährung nach Karl Popper ist für das Modell ausreichend.
Tags: Rasch-Modell
Quelle: S91
Quelle: S91
Wie weit ist die Verbreitung der Rasch-Modell geprüften Tests?
An publizierten Tests, die den zur Diskussion stehenden Verrechnungsmodus beinhalten und dem Modell laut Modelltest entsprechen, existieren nach wie vor nur sehr wenige.
International beachtete Intelligenz-Testbatterien, die gemäß Rasch-Modell konstruiert wurden, sind folgende:
Regelmäßig erweisen sich Tests, die (noch) ohne entsprechende Prüfung entwickelt wurden als nicht verrechnungsfair: Das Rasch-Modell gilt nicht. Um nur einige bedeutende Beispiele zu nennen:
International beachtete Intelligenz-Testbatterien, die gemäß Rasch-Modell konstruiert wurden, sind folgende:
- BAS II (British Ability Scales II) - nicht mehr vertrieben,
- DAS bzw. DAS II (Differential Ability Scales - Second Edition, 2007) - amerik. Version des BAS
- K-ABC (Kaufman Assessment Battery for Children) - deutschspr. Edition von Melchers & Preus, 1991
- AID 2 (deutsch, türkisch, italienisch, ungarisch) - eine englischsprachige Version ist in Vorbereitung.
Regelmäßig erweisen sich Tests, die (noch) ohne entsprechende Prüfung entwickelt wurden als nicht verrechnungsfair: Das Rasch-Modell gilt nicht. Um nur einige bedeutende Beispiele zu nennen:
- SPM (Standard Progressive Matrices, John C. Raven): gravierende Modellabweichungen festgestellt
- HAWIK-IV - frühere Versionen; für betroffene Untertests laut der Monografie von Kubinger (1983) in Bezug auf den HAWIK und laut Steuer (1988) in Bezug auf den HAWIK-R gravierende Modellabweichungen festgestellt. Beispiele: - Untertest Allgemeines Wissen (HAWIK-R): Aufgaben besitzen abhängig vom Geschlecht unterschiedliche (relative) Schwierigkeiten ("Welche Farbe erhält man wenn man die Farben Blau und Gelb miteinander vermischt?" ... bevorzugt Mädchen // "Wie viele Menschen gibt es auf der Welt?" ... bevorzugt Jungen) .. der Test misst also auch das Geschlecht.- Untertest Allgemeines Wissen (HAWIK): Aufgabe "Was musst du tun, damit das Wasser kocht?" ist für leistungsschwache Kinder leichter zu beantworten als für leistungsstarke Kinder.(ist auch im aktuellen HAWIK-IV enthalten)
Tags: Rasch-Modell, Skalierung
Quelle: S92
Quelle: S92
Wie kann die Überprüfung des Rasch-Modells bei nicht-dichotomen Antwortformat erfolgen?
Welche Ergebnisse zeigten die Überprüfungen mittels Rasch-Modell?
Welche Ergebnisse zeigten die Überprüfungen mittels Rasch-Modell?
Für bestimmte andere Verrechnungsmodi existieren innerhalb der Item-Response -Theorie andere Modelle bzw. Verallgemeinerungen des Rasch-Modells, die teilweise analoge Bedeutung haben. Wenn etwa zusätzlich zur Bewertung in richtig/falsch, teilrichtige Antworten berücksichtigt und verrechnet werden, dann müssten sich die mit dem mehrkategoriellen mehrdimensionalen Rasch-Modell gewonnene Itemkategorienparameter (für z.B. "teilw. richtig"/1 Punkt, "vollkommen richtig"/2 Punkte) über alle Items hinweg in der behaupteten Relation zueinander verhalten (im Beispiel also 1:2).
Entsprechende Modelltests bei Tests angewendet, die bei ihrer Entwicklung (noch) nicht daraufhin geprüft wurden, dokumentieren erfahrungsgemäß deutlich, dass die Verrechnungsfairness nicht gegeben ist.
Beispiel: Anwendung des mehrkategoriell mehrdimensionalen Rasch-Modell geschätzten Itemparameter im Untertest Gemeinsamkeiten finden (HAWIK-R).
Die optimal angepasste Gerade weist auf einen Anstieg von 0,52 auf - wegen relativer Antworthäufigkeiten von 0,00 bzw. 1,00 musten einige Aufgaben aus der analyse ausgeschlossen werden.
Es ist einsichtig, dass umso strengere Voraussetzungen bzw. Modellansprüche an die Items zu stellen sind, je komplizierter der vorgesehene Verrechnungsmodus ist.
Entsprechende Modelltests bei Tests angewendet, die bei ihrer Entwicklung (noch) nicht daraufhin geprüft wurden, dokumentieren erfahrungsgemäß deutlich, dass die Verrechnungsfairness nicht gegeben ist.
Beispiel: Anwendung des mehrkategoriell mehrdimensionalen Rasch-Modell geschätzten Itemparameter im Untertest Gemeinsamkeiten finden (HAWIK-R).
Die optimal angepasste Gerade weist auf einen Anstieg von 0,52 auf - wegen relativer Antworthäufigkeiten von 0,00 bzw. 1,00 musten einige Aufgaben aus der analyse ausgeschlossen werden.
Es ist einsichtig, dass umso strengere Voraussetzungen bzw. Modellansprüche an die Items zu stellen sind, je komplizierter der vorgesehene Verrechnungsmodus ist.
Tags: Rasch-Modell, Skalierung
Quelle: S93
Quelle: S93
Wann erfüllt ein Test das Gütekriterium der Ökonomie?
Ein Test erfüllt das Gütekriterium Ökonomie, wenn er, gemessen am diagnostischen Informationsgewinn, relativ wenig Ressourcen (Zeit und Geld) beansprucht.
In diesem Zusammenhang sind 2 Themen interessant:
In diesem Zusammenhang sind 2 Themen interessant:
- Wirtschaftlichkeit und Aufwandsminimierung
- adaptives Testen
Tags: Ökonomie
Quelle: S98
Quelle: S98
Was ist im Zusammenhang mit Wirtschaftlichkeit und Aufwandsminimierung bei Tests zu berücksichtigen?
Ökonomie bestimmt sich im Sinne von Wirtschaftlichkeit über die Kosten der Untersuchung.
Diese entstehen durch
Was die Ressource Zeit betrifft ist genauer zu differenzieren, denn nicht automatisch muss Zeit mit Kosten gleichgesetzt werden.
Zu unterscheiden ist nämlich zwischen der Zeit, die eine psychologisch-diagnostische Untersuchung den Psychologen beansprucht, und der Zeit, die die Testung für die Tp dauert.
Auch muss zwischen der Zeitspannen, in der der Tl bzw. Psychologe für eine Tp bereit sein muss, vielleicht auch ohne tatsächlich aktiv sein zu müssen, und der Nettozeit, also der tatsächlicehn Arbeitszeit des Tl bzw. Psychologen, die für die Untersuchung pro Tp aufgeht.
- Also muss strikt getrennt werden, zwischen der teureren Arbeitszeit des qualifizierten Psychologen und der billigeren Arbeitszeit einer eingeschulten Hilfskraft (Tl oder Auswerter).
Diese entstehen durch
- die Anschaffung eines Tests,
- durch Personalkosten des Testleiters,
- Anschaffungs- und Betriebs-/Verschleißkosten von Computern, sowie schließlich durch den
- Verbrauch von Protokollbögen bzw.
- der Gebühr für die Nutzung computerisierter Tests.
Was die Ressource Zeit betrifft ist genauer zu differenzieren, denn nicht automatisch muss Zeit mit Kosten gleichgesetzt werden.
Zu unterscheiden ist nämlich zwischen der Zeit, die eine psychologisch-diagnostische Untersuchung den Psychologen beansprucht, und der Zeit, die die Testung für die Tp dauert.
Auch muss zwischen der Zeitspannen, in der der Tl bzw. Psychologe für eine Tp bereit sein muss, vielleicht auch ohne tatsächlich aktiv sein zu müssen, und der Nettozeit, also der tatsächlicehn Arbeitszeit des Tl bzw. Psychologen, die für die Untersuchung pro Tp aufgeht.
- Also muss strikt getrennt werden, zwischen der teureren Arbeitszeit des qualifizierten Psychologen und der billigeren Arbeitszeit einer eingeschulten Hilfskraft (Tl oder Auswerter).
Tags: Ökonomie
Quelle: S98
Quelle: S98
Wann verfehlt das psychologische Diagnostizieren seinen Zweck in Bezug auf die Aufwandsminimierung/Ökonomie?
Die Sachlichkeit ist vorrangig gegenüber der Aufwandsminimierung.
Die Wirtschaftlichkeit eines Tests darf bei einer konkreten Fragestellung erst dann zu Buche schlagen und mit der eines anderen konkurrieren, wenn der Einsatz (auch) dieses Tests sachlich gerechtfertigt ist, er die gestellte Frage tatsächlich beantwortet.
So gesehen verfehlt psychologisches Diagnostizieren seinen Zweck, sobald
Die Wirtschaftlichkeit eines Tests darf bei einer konkreten Fragestellung erst dann zu Buche schlagen und mit der eines anderen konkurrieren, wenn der Einsatz (auch) dieses Tests sachlich gerechtfertigt ist, er die gestellte Frage tatsächlich beantwortet.
So gesehen verfehlt psychologisches Diagnostizieren seinen Zweck, sobald
- eine nicht ausreichend in die Psychologische Diagnostik ausgebildete Person als Tl fungiert,
- auf den Einsatz von Tests dort verzichtet wird, wo diese wertvolle diagnostische Informationen liefern würden,
- Tests verwendet werden, anstatt dass eine systematische Verhaltensbeobachtung erfolgt, weil erst diese die relevante diagnostische Information erbringen würde,
- lediglich Tests zum Einsatz kommen, mit denen der Psychologe seit Jahren vertraut ist, die aber weniger diagnostische Information liefern als andere,
- ausschließlich solche Tests eingesetzt werden, die nach dem geltenden (Kranken)Kassenvertrag abzurechnen sind, obwohl andere den diagnostischen Informationsgewinn steigern könnten,
- die Testauswahl primär danach erfolgt, dass die Vorgabe des Tests oder wenigstens Auswertung über Computer möglich ist.
Tags: Ökonomie
Quelle: S99
Quelle: S99
Wann erfüllt ein Test das Gütekriterium der Nützlichkeit?
Ein Test ist dann nützlich
Beispiel: Die Betrachtungen zu den Taylor-Russel-Tafeln zeigten, dass die Anwendung eines Test mit einer Validität von 0,35 bei einer mittleren Grundrate und niedrigen Selektionsrate insofern einen Gewinn bringt, als dann - bei wiederholtem entsprechenden Vorgehen, der Prozentsatz selektierter Geeigneter höher ist als bei Zufallsentscheidungen.
Selbstverständlich ist der Gewinn bzw. sind die Kosten des Einsatzes eines Tests nicht immer monetär zu sehen. Oft genug ist der gesellschaftliche Nutzen bzw. Gewinn oder der gesellschaftliche Schaden bzw. Verlust nicht in Geldeinheiten zu quantifizieren. Trotzdem spielen nutzentheoretische Überlegungen bei der Auswahl und dem Einsatz eines psychologischen Tests immer ein Rolle.
Ausganspunkt der entsprechenden Entscheidungstheorie ist eine Arbeit von Cronbach und Gleser (1965).
- wenn für das von ihm gemessene psychische Merkmal praktische Relevanz besteht und
- die auf seiner Grundlage getroffenen psychologischen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.
Beispiel: Die Betrachtungen zu den Taylor-Russel-Tafeln zeigten, dass die Anwendung eines Test mit einer Validität von 0,35 bei einer mittleren Grundrate und niedrigen Selektionsrate insofern einen Gewinn bringt, als dann - bei wiederholtem entsprechenden Vorgehen, der Prozentsatz selektierter Geeigneter höher ist als bei Zufallsentscheidungen.
Selbstverständlich ist der Gewinn bzw. sind die Kosten des Einsatzes eines Tests nicht immer monetär zu sehen. Oft genug ist der gesellschaftliche Nutzen bzw. Gewinn oder der gesellschaftliche Schaden bzw. Verlust nicht in Geldeinheiten zu quantifizieren. Trotzdem spielen nutzentheoretische Überlegungen bei der Auswahl und dem Einsatz eines psychologischen Tests immer ein Rolle.
Ausganspunkt der entsprechenden Entscheidungstheorie ist eine Arbeit von Cronbach und Gleser (1965).
Tags: Nützlichkeit
Quelle: S112
Quelle: S112
Was unterstützt die Entscheidungstheorie von Cronbach & Gleser (1965) hinsichtlich der Betrachtung der Nützlichkeit eines Tests? Zeige dies am Beispiel der Cerebralschadensdiagnostik.
Ausganspunkt einer entsprechenden Entscheidungtheorie ist einer Arbeit von Cronbach und Gleser (1965). Daraus wir klar, dass es einen Unterschied macht,
Im einfachsten Fall handelt es sich um Alternativentscheidung, sie sachlich richtig oder falsch sein können.
Fehler sind dabei, genauso wie beim Hypothesenprüfen innerhalb der Pearson-Neyman-Statistik, auf zweierlei Art möglich:
Entweder ein Faktum nicht (positiv) zu befunden oder trotz Fehlens des Faktums es doch (positiv) zu befunden.
Läge in diesem Fall die Diagnose alleine im Interesse der Tp und bestünde nur die Wahl zwischen Intervention-ja (ohne Nebenwirkungen) und Intervention-nein, bräuchte man für die Entscheidung eigentlich gar kein Testergebnis; gibt es jedoch (auch) institutionelle Interessen, so müssen Effizienzbetrachtungen miteinbezogen werden.
Beispiel: Cerebralschadensdiagnostik bei Kindern.
In der Abbildung ergibt sich aufgrund des zur Diskussion stehenden Tests in Summe eine Trefferrate von 0,13+0,51 = 0,64 richtiger Entscheidungen.
Die Nützlichkeit des Tests ist jedoch daraus alleine nicht abzuschätzen. Das Beispiel zeigt nämlich Folgendes:
Der Entscheidung über den Einsatz des Tests im gegebenen Zusammenhang muss also eine Nutzenfunktion zugrunde gelegt werden. D.h. für jede der vier Ergebnismöglichkeiten ist (explizit oder implizit) eine nutzentheoretischer Wert zu postulieren.
- ob die angestrebte Diagnose im Interesse der Tp oder im Interesse einer Institution liegt,
- ob und wieviele Interventionsalternativen es gibt und
- ob ein einziges Testergebnis oder mehrere verfügbar sind -
- und vieles mehr
Im einfachsten Fall handelt es sich um Alternativentscheidung, sie sachlich richtig oder falsch sein können.
Fehler sind dabei, genauso wie beim Hypothesenprüfen innerhalb der Pearson-Neyman-Statistik, auf zweierlei Art möglich:
Entweder ein Faktum nicht (positiv) zu befunden oder trotz Fehlens des Faktums es doch (positiv) zu befunden.
Läge in diesem Fall die Diagnose alleine im Interesse der Tp und bestünde nur die Wahl zwischen Intervention-ja (ohne Nebenwirkungen) und Intervention-nein, bräuchte man für die Entscheidung eigentlich gar kein Testergebnis; gibt es jedoch (auch) institutionelle Interessen, so müssen Effizienzbetrachtungen miteinbezogen werden.
Beispiel: Cerebralschadensdiagnostik bei Kindern.
In der Abbildung ergibt sich aufgrund des zur Diskussion stehenden Tests in Summe eine Trefferrate von 0,13+0,51 = 0,64 richtiger Entscheidungen.
Die Nützlichkeit des Tests ist jedoch daraus alleine nicht abzuschätzen. Das Beispiel zeigt nämlich Folgendes:
- Interesse des Tp: weitere Untersuchungen zur besseren Absicherung oder Therapieprogramme auf jeden Fall einsetzen.
- institutionelle Interesse: Unterstellung es geht um eine möglichst hohe Trefferrate - man könnte durch zufällige Entscheidung (0,68) oder durch spieltheoretisch optimierte Entscheidung (0,84) höhere Trefferraten erzielen (0,64). - Der Test hätte also keine Chance.
- institutionelle Interesse - jedoch anderer Nutzen: abhängig von Rahmenbedingungen ist z.B. Spezifität (negative Diagnose bei tatsächlich negativem Zustand) relevant und Sensitivität (positive Diagnose bei tatsächlich positive Zustand) jedoch weitgehend irrelevant. In der Regel haben dann auch die beiden Fehlermöglichkeiten unterschiedliche Bedeutung und wirken dem angeführten Nutzen quasi als Schaden unterschiedlichlich entgegen.
Der Entscheidung über den Einsatz des Tests im gegebenen Zusammenhang muss also eine Nutzenfunktion zugrunde gelegt werden. D.h. für jede der vier Ergebnismöglichkeiten ist (explizit oder implizit) eine nutzentheoretischer Wert zu postulieren.
Tags: Entscheidungstheorie, Nützlichkeit
Quelle: S113
Quelle: S113
Wann erfüllt ein Test das Gütekriterium der Zumutbarkeit?
Ein Test erfüllt das Gütekriterium Zumutbarkeit, wenn er die Testperson absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen in zeitlicher, psychischer (insbesondere energetisch-motivationaler und emotionaler) sowie körperlicher Hinsicht schont.
(Erstmals wurde es vom Testkuratorium der Förderation Deutscher Psychologenvereinigung als Gütekriterium angesprochen (1986). In den 1985 erstellten "Standards für pädagogisches und psychologisches Testen" (ins Deutsche übertragen von der APA) ist es nicht erwähnt, was den historisch recht autoritären Zugang psychologischen Diagnostizieren dokumentiert.)
Es muss kritisch reflektiert werden, was genau einer Tp mit psychologisch-diagnostischen Verfahren zuzumuten ist.
Es ist an die fachliche Erfahrung und Kompetenz des Psychologen zu appellieren, wie sie z.B. in den Richtlinien für die Erstellung Psychologischer Gutachten (Berufsverband dt. Psychologen) gefordert ist: "Es liegt ... in der Verantwortung des jeweiligen Gutachters, welche Verfahren aufgrund des aktuellen Forschungsstandes in der wissenschaftlichen Psychologie auswählt, welchen Umfang der Datenerhebung er für angemessen hält,...".
Es gibt also keine allgemein verbindliche Differenzierung zwischen zu- und unzumutbar sondern es ist gegebenfalls abzuwägen wo die Grenzen zwischen dem subjekt- und dem gesellschaftsbezogenen Nutzen zu ziehen ist. Hier greifen gesellschaftliche Werte bzw. Ideologien ein.
(Erstmals wurde es vom Testkuratorium der Förderation Deutscher Psychologenvereinigung als Gütekriterium angesprochen (1986). In den 1985 erstellten "Standards für pädagogisches und psychologisches Testen" (ins Deutsche übertragen von der APA) ist es nicht erwähnt, was den historisch recht autoritären Zugang psychologischen Diagnostizieren dokumentiert.)
Es muss kritisch reflektiert werden, was genau einer Tp mit psychologisch-diagnostischen Verfahren zuzumuten ist.
Es ist an die fachliche Erfahrung und Kompetenz des Psychologen zu appellieren, wie sie z.B. in den Richtlinien für die Erstellung Psychologischer Gutachten (Berufsverband dt. Psychologen) gefordert ist: "Es liegt ... in der Verantwortung des jeweiligen Gutachters, welche Verfahren aufgrund des aktuellen Forschungsstandes in der wissenschaftlichen Psychologie auswählt, welchen Umfang der Datenerhebung er für angemessen hält,...".
Es gibt also keine allgemein verbindliche Differenzierung zwischen zu- und unzumutbar sondern es ist gegebenfalls abzuwägen wo die Grenzen zwischen dem subjekt- und dem gesellschaftsbezogenen Nutzen zu ziehen ist. Hier greifen gesellschaftliche Werte bzw. Ideologien ein.
Tags: Zumutbarkeit
Quelle: S116
Quelle: S116
Welche Fragen (12) sollten laut Kubinger (2001) betrachtet werden um die Zumutbarkeit psychologischen Diagnostizierens sicherzustellen?
- Welche Testdauer ist regelmäßig, welche in Ausnahmefällen - und das alles in Abhängigkeit verschiedener Populationen von Tpn (etwa Kinder, Erwachsene, Alter) - zumutbar?
- Ist die diesbezüglich zumutbare Testdauer für Leistungs- und Persönlichkeitsverfahren gleich anzusetzen?
- Ist eine obligatorische Intelligenztestung, wie sie in der Praxis vielerorts vorgenommen wird, zumutbar?
- Wie schwierige Aufgabenstellungen innerhalb von Leistungstests sind zumutbar?
- Wie weit in die "Tiefe" gehende Fragen zum persönlichen Intimbereich sind regelmäßig bzw. in Ausnahmefällen zumutbar?
- Inwiefern sind Leistungstest im Multiple-Choice-Format - und zwar in Abhängigkeit von der Fragestellung (etwa Auswahlsituationen, Beratungskontext, Large-Scale-Assessment) - zumutbar? (Berücksichtigung der Ratewahrscheinlichkeit)
- Inwiefern ist bei Persönlichkeitsfragebogen regelmäßig bzw. in welchen Ausnahmefällen - und zwar in Abhängigkeit verschiedener Populationen von Tpn - ein dichotomes Antwortformat zumutbar? (Belastung für Tp wenn Möglichkeit einer neutralen Antwort nicht besteht)
- Inwiefern sind Persönlichkeitsfragebogen wegen ihrer Durchschaubarkeit überhaupt zumutbar? (Augenscheinvalidität: Tp fühlen sich eventuell aufgrund der offensichtlichen Verfälschbarkeit nicht ernst genommen)
- Inwiefern sind projektive Verfahren ohne jede Augenscheinvalidität überhaupt bzw. für welche Fragestellung zumutbar?
- Inwiefern sind sog. "Objektive Persönlichkeitstests" mit ihren die Tp experimentell manipulierenden Aufgabenstellungen überhaupt bzw. für welche Fragestellungen zumutbar?
- Inwieweit ist Computerdiagnostik regelmäßig bzw. in welchen Ausnahmefällen - und zwar in Abhängigkeit verschiedener Populationen von Testpersonen - zumutbar?
- Welcher psychologische Untersuchungsablauf ist zumutbar, welcher nicht? Insbesondere welche Pausengestaltung ist zumutbar?
Verbindliche Richtlinien, die diese Fragen beantworten stehen mangels ensprechender Grundlagenforschung der psychologischen Diagnostik (noch) aus.
Anmerkung (Ergebnisse aus wenigen Studien):
- Bereits bei verhältnismäßig kurze Pausen von 5 Minuten während einer Testung tritt ein Erholungseffekt ein.
- Abhängigkeit Persönlichkeitsfragebogen/Leistungstest: Die vorausgehende Bearbeitung eines Persönlichkeitsfragebogens wirkt sich auf die Testwerte in einem nachfolgenden Leistungstest nicht aus. Umgekehrt erweisen sich einzelne Skalen von Persönlichkeitsfragebogen ("spontane Aggressivität", "emotionale Labilität") in ihren Testwerten verändert, wenn zuvor Leistungstests durchgeführt worden sind.
Tags: Zumutbarkeit
Quelle: S117
Quelle: S117
Wann erfüllt ein Test das Gütekriterium der Unverfälschbarkeit?
Ein Test erfüllt das Gütekriterium der Unverfälschbarkeit, wenn die getestete Person ihr Testergebnis nicht oder nur unwesentlich nach eigenem Belieben beeinflussen kann.
Bei Leistungstests ist es zwar möglich, aber kaum wahrscheinlich, dass eine Tp absichtlich schlechte Leistungen erbringt. Auch der umgekehrte Fall (absichtlich bessere Leistungen als die wahre Fähigkeit) sind in einem überzufälligen Ausmaß auszuschließen.
Bei Persönlichkeitsfragebogen hingegen ist es in der Regel sogar sehr wahrscheinlich, dass eine Tp systematisch verfälscht, d.h. (sozial) erwünscht bzw. zu ihrem persönlichen Vorteil antwortet.
Die Verfälschbarkeit von Persönlichkeitsfragebogen hat insbesondere in der Personalauswahl gravierende Folgen.
Um die Verälschbarkeit von Persönlichkeitsfragebogen hat sich ein gesamter Forschungszweig entwickelt. Durch die Verwendung verschiedener Antwortformate ergeben sich basierende auf den Unterschieden in den resultierenden Testwerten ein "Mindesteffekt", mit dem bei der Personalauswahl mit verfälschten Ergebnissen (sog. "Faking-good") bei der Vorgabe von Persönlichkeitsfragebogen zu rechnen ist.
Bei Leistungstests ist es zwar möglich, aber kaum wahrscheinlich, dass eine Tp absichtlich schlechte Leistungen erbringt. Auch der umgekehrte Fall (absichtlich bessere Leistungen als die wahre Fähigkeit) sind in einem überzufälligen Ausmaß auszuschließen.
Bei Persönlichkeitsfragebogen hingegen ist es in der Regel sogar sehr wahrscheinlich, dass eine Tp systematisch verfälscht, d.h. (sozial) erwünscht bzw. zu ihrem persönlichen Vorteil antwortet.
Die Verfälschbarkeit von Persönlichkeitsfragebogen hat insbesondere in der Personalauswahl gravierende Folgen.
Um die Verälschbarkeit von Persönlichkeitsfragebogen hat sich ein gesamter Forschungszweig entwickelt. Durch die Verwendung verschiedener Antwortformate ergeben sich basierende auf den Unterschieden in den resultierenden Testwerten ein "Mindesteffekt", mit dem bei der Personalauswahl mit verfälschten Ergebnissen (sog. "Faking-good") bei der Vorgabe von Persönlichkeitsfragebogen zu rechnen ist.
Tags: Persönlichkeitsfragebogen, Unverfälschbarkeit
Quelle: S122
Quelle: S122
Was versteht man unter dem Phänomen der "Alexithymie"?
(Unverfälschbarkeit)
Bei der Alexithymie geht es zwar nicht ums Verfälschen, jedoch um eine grundsätzliche Kritik an Persönlichkeitsfragebogen.
Es ist darunter das Unvermögen einer Person zu verstehen, Gefühle angemessen wahrnehmen und beschreiben zu können.
Dies findet sich zumindest bei einigen Patientengruppen. Übrigens sprechen natürlich auch "selbstbetrügerische" Tendenzen mancher Tpn gegen die Zweckmäßigkeit von Persönlichkeitsfragebogen.
Bei der Alexithymie geht es zwar nicht ums Verfälschen, jedoch um eine grundsätzliche Kritik an Persönlichkeitsfragebogen.
Es ist darunter das Unvermögen einer Person zu verstehen, Gefühle angemessen wahrnehmen und beschreiben zu können.
Dies findet sich zumindest bei einigen Patientengruppen. Übrigens sprechen natürlich auch "selbstbetrügerische" Tendenzen mancher Tpn gegen die Zweckmäßigkeit von Persönlichkeitsfragebogen.
Tags: Persönlichkeitsfragebogen, Unverfälschbarkeit
Quelle: S121
Quelle: S121
Welche Verfahren zur Persönlichkeitsdiagnostik wurden entwickelt die weniger leicht verfälschbar sind?
Objektive Persönlichkeitstests
Dabei werden einerseits persönliche Stil-Merkmale bei typischen Leistungsanforderungen beobachtet - und die Tp muss sich in der Regel nicht selbst beurteilen - und andererseits ist das Messprinzip nur schwer zu durschauen. Dadurch wird eine geringe Verfälschbarkeit erwartet und dies ist auch durch einige Studien gestützt.
Untersuchung von Baldinger (2006):
Nicht prüfungsrelevant:
Die Testbatterie Arbeitshaltungen enthält unter anderem den auf auf R.B. Catell zurückgehenden Untertest "Flächengrößen Vergleichen".
Die Flächenpaare sind so gestaltet, dass die richtige Antwort nicht offensichtlich ist, die Tp also grundsätzlich zum Raten verleitet wird.
Der Testkennwert setzt nun die Anzahl richtiger und falscher sowie nicht erfolgter Entscheidungen derart in Beziehung, dass die Tendenz einer Tp zu eher impulsivem oder eher reflexivem Verhalten quantifiziert wird. Dieses Messprinzip ist von der Tp nicht genau zu durchschauen.
Dabei werden einerseits persönliche Stil-Merkmale bei typischen Leistungsanforderungen beobachtet - und die Tp muss sich in der Regel nicht selbst beurteilen - und andererseits ist das Messprinzip nur schwer zu durschauen. Dadurch wird eine geringe Verfälschbarkeit erwartet und dies ist auch durch einige Studien gestützt.
Untersuchung von Baldinger (2006):
- Vergleich von Stellenbewerbern und Klienten im Beratungskontext.
- Untersuchung mittels BIP und Objektiven Persönlichkeitstest Arbeitshaltungen
- Ergebnis: Gruppen unterschieden sich nicht in "Arbeitshaltungen", jedoch ergaben sich für die Gruppe der Bewerber in 9 der insgesamt 14 Skalen des BIP TEstwerte, die signifikant höhere Ausprägungen aufwiesen
Nicht prüfungsrelevant:
Die Testbatterie Arbeitshaltungen enthält unter anderem den auf auf R.B. Catell zurückgehenden Untertest "Flächengrößen Vergleichen".
Die Flächenpaare sind so gestaltet, dass die richtige Antwort nicht offensichtlich ist, die Tp also grundsätzlich zum Raten verleitet wird.
Der Testkennwert setzt nun die Anzahl richtiger und falscher sowie nicht erfolgter Entscheidungen derart in Beziehung, dass die Tendenz einer Tp zu eher impulsivem oder eher reflexivem Verhalten quantifiziert wird. Dieses Messprinzip ist von der Tp nicht genau zu durchschauen.
Tags: Objektive Persönlichkeitstests, Unverfälschbarkeit
Quelle: S122
Quelle: S122
Wann erfüllt ein Test das Gütekriterium Fairness? Welche Themen werden hier diskutiert?
Ein Test erfüllt das Gütekriterium Fairness, wenn die resultierenden Testwerte zu keiner systematischen Diskriminierung bestimmter Testpersonen zum Beispiel aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen.
Konkret geht es um mögliche Benachteiligungen durch testimmanente Bedingungen, wie
Zu unterscheiden ist insbesondere, ob "nur" einzelne Items bestimmte Gruppen von Tpn benachteiligen, also einen Item Bias aufweisen, oder ob der Test insgesamt benachteiligt.
In Bezug auf eine globale Benachteiligung beschäftigt sich die psychologische Diagnostik traditionell mit sozioökonomisch bedingten Handikaps (culture-fair-tests).
An traditionellen Testkonzepten wurde nämlich kritisiert, dass mit ihnen Personen, die unteren Sozialschichten angehören, nicht nur in Bezug auf die im Test geforderte Sprachkompetenz gehandikapt werden, sondern auch in Bezug auf die thematischen Aspekte des Tests.
Relevante Themen im Bezug zu Fairness:
Konkret geht es um mögliche Benachteiligungen durch testimmanente Bedingungen, wie
- Instruktion (z.B. sprachliche Verständlichkeit),
- technische Handhabung (z.B. Testreaktionen via Computer) und
- inhaltliche Details des Testmaterials (z.B. Bezug auf religiöse Wertmaßstäbe).
Zu unterscheiden ist insbesondere, ob "nur" einzelne Items bestimmte Gruppen von Tpn benachteiligen, also einen Item Bias aufweisen, oder ob der Test insgesamt benachteiligt.
In Bezug auf eine globale Benachteiligung beschäftigt sich die psychologische Diagnostik traditionell mit sozioökonomisch bedingten Handikaps (culture-fair-tests).
An traditionellen Testkonzepten wurde nämlich kritisiert, dass mit ihnen Personen, die unteren Sozialschichten angehören, nicht nur in Bezug auf die im Test geforderte Sprachkompetenz gehandikapt werden, sondern auch in Bezug auf die thematischen Aspekte des Tests.
Relevante Themen im Bezug zu Fairness:
- Sprachunabhängige bzw. sprachfreie Tests und Instruktionen
- Schichtunabhängig
- Computerdiagnostik & ältere Tpn
- Wahrnehmungstypen (visuell vs. akustisch)
- Gruppenspezifische Unterschiede (und die Verwendung von spezifischen Eichtabellen)
- Einfluss der Testerfahrung (Vertrautheit mit psychologischen Tests im Allgemeinen).
Tags: culture-fair, Fairness
Quelle: S123
Quelle: S123
Was ist ein typisches Beispiel für Culture-Fair-Tests und inwiefern sind diese "Kulturabhängig"?
(Kapitel Gütekriterium Fairness)
Als typisches Beispiel von Culture-Fair-Tests können Matrizentests, zum Beispiel der WMT, angeführt werden. Zwar ist dort, anders als im Test SPM, eine sprachfreie Instruktion nicht explizit vorgesehen oder gar eigens im Manual angeführt, dennoch ist Sprachkompetenz nur so weit nötig, wie es das Begreifen der Instruktion erfordert.
(Kapitel Spezielle Leistungstests Reasoning)
Deutschsprachig gibt es innerhalb der Psychologischen Diagnostik verschiedene Übersetzungsversuche von Culture-Fair. Zumeist wird von "kulturfrei" oder von "kulturabhängig" gesprochen. Dass "Kulturunabhängigkeit" grundsätzlich nicht zu erreichen ist, lässt sich u.a. daraus ableiten, dass manche Kulturen gar keine Erfahrung mit den rechtwinkelig gestalteten Formen und Figuren haben (wie häufig verwendet).
Eine der Qualitäten des WMT liegt gerade darin, dass dieser Test laut Analysen nach dem Rasch-Modell in Österreich und in Westafrika (Togo und Nigeria) nachweislich eindimensional, und zwar dieselbe Fähigkeit misst.
Das heißt aber nicht, dass der Test "kulturfrei" oder "Culture-Fair" ist: Im Mittel schneiden die österreichischen Tpn (nicht nur signifikant, sondern deutlich) besser ab.
(Wird der Test nur innerhalb eines Kulturkreises angewandt so ist dieser Unterschied irrelevant).
Als typisches Beispiel von Culture-Fair-Tests können Matrizentests, zum Beispiel der WMT, angeführt werden. Zwar ist dort, anders als im Test SPM, eine sprachfreie Instruktion nicht explizit vorgesehen oder gar eigens im Manual angeführt, dennoch ist Sprachkompetenz nur so weit nötig, wie es das Begreifen der Instruktion erfordert.
(Kapitel Spezielle Leistungstests Reasoning)
Deutschsprachig gibt es innerhalb der Psychologischen Diagnostik verschiedene Übersetzungsversuche von Culture-Fair. Zumeist wird von "kulturfrei" oder von "kulturabhängig" gesprochen. Dass "Kulturunabhängigkeit" grundsätzlich nicht zu erreichen ist, lässt sich u.a. daraus ableiten, dass manche Kulturen gar keine Erfahrung mit den rechtwinkelig gestalteten Formen und Figuren haben (wie häufig verwendet).
Eine der Qualitäten des WMT liegt gerade darin, dass dieser Test laut Analysen nach dem Rasch-Modell in Österreich und in Westafrika (Togo und Nigeria) nachweislich eindimensional, und zwar dieselbe Fähigkeit misst.
Das heißt aber nicht, dass der Test "kulturfrei" oder "Culture-Fair" ist: Im Mittel schneiden die österreichischen Tpn (nicht nur signifikant, sondern deutlich) besser ab.
(Wird der Test nur innerhalb eines Kulturkreises angewandt so ist dieser Unterschied irrelevant).
Tags: culture-fair, Fairness
Quelle: S124, S207
Quelle: S124, S207
Was zeigten Untersuchungen zum AID 2 hinsichtlich
- Einsatz von sprachfreien Instruktionen?
- Unterschiede in verschiedenen sozialen Schichten?
- Einsatz von sprachfreien Instruktionen?
- Unterschiede in verschiedenen sozialen Schichten?
AID2: Einsatz von sprachfreien Instruktionen
Im AID2 wurde bereits in der früheren Auflage für sämtliche Untertests zur Messung von manuell-visuellen Fähigkeiten sowie für zwei Zusatztests eine sprachfreie Instruktion optional angeboten.
In einem Experiment, welches die Angemessenheit der Eichung auch für die sprachfreien Instruktionen prüfen sollte, stellten die Autoren fest, dass dabei für etliche Kinder beim Untertest Realitätssicherheit erhebliche Verständnisschwierigkeiten gegeben sind. Es macht vor allem den jüngeren Tp Probleme, die sprachfreie Instruktion dahingehend zu begreifen, dass bei den gebotenen Bildern auf wichtige fehlende Details zu zeigen ist.
Als Konsequenz des angeführten Ergebnisses wurde für die aktuelle Auflage des AID2 eine geänderte, noch anschaulichere sprachfreie Instruktion entwickelt.
AID 2: Unterschiede in sozialen Schichten
Was Unterschiede in den Testwerten einschlägiger Intelligenz-Testbatterien zwischen Personen verschiedener Sozialschichten betrifft, schein sich eine interessante Entwicklung abzuzeichnen: Während im Manual des 1985 publizierten AID noch signifikant und relevante Unterschiede hinsichtlich aller Untertests in Bezug auf "obere" vs. "untere" Sozialschicht angegeben sind (bis zu 11 T-Werte zu Ungunsten der "Unteren Sozialschicht") - wird im Manual 2000 publizierten AID 2 explizit darauf hingewiesen, dass keine solche Unterschiede (mehr) bestehen.
Im AID2 wurde bereits in der früheren Auflage für sämtliche Untertests zur Messung von manuell-visuellen Fähigkeiten sowie für zwei Zusatztests eine sprachfreie Instruktion optional angeboten.
In einem Experiment, welches die Angemessenheit der Eichung auch für die sprachfreien Instruktionen prüfen sollte, stellten die Autoren fest, dass dabei für etliche Kinder beim Untertest Realitätssicherheit erhebliche Verständnisschwierigkeiten gegeben sind. Es macht vor allem den jüngeren Tp Probleme, die sprachfreie Instruktion dahingehend zu begreifen, dass bei den gebotenen Bildern auf wichtige fehlende Details zu zeigen ist.
Als Konsequenz des angeführten Ergebnisses wurde für die aktuelle Auflage des AID2 eine geänderte, noch anschaulichere sprachfreie Instruktion entwickelt.
AID 2: Unterschiede in sozialen Schichten
Was Unterschiede in den Testwerten einschlägiger Intelligenz-Testbatterien zwischen Personen verschiedener Sozialschichten betrifft, schein sich eine interessante Entwicklung abzuzeichnen: Während im Manual des 1985 publizierten AID noch signifikant und relevante Unterschiede hinsichtlich aller Untertests in Bezug auf "obere" vs. "untere" Sozialschicht angegeben sind (bis zu 11 T-Werte zu Ungunsten der "Unteren Sozialschicht") - wird im Manual 2000 publizierten AID 2 explizit darauf hingewiesen, dass keine solche Unterschiede (mehr) bestehen.
Tags: culture-fair, Fairness
Quelle: S124
Quelle: S124
Was zeichen Studien hinsichtlich der Fairness bei der Anwendung von Computerdiagnostik für ältere Tpn?
Schlüssige Studien, deren Ergebnisse vor allem auch für die relevante Population in etwa fünf Jahren generalisiert werden könnten, liegen dazu nicht vor.
So ist dieser Skepsis bloß entgegenzuhalten, dass Computerverfahren erstens seitens der Tpn erfahrungsgemäßg außerordentlich gut akzeptiert werden und zweitens bei Fragestellungen der neuropsychologischen Diagnostik heute bereits obligat ist.
Schon eine frühe Studie von Hergovich (1994) zeigte, dass selbst beim (Linien-)Zeichnen mit der Maus keine signifikanten Leistungsunterschiede zwischen Tpn mit und ohne Mauserfahrung bestehen, sobald ein entsprechendes Lernprogramm dem eigentlichen Computerverfahren vorausgeht.
So ist dieser Skepsis bloß entgegenzuhalten, dass Computerverfahren erstens seitens der Tpn erfahrungsgemäßg außerordentlich gut akzeptiert werden und zweitens bei Fragestellungen der neuropsychologischen Diagnostik heute bereits obligat ist.
Schon eine frühe Studie von Hergovich (1994) zeigte, dass selbst beim (Linien-)Zeichnen mit der Maus keine signifikanten Leistungsunterschiede zwischen Tpn mit und ohne Mauserfahrung bestehen, sobald ein entsprechendes Lernprogramm dem eigentlichen Computerverfahren vorausgeht.
Tags: culture-fair, Fairness
Quelle: S125
Quelle: S125
Was versteht man unter der Neuropsychologischen Diagnostik?
"Neuropsychologische Diagnostik" beschäftigt sich mit der wissenschaftlichen fundierten, qualitativen und quantitativen ERfassung und objektiven Beschreibung aktueller kognitiver und affektiver Funktionsstörungen in Folge einer erworbenen Hirnschädigung oder Hirnfunktionsstörung anhand geeigneter psychologischer und spezieller neuropsychologischer Tests sowie den emotionalen Reaktionen eines Patienten auf diese Beeinträchtigungen und Störungen.
Tags: Fairness
Quelle: S125
Quelle: S125
Inwiefern tragen gruppenspezifische Eichtabellen zur Fairness bei?
Selbstverständlich ist Tests auch dann Fairness zu attestieren, wenn eine signifikant von null abweichende, sachlich begründete Korrelation zwischen den Testwerten und der Zugehörigkeit zu einer gesellschaftlichen Gruppe besteht.
Alldering müssen dazu gruppenspezifische Eichtabellen angeboten werden, wie das regelmäßig in Bezug auf alters- und geschlechtsspezifische Unterschiede der Fall ist. Zum Beispiel bei Intelligenztests für Kinder werden so entwicklungspsychologisch begründete Niveauunterschiede nivelliert.
(Anmerkung: Ev. ist jedoch die Verwendung von gruppenspezifischen Eichtabellen nicht sinnvoll, z.B. bei einer Berufseignungsdiagnostik in der es um eine Bestenauswahl geht - hier sind z.B. geschlechtsspezifische Eichtabellen für die "Raumvorstellung" nicht sinnvoll die die Qualifikation relativieren.)
Alldering müssen dazu gruppenspezifische Eichtabellen angeboten werden, wie das regelmäßig in Bezug auf alters- und geschlechtsspezifische Unterschiede der Fall ist. Zum Beispiel bei Intelligenztests für Kinder werden so entwicklungspsychologisch begründete Niveauunterschiede nivelliert.
(Anmerkung: Ev. ist jedoch die Verwendung von gruppenspezifischen Eichtabellen nicht sinnvoll, z.B. bei einer Berufseignungsdiagnostik in der es um eine Bestenauswahl geht - hier sind z.B. geschlechtsspezifische Eichtabellen für die "Raumvorstellung" nicht sinnvoll die die Qualifikation relativieren.)
Tags: culture-fair, Fairness
Quelle: S126
Quelle: S126
Welchen Einfluss kann Testerfahrung auf die Fairness eines Tests haben?
Manche Tests bevorteilen in hohem Grad Testroutinees bzw. viele Tests benachteiligen Tpn, die noch keine
Erfahrung mit psychologischen Tests gemacht haben.
Dabei geht es weniger um spezifische Übungs- bzw. Erinnerungs-Effekte, wie sie bei mehrmaliger Testung mit ein und demselben Test üblich sind, als vielmehr grundsätzlich um die Gewöhnung an und die Vertrautheit mit Items psychologischer Tests.
Eigentlich sollten Tests daher auch hinsichtlich der "Erfahrungsunabhängigkeit" ihrer Testergebnisse geprüft werden.
(Es gibt einige Bücher die eine kompetent aufbereitete Informationsgebung für Stellenwerber liefern oder sogar Trainings, z.B. für Langzeitarbeitslose, um die Unerfahrenheit einer Tp im Umgang mit psychologischen Tests auszuschließen.)
Erfahrung mit psychologischen Tests gemacht haben.
Dabei geht es weniger um spezifische Übungs- bzw. Erinnerungs-Effekte, wie sie bei mehrmaliger Testung mit ein und demselben Test üblich sind, als vielmehr grundsätzlich um die Gewöhnung an und die Vertrautheit mit Items psychologischer Tests.
Eigentlich sollten Tests daher auch hinsichtlich der "Erfahrungsunabhängigkeit" ihrer Testergebnisse geprüft werden.
(Es gibt einige Bücher die eine kompetent aufbereitete Informationsgebung für Stellenwerber liefern oder sogar Trainings, z.B. für Langzeitarbeitslose, um die Unerfahrenheit einer Tp im Umgang mit psychologischen Tests auszuschließen.)
Tags: Fairness
Quelle: S126
Quelle: S126
Welche Arten psychologisch-diagnostischer Verfahren (10) sind zu unterscheiden?
- Anamneseerhebung
- Exploration
- Verhaltensbeobachtung
- Biografisches Inventar
- Assessment-Center
- Arbeitsplatzanalyse
- Tests im eigentlichen Sinn des Wortes (Prüfung): Leistungstests und Objektive Persönlichkeitstests
- Persönlichkeitsfragebogen
- Projektive Verfahren
Tags: Diagnostik, Verfahren
Quelle: S129
Quelle: S129
Welche formalen Aspekte von psychologisch-diagnostischen Verfahren können unterschieden werden (im Überblick)?
- Gestaltungsweisen - Freies Antwortformat vs. Multiple-Choice-Format- Power- vs. Speed-and-Power-Test- Gruppen- vs. Individualverfahren- Papier-Bleistift-Verfahren vs. Computerverfahren
- Erhebungstechniken - Prüfen- Fragen- Beobachten
- Prozess-Strategien - Untersuchungsstrategien- EntscheidungsstrategienDiesbezüglich gewinnen oder verlieren einzelne psychologisch-diagnostische Verfahren an Bedeutung.
Tags: Formal
Quelle: S129
Quelle: S129
Was versteht man unter
- power-test?
- speed-test?
- speed-and-power-test?
- power-test?
- speed-test?
- speed-and-power-test?
power-test
Test der Leistungshöhe, ...haben entweder keine oder eine großzügig bemessene Zeitbegrenzung.
speed-tests
sind Tests, bei denen die Bearbeitungsgeschwindigkeit als Leistung bewertet wird. Der Schwierigkeitsgrad der Aufgaben ist dabei sehr niedrig.
Speed-and-Power-Tests
beinhalten sowohl eine power- als auch seine Speed-Komponente, stellen also anspruchsvolle Leistungsanforderungen unter Zeitdruck.
Test der Leistungshöhe, ...haben entweder keine oder eine großzügig bemessene Zeitbegrenzung.
speed-tests
sind Tests, bei denen die Bearbeitungsgeschwindigkeit als Leistung bewertet wird. Der Schwierigkeitsgrad der Aufgaben ist dabei sehr niedrig.
Speed-and-Power-Tests
beinhalten sowohl eine power- als auch seine Speed-Komponente, stellen also anspruchsvolle Leistungsanforderungen unter Zeitdruck.
Tags: Formal, Speed-and-Power-Test
Quelle: S129
Quelle: S129
Was sind die Vor- und Nachteile von Multiple-Choice-Formaten?
- Verrechnungssicherheit - Vorteil: verrechnungssicher (Anmerkung: es können natürlich auch Tests mit freiem Antwortformat verrechnungssicher sein)- Nachteil: diagnostisch weniger aufschlussreich als freies Antwortformat(Anmerkung: Jedoch ist mit einem freien Antwortformat nicht jedes Mal ein "aufschlussreicheres" Diagnostizieren verbunden.)
- Gruppen- vs Individualverfahren - Vorteil: mittels MC-Format kann Gruppenverfahren konzipiert werden.
- Rateeffekt: 3-PL bzw. Difficulty plus Guessing PL Modell Dem gravierenden Nachteil des MC-Formats, mehr oder weniger große Rateeffekte zu provozieren, könnte durch die Skalierung eines Tests nach einem dieser Modelle begegnet werden.
- Zumutbarkeit Gerade die Chance, nicht durch Fähigkeit, sondern durch Raten zur Lösung zu kommen, ohne dass dieses Faktum in faierer Weise mit einkalkuliert wird, spricht gegen das MC-Format.
- Wirtschaftlichkeit - Vorteil: Gestaltung als Gruppenverfahren, vergleichsweise kurze Bearbeitungsdauer je Aufgabe, geringer AuswertungsaufwandAnmerkung: Unter Umständen stößt man an inhaltliche Grenzen :- bei Prüfung gelernter Inhalte fällt das "Wiedererkennen" leichter als das "Reproduzieren"- es können mehrere qualitativ verschiedene Lösungsstrategien angewandt werden und das könnte dem Streben nach eindimensionaler Messung zuwiderlaufen.
Tags: Formal, Multiple-Choice-Format
Quelle: S130
Quelle: S130
Welche inhaltlichen Gründe können für die Verwendung des MC-Formats sprechen?
Bei manchen Testkonzepten ist die Aufgabenstellung erst über die Antwortmöglichkeiten definiert.
Der Untertest N-Test 1 aus dem KFT 4-12+R zum Beispiel, verlangt von der Testperson, pro Aufgabe eine gemeinsame Eigenschaft von 3 Figuren herauszufinden, wobei diese erst durch die beigegebenen fünf Antwortmöglichkeiten bestimmt ist.
(Beispiel noch einscannen - S133 unten)
Der Untertest N-Test 1 aus dem KFT 4-12+R zum Beispiel, verlangt von der Testperson, pro Aufgabe eine gemeinsame Eigenschaft von 3 Figuren herauszufinden, wobei diese erst durch die beigegebenen fünf Antwortmöglichkeiten bestimmt ist.
(Beispiel noch einscannen - S133 unten)
Tags: Formal, Multiple-Choice-Format
Quelle: S133
Quelle: S133
Welche Rolle spielt der Rateeffekt bei MC-Format und wie kann dieser in den Griff bekommen werden (6)?
Sehr oft unterschätzt wird die diagnostische Tragweite des Rateeffekts beim Multiple-Choice-Format. Die Wahrscheinlichkeit nämlich, dass die Tp bei einer Aufgabe nur zufällig die richtige Antwortmöglichkeit wählt und folglich die Aufgabe als "gelöst" verrechnet wird, kann relativ groß werdne.
Die "a-priori Ratewahrscheinlichkeit" bezeichnet die Wahrscheinlichkeit, wenn die Wahrscheinlichkeit eines "Treffers", lediglich von der Anzahl der dargebotenen Antwortmöglichkeiten abhängt.
Heute gibt es häufig 5 Antwortmöglichkeiten (1 Lösung + 4 Distraktoren); dass heißt die Ratewahrscheinlichkeit beträgt dann 1/5 = 0,20.
Diese Ratewahrscheinlichkeit wird höher (bis zu 1/2), wenn die Person über ein moderates Fähigkeitsniveau verfügt.
Ein allfälliger Rateeffekt ist testtheoretisch am besten mit dem 3PL bzw. dem Difficulty-plus-Guessing PL-Modell in den Griff zu bekommen: Hier wird der gesuchte Personenparameter eben gerade unter Berücksichtigung der Item-Rateparameter geschätzt.
Die Chance, erfolgreich zu raten, wird also in den Testwert mit ein kalkuliert, es kommt zu einer fairen Verrechnung der Testleistung.
Eine weitere Möglichkeit den Rateeffekt zu minimieren, ist die Anzahl der Antwortmöglichkeiten extrem anzuhöhen - dies ist jedoch unpraktikabel. Eine weitere Möglichkeit ist zwei richtige Antwortmöglichkeiten vorzusehen (und die Antwort ist nur richtig wenn beide angekreuzt werden).
Beispiel mit 5 Antwortmöglichkeiten: (5/2) = 1/10 = 0,10.
Noch stärker lässt sich die a-priori-Ratewahrscheinlichkeit reduzieren, wenn beliebig viele der Antwortmöglichkeiten richtig oder falsch sein können, also sogar auch einmal gar keine oder auch alle.
Weiters gibt es die Möglichkeit mit besonderen Instruktionen oder Antwortmöglichkeiten die Tp vom Raten abzuhalten.
(Beispiel 3DW: 2 Antwortmöglichkeiten "Ich weiß die Lösung nicht" und "Kein Würfel richtig".)
Auch kann die Ratewahrscheinlichkeit durch das sequenzielle vorgeben der Antwortmöglichkeiten, im gegensatz zur parallelen Vorgabe erheblich reduziert werden.
Die "a-priori Ratewahrscheinlichkeit" bezeichnet die Wahrscheinlichkeit, wenn die Wahrscheinlichkeit eines "Treffers", lediglich von der Anzahl der dargebotenen Antwortmöglichkeiten abhängt.
Heute gibt es häufig 5 Antwortmöglichkeiten (1 Lösung + 4 Distraktoren); dass heißt die Ratewahrscheinlichkeit beträgt dann 1/5 = 0,20.
Diese Ratewahrscheinlichkeit wird höher (bis zu 1/2), wenn die Person über ein moderates Fähigkeitsniveau verfügt.
Ein allfälliger Rateeffekt ist testtheoretisch am besten mit dem 3PL bzw. dem Difficulty-plus-Guessing PL-Modell in den Griff zu bekommen: Hier wird der gesuchte Personenparameter eben gerade unter Berücksichtigung der Item-Rateparameter geschätzt.
Die Chance, erfolgreich zu raten, wird also in den Testwert mit ein kalkuliert, es kommt zu einer fairen Verrechnung der Testleistung.
Eine weitere Möglichkeit den Rateeffekt zu minimieren, ist die Anzahl der Antwortmöglichkeiten extrem anzuhöhen - dies ist jedoch unpraktikabel. Eine weitere Möglichkeit ist zwei richtige Antwortmöglichkeiten vorzusehen (und die Antwort ist nur richtig wenn beide angekreuzt werden).
Beispiel mit 5 Antwortmöglichkeiten: (5/2) = 1/10 = 0,10.
Noch stärker lässt sich die a-priori-Ratewahrscheinlichkeit reduzieren, wenn beliebig viele der Antwortmöglichkeiten richtig oder falsch sein können, also sogar auch einmal gar keine oder auch alle.
Weiters gibt es die Möglichkeit mit besonderen Instruktionen oder Antwortmöglichkeiten die Tp vom Raten abzuhalten.
(Beispiel 3DW: 2 Antwortmöglichkeiten "Ich weiß die Lösung nicht" und "Kein Würfel richtig".)
Auch kann die Ratewahrscheinlichkeit durch das sequenzielle vorgeben der Antwortmöglichkeiten, im gegensatz zur parallelen Vorgabe erheblich reduziert werden.
Tags: Formal, Multiple-Choice-Format
Quelle: S134
Quelle: S134
Welche Rolle spielt das MC-Format bei Persönlichkeitsfragebögen?
Hier spricht man nicht von einem MC-Format sondern von einem Rating-Skala-Format.
Auch bei Persönlichkeitsfragebögen kann es dazu kommen, dass dabei Antworten zufällig zustande kommen, also eine der vorgegebenen Antwortmöglichkeiten von der Tp nicht mit Bezug auf die zu messen gesuchte Eigenschaft gewählt werden - etwa wenn der Tp keine der vorgegebenen Antwortmöglichkeiten passend erscheint.
Insbesondere leistet das MC-Format bzw. Rating-Skala-Format bestimmten Antworttendenzen (Reponse-Sets) Vorschub, wie der Akquieszenz-Tendenz (Ja-Sage-Tendenz) oder der Tendenz zur Mitte.
Da eine offensichliche Entscheidung eine höhere diagnostische Information enthält als neutrale (mittlere) Antwortmöglichkeiten ist zu beachten ob die Verwendung eines Forced-Choice-Formats in Relation zum Risiko einer (subjektiven) Überforderung der Tp mit allen denkbaren Konsequenzen tatsächlich lohnt.
(Wird auf neutrale Antwortmöglichkeit verzichtet, soll es wenigstens mehrfach abstufende Antwortmöglichkeiten geben.)
Auch bei Persönlichkeitsfragebögen kann es dazu kommen, dass dabei Antworten zufällig zustande kommen, also eine der vorgegebenen Antwortmöglichkeiten von der Tp nicht mit Bezug auf die zu messen gesuchte Eigenschaft gewählt werden - etwa wenn der Tp keine der vorgegebenen Antwortmöglichkeiten passend erscheint.
Insbesondere leistet das MC-Format bzw. Rating-Skala-Format bestimmten Antworttendenzen (Reponse-Sets) Vorschub, wie der Akquieszenz-Tendenz (Ja-Sage-Tendenz) oder der Tendenz zur Mitte.
Da eine offensichliche Entscheidung eine höhere diagnostische Information enthält als neutrale (mittlere) Antwortmöglichkeiten ist zu beachten ob die Verwendung eines Forced-Choice-Formats in Relation zum Risiko einer (subjektiven) Überforderung der Tp mit allen denkbaren Konsequenzen tatsächlich lohnt.
(Wird auf neutrale Antwortmöglichkeit verzichtet, soll es wenigstens mehrfach abstufende Antwortmöglichkeiten geben.)
Tags: Multiple-Choice-Format, Persönlichkeitsfragebogen
Quelle: S141
Quelle: S141
Was versteht man unter "Response-Set"?
Das "ist die Bezeichnung für alle jene Einflüsse, die sich durch bestimmte Antwortstereotypen der Testperson verfälschend auf die intendierte Dimension eines Tests auswirken.
Es werden zwei grundlegende Formen unterschieden:
Es werden zwei grundlegende Formen unterschieden:
- Formale Response Sets: durch spezielle Form der Antwortvorgabe bedingt.
- Inhaltliche Reponse Sets: verfälschende Antwort aufgrund spezifischen Inhalts eines Items oder Tests (defensive Einstellungen, soziale Erwünschtheit, Abweichungsreaktionen, Lügen)
Tags: Formal, Multiple-Choice-Format, Persönlichkeitsfragebogen
Quelle:
Quelle:
Was sind die Vor- und Nachteile von Power vs. Speed-and-Power-Test?
Gruppenverfahren erzwingen praktisch die Gestaltung als Speed-and-Power-Test wenn sie als Papier-Bleistift-Verfahren durchgeführt werden.
Wie beim MC-Format stoßen Speed-and-Power-Tests dann an inhaltliche Grenzen, wenn allein der wirtschaftliche Aspekt, nämlich die Gestaltungsmöglichkeit als Gruppenverfahren, verantwortlich für die Begrenzung der Bearbeitungszeit.
Geht es um hochwertige bis herausragende Leistungen so ist die Gestaltung als Speed-and-Power-Test verfehlt.
Die Vermengung zweier Eigenschaftsdimensionen bei einem Speed-and-Power-Test steht dem Streben nach Eindimensionalität entgegen und es ist keine förderungsorientierte Diagnostik möglich.
Manchmal ist die Vermengung der Komponenten gewünscht - z.B. Raumvorstellungstest für Piloten.
Wie beim MC-Format stoßen Speed-and-Power-Tests dann an inhaltliche Grenzen, wenn allein der wirtschaftliche Aspekt, nämlich die Gestaltungsmöglichkeit als Gruppenverfahren, verantwortlich für die Begrenzung der Bearbeitungszeit.
Geht es um hochwertige bis herausragende Leistungen so ist die Gestaltung als Speed-and-Power-Test verfehlt.
Die Vermengung zweier Eigenschaftsdimensionen bei einem Speed-and-Power-Test steht dem Streben nach Eindimensionalität entgegen und es ist keine förderungsorientierte Diagnostik möglich.
Manchmal ist die Vermengung der Komponenten gewünscht - z.B. Raumvorstellungstest für Piloten.
Tags: Formal, Speed-and-Power-Test
Quelle: S143
Quelle: S143
Was sind die Vor- und Nachteile von Gruppen- und Individualverfahren?
Vorteil Individualverfahren
Vorteile Gruppenverfahren
Amelang und Schmit-Atzert (2006) führen 3 Nachteile von Gruppenverfahren an:
- Einsatzmöglichkeit ganz besonderer Testmaterialien: z.B. Puzzles.
Vorteile Gruppenverfahren
- Wirtschaftliche Aspekte
- mutmaßliche Testleiterunabhängigkeit
- ev. ziehen Testpersonen "Anonymität" vor
Amelang und Schmit-Atzert (2006) führen 3 Nachteile von Gruppenverfahren an:
- Benachteiligung von Tpn mit geringer Lesefertigkeit infolge der obligatorischen schriftlichen Fassung des Gruppenverfahrens
- Gefahr des Abschreibens der Tpn untereinander
- Störung der Tp durch die anderen Tpn
Tags: Formal, Gruppenverfahren, Individualverfahren
Quelle: S145
Quelle: S145
Nach welchen 3 Erhebungstechniken lassen sich alle psychologisch-diagnostische Verfahren charakterisieren (Überblick)?
- Prüfen
- Fragen
- Beobachten
Alle Verfahren: Anamneseerhebung, Exploration, Verhaltensbeobachtung, Biografisches Inventar, Assessment-Center, Arbeitsplatzanalysen sowie Tests, Persönlichkeitsfragebogen und projektive Verfahren.
Allerdings sind nur einige dieser Verfahren eindeutig einer einzigen Erhebungstechnik zuzuordnen (z.B. definitionsgemäß:
- Tests dem Prüfen,
- Persönlichkeitsfragebogen dem Fragen,
- Verhaltensbeobachtung dem Beobachten), andere sind dies grundsätzlich nicht (z.B. Assessment Center)
Genau genommen wird aber auch in der Leistungsdiagnostik nicht nur geprüft: So können bestimmte Fähigkeiten auch mittels (standardisierten) Fragebogen erfragt werden, nämlich innerhalb eines biologischen Inventars.
Die Alternative, Prüfen einerseits oder Fragen bzw. Beobachten andererseits, ist demnach nicht identisch mit der Polarisierung: Leistungs- vs. Persönlichkeitsdiagnostik.
Als grenzwertig zw. Prüfen und Beobachten sind Objektive Persönlichkeitstests zu werten: sie versuchen die persönlichen Stil-Merkmale aus dem beobachtbaren Verhalten bei bestimmten (Leistungs-)Anforderungen zu erschließen.
Die Abgrenzungsfragen helfen beim besseren Begreifen der verfahrensspezifischen Testsituation.
Tpn akzeptieren in der Regel durchaus, geprüft zu werden (es geht darum sich zu bewähren), jedoch ist für Tpn nicht transparent, welche Informationen der Testleiter sammelt und wie er sie interpretiert, wenn die Tp nur beobachtet wird.
Tags: Beobachten, Erhebungstechniken, Fragen, Prüfen
Quelle: S157
Quelle: S157
Welche diagnostisch-psychologische Verfahren nutzen die Erhebungsmethode des Prüfen?
Was sind Beispiele für typische Prüfmodalitäten?
Was sind Beispiele für typische Prüfmodalitäten?
Außer bei Tests kommt es nur innerhalb von Assessment Center zum Prüfen im eigentlichen Sinn:
So bei der wohl bekanntesten Übung daraus, dem zwar obliganten, aber nirgends verbindlich reglementierten sog. "Postkorb" (In Basket, Mailbox), bei dem an Hand des Abarbeitens eines Stapels von Post die Fähigkeit einer Tp zur Arbeitskoordination bzw. Arbeitsorganisation erfasst werden soll.
Besondere Prüfmodalitäten gibt es bei Computerverfahren, die den Computer mediumsgerecht nutzen; sie werden genauer entweder im Zuge der Messung von Aufmerksamkeit und Konzentration bzw. Reaktionsschnelligkeit ausgeführt oder in Zusammenhang mit Objektiven Persönlichkeitstests.
Typische Prüfmodalitäten:
So bei der wohl bekanntesten Übung daraus, dem zwar obliganten, aber nirgends verbindlich reglementierten sog. "Postkorb" (In Basket, Mailbox), bei dem an Hand des Abarbeitens eines Stapels von Post die Fähigkeit einer Tp zur Arbeitskoordination bzw. Arbeitsorganisation erfasst werden soll.
Besondere Prüfmodalitäten gibt es bei Computerverfahren, die den Computer mediumsgerecht nutzen; sie werden genauer entweder im Zuge der Messung von Aufmerksamkeit und Konzentration bzw. Reaktionsschnelligkeit ausgeführt oder in Zusammenhang mit Objektiven Persönlichkeitstests.
Typische Prüfmodalitäten:
- Verbinde die Zahlen (ZVT)
- Funktionen Abstrahieren: "Was ist das Gemeinsame an Polo und Trabrennen?" (AID 2)
- Wortanfänge: "Suche Worte mit ver-" (VKT)
- Sprichwörter: "Suche sinngleiche Sprichwörter" (WIT-2)
- Satzergänzungen: "Das Gegenteil von Hoffnung ist?" (IST 2000 R)
- Soziales Erfassen und sachliches reflektieren: "Warum ist es gut eine Sonnencreme zu benutzen?" (AID 2)
Tags: Erhebungstechniken, Prüfen
Quelle: S158
Quelle: S158
Was ist das Postkorbverfahren? Wie läuft es ab?
(Prüfen, häufig in Assessment-Center)
auch: In-Basket, Mail-Box
Charakteristisch für das Postkorbverfahren ist, dass der Bewerber mit dem Inhalt eines Postkorbs konfrontiert wird, der Aufgaben enthält, die in einer vorgegebenen Zeit zu bearbeiten sind.
Typische Aufgaben sind Aktenvermerke, Notizen von Vorgesetzten und Kollegen, Briefe, Notizen über Telefongespräche oder Besprechungen, Terminvereinbarungen, etc.
Er wird instruiert, welche Position innerhalb eines Unternehmens oder auch einer sozialen Institution er einzunehmen hat. Ein beigefügtes Organigramm vermittelt ihm die Organisationsstruktur des Unternehmens, manchmal ergänzt durch eine kurze Beschreibung der Entwicklungsgeschichte des Unternehmen.
Es wird gebeten, sämtliche Entscheidungen und Vorhaben zu notieren. Diese schriftlichen Aufzeichnungen werden dann zur Beurteilung der Leistung des Bewerbers herangezogen.
auch: In-Basket, Mail-Box
Charakteristisch für das Postkorbverfahren ist, dass der Bewerber mit dem Inhalt eines Postkorbs konfrontiert wird, der Aufgaben enthält, die in einer vorgegebenen Zeit zu bearbeiten sind.
Typische Aufgaben sind Aktenvermerke, Notizen von Vorgesetzten und Kollegen, Briefe, Notizen über Telefongespräche oder Besprechungen, Terminvereinbarungen, etc.
Er wird instruiert, welche Position innerhalb eines Unternehmens oder auch einer sozialen Institution er einzunehmen hat. Ein beigefügtes Organigramm vermittelt ihm die Organisationsstruktur des Unternehmens, manchmal ergänzt durch eine kurze Beschreibung der Entwicklungsgeschichte des Unternehmen.
Es wird gebeten, sämtliche Entscheidungen und Vorhaben zu notieren. Diese schriftlichen Aufzeichnungen werden dann zur Beurteilung der Leistung des Bewerbers herangezogen.
Tags: Erhebungstechniken, Postkorb, Prüfen
Quelle: S158
Quelle: S158
Welche und inwiefern nutzen die diagnostisch-psychologische Verfahren die Erhebungsmethode des Fragen?
Die Erhebungstechnik des Fragens ist variantenreich:
- Fragen in Persönlichkeitsfragebogen (inkl. Interessensfragebogen) zielen auf die (reflektierte) Selbsteinschätzung einer Tp bezüglich ihrer Eigenschaften und typischen Erlebens- und Verhaltensweisen ab.
- Fragen in Projektiven Verfahren provozieren Stimmungslagen, aus denen heraus die Tp agieren muss.
- Fragen in Biografischen Inventaren betreffen historische Fakten über bestimmte Lebensbereiche der Tp.
- Fragen im Zuge der Anamneseerhebung beziehen sich auf (kranken-)entwicklungsgeschichtliche Ereignisse der Tp und sind insofern ebenfalls biografischer Natur, zielen jedoch in besonderem Maß auf eine im Zusammenhang erlebte subjektive Sicht der Dinge ab.
- Fragen im Zuge der Exploration dienen der Klärung der subjektiv gegebenen, aktuellen Sachlage mit dem Ziel der Entscheidungvorbereitung
- Fragen im Assessment-Center, soweit sie über die bisher angesprochenen Fragen hinausgehen, beziehen sich auf grundsätzliche Überlegungen und Problemlösestrategien der Tp zu vorgegebenen Konfliktsituationen
- Fragen im Zuge einer Arbeitsplatzanalyse zielen auf Faktisches der Arbeitsroutine einer konkreten beruflichen Position ab, wobei es in Bezug auf deren Häufigkeit und Bedeutung durchaus zu sujektiven Einschätzungen kommt.
Tags: Erhebungstechniken, Fragen
Quelle: S164
Quelle: S164
Welche Fragemodalitäten werden bei Persönlichkeitsfragebogen genutzt?
Typische Fragen aus Persönlichkeitsfragebogen:
Eher selten angewendete Methoden:
- "Ich ärgere mich oft darüber, wie andere Leute mich behandeln" (NEO-PI-R, NEO-Persönlichkeitsinventar revidierte Form, 2004)
Eher selten angewendete Methoden:
- Gegenüberstellung von wenigstens 3 qualitativ unterschiedlichen Inhalten Beispiel: BIT II (Berufs-Interessen-Test II) - Tp muss zwischen jeweils vier einander gegenüber gestellten Tätigkeiten wählen, dh. es wird auch eine relative und nicht nur absolute Verhaltenstendenz bzw. Tätigkeitspräferenz erfragt.Versucht allfälige Response Sets weitgehend auszuschließen.
- "Q-Sort"-Methode Die Tp muss die Items - die ursprünglich zumeist auf Kärtchen präsentiert wurden - auf mehrere vorgegebene Kategorien verteilenDie Kategorien drücken aus, wie sehr die Tp den Inhalten der Items (Statements) zustimmt: "Aussagen, die überhaupt nicht zutreffen" bis zu "Aussagen, die besonders typisch sind und genau zutreffen".Für die Zuordnung erhält die Tp oft Vorgaben, wie sich diese auf die Kategorien verteilen sollen (Min. bzw. Max-Anzahl von Items pro Kategorie).Die Methode dient noch mehr dazu Response-Sets auszuschließen.
Tags: Erhebungstechniken, Fragen, Persönlichkeitsfragebogen
Quelle: S165
Quelle: S165
Was versteht man unter der Leistungsdiagnostik (im Überblick)?
Die psychologische Leistungsdiagnostik ist geprägt durch Intelligenz-Testbatterien - zumeist Zusammenstellung von mehreren Untertests zu einer Testbatterie.
Darüber hinaus gibt es aber spezielle Leistungstests, zum Beispiel zur Messung der Aufmerksamkeit oder zur Messung bestimmter neuropsychologischer Funktionstüchtigkeiten.
Beide Verfahrensgruppen sind dadurch gekennzeichnet, die kognitiven Fähigkeiten eines Menschen zu erfassen.
Darüber hinaus gibt es aber spezielle Leistungstests, zum Beispiel zur Messung der Aufmerksamkeit oder zur Messung bestimmter neuropsychologischer Funktionstüchtigkeiten.
Beide Verfahrensgruppen sind dadurch gekennzeichnet, die kognitiven Fähigkeiten eines Menschen zu erfassen.
Tags: Intelligenz-Testbatterien, Leistungsdiagnostik, spezielle Leistungstests
Quelle: S191
Quelle: S191
Was kennzeichnet Intelligenz-Testbatterien?
Welche Beispiele gibt es?
Welche Beispiele gibt es?
Alle Intelligenz-Testbatterien haben eine gewisse Affinität zu herkömmlichen Intelligenztheorien; strikt nach einer bestimmten Theorie konstruierte Testbatterien gibt es aber mit Ausnahme des BIS-Tests nicht.
Die meisten nehmen zwar Bezug auf entweder Thurstone oder Wechsler, jedoch fügen sich die Autoren der Faktizität der Faktorenstruktur oder verfolgen praktische Zwecke.
In der Praxis ist die Systematisierung der Intelligenz-Testbatterien nach Einzel- vs. Gruppenverfahren relevanter als nach intelligenztheoretischer Orientierung.
Beispiele:
IST 2000-R
AID 2
Die meisten nehmen zwar Bezug auf entweder Thurstone oder Wechsler, jedoch fügen sich die Autoren der Faktizität der Faktorenstruktur oder verfolgen praktische Zwecke.
In der Praxis ist die Systematisierung der Intelligenz-Testbatterien nach Einzel- vs. Gruppenverfahren relevanter als nach intelligenztheoretischer Orientierung.
Beispiele:
- Gruppenverfahren: IST 2000 R, KFT 4-12+R, PSB-R 4-6, WIT-2
- Einzelverfahren: AID 2, WIE, HAWIK-IV, K-ABC
IST 2000-R
- theorievielfältige Konzeption: Thurstone, Cattell, Guilford, Jäger
- Im Endeffekt liegt der Testbatterie ein hierarchisches Intelligenzmodell zugrunde.
- Einsatzbereich: berufbezogene Fragestellungen
- Eichtabellen für 15-51 Jährige (und älter)
- Positiv: IST 100 R bietet kein IQ als Maß einer "allgemeinen" Intelligenz an
- Kritik: testtheoretische Tragweite des gewählten Verrechnungsmodus pro Untertest wird weder reflektiert noch geprüft - vermutlich nicht verrechnungsfair. Umsetzung als Speed-and-Power-Test:Vermengung zweier Eigenschaftsdimensionen
AID 2
- orientiert sich am Testkonzept von Wechsler
- Realisiert adaptives Testen als Papier-Bleistift-Verfahren (dt.sprachig nach wie vor einmalig)
- Zielpopulation: Kinder und Jugendliche (6-16 Jahre)
- Einsatzbereich: Schulpsychologie, Berufs- und Ausbildungsberatung, Klinische Psychologie, Fragestellung bei fremdsprachigen Tpn (tlw. sprachfreie Instruktion)
- Ergebnis als Profilinterpretation der einzelnen Untertests (kein IQ) - ermöglicht unmittelbar förderungsorientierte Diagnostik
- Kritik - intelligenztheoretische Konzept ist wegen der Orientierung am historischen Testkonzept von Wechsler erkenntnistheoretisch ungenügenden (Aussagekraft der Untertests und theoretische Fragestellung nicht empirisch abgesichert, prognostische Validität der Testbatterie auf typische Erfolgskriterien ist nicht untersucht) - Der versuchten Erfassung ausgewählter Teilleistungsstörungen ist vorzuwerfen, dass dem AID 2 ein Bezug zu theoretisch fundierten Störungsmodellen fehlt.
Tags: Intelligenz-Testbatterien, Leistungsdiagnostik
Quelle: S192
Quelle: S192
Was kennzeichnet spezielle Leistungstests im Überblick? Was untersuchen spezielle Leistungstests?
Unter spezielle Leistungstests fallen insbesondere auch solche, die zwar gelegentlich als "Intelligenztests" bezeichnet werden, jedoch lediglich einen speziellen Aspekt, also einen einzelnen Intelligenzfaktor erfassen.
Kritik: kritische Durchsicht des Verhaltensinventars vermittelt den Eindruck, die einzelnen Verfahren sind kaum am Bedarf der Fallbehandlung bei typischen Fragestellungen orientiert, sondern eher gemäß gelegentlicher Forschungsinteressen entwickelt wurden.
Systematik (nach Intelligenzfaktoren von Thurstone):
Kritik: kritische Durchsicht des Verhaltensinventars vermittelt den Eindruck, die einzelnen Verfahren sind kaum am Bedarf der Fallbehandlung bei typischen Fragestellungen orientiert, sondern eher gemäß gelegentlicher Forschungsinteressen entwickelt wurden.
Systematik (nach Intelligenzfaktoren von Thurstone):
- Verbal comprehension
- Space
- Memory
- Perceptual Speed
- Reasoning
- (Intellektuelle) Lernfähigkeit)
- Aufmerksamkeit und Konzentration
- Technisches Verständnis
- Entwicklungstests
Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S197
Quelle: S197
Was sind Beispiele für Tests zur Messung von "Verbal comprehension"?
Wofür sind diese Tests ungeeignet?
Wofür sind diese Tests ungeeignet?
Ist auch häufig als Untertest bei Intelligenz-Testbatterien:
Spezielle Leistungstests
Sprachentwicklungstest (gehört zu Entwicklungstests)
Zweifellos erfassen Tests zu Verbal comprehension eine zwar bildungmitbedingt, aber eindeutig kognitiv-operative Fähigkeit, die zu einschlägigen Intelligenzdefinitionen passt.
Zur Beantwortung der Fragestellungen, die das "Talent zum (Fremd-)Sprachenerwerb" oder das "Geschick zur sprachlichen Ausdrucksprägnanz" einer Tp betreffen, sind sie alle aber ungeeignet.
- WIT-2: Gleiche Wortbedeutung
- IST 2000 R: Gemeinsamkeiten, Analogien
- AID 2: Funktionen abstrahieren
Spezielle Leistungstests
- WST - Wortschatztest (Schmidt & Metzler, 1992) - Zuordnung zu Intelligenzfaktor von Thurstone nicht eindeutig- Aufgabenstellung ist Worte wiederzuerkennen (benötigt auch Memory) und nicht die Wort(re)produktion- Pro Aufgabe des WST muss aus 6 vorgegebenen Wortkonstruktionen die einzige reale herausgefunden werden. Für die Aufgabe 1 ist das: Rondie - Unidase - Orisal - Ironie - Nirol - Ikomie (korrekt: Ironie)- Einsatz in neuropsychologischer Diagnostik zweckmäßig z.B. bei fraglicher Demenz.
- LEWITE - Lexikon-Wissen Test (Wagner-Menghin, 2004)
Sprachentwicklungstest (gehört zu Entwicklungstests)
- Heidelberger Sprachentwicklungstest (HSET) - eigentlich eine Testbatterie- erfasst bei Kinder zw. 3. und 9. Lj Sprachverständnis bzw. Sprachbegabung- Beispiel: Im Untertest "Korrektur semantisch inkonsistenter Sätze" des HSET müssen unlogische Sinnzusammenhänge erkannt und korrigiert werden - "Mit diesem Geschenk haben wir der Mutter eine große Liebe gemacht."
Zweifellos erfassen Tests zu Verbal comprehension eine zwar bildungmitbedingt, aber eindeutig kognitiv-operative Fähigkeit, die zu einschlägigen Intelligenzdefinitionen passt.
Zur Beantwortung der Fragestellungen, die das "Talent zum (Fremd-)Sprachenerwerb" oder das "Geschick zur sprachlichen Ausdrucksprägnanz" einer Tp betreffen, sind sie alle aber ungeeignet.
Tags: Leistungsdiagnostik, spezielle Leistungstests, Verbal comprehension
Quelle: S198
Quelle: S198
Was sind Beispiele für Tests zur Messung von "space"?
Raumvorstellungstests sind für jede einschlägige Intelligenz-Testbatterie vom Forschungsansatz Thurstones abzuleiten.
Es handelt hier sich um: Raumvorstellung, Fähgikeit zur Vorstellung räumlicher Relationen, Raum-Lage-Orientierung, "spatial ability" ....
... in Intelligenztestsbatterien
Spezielle Leistungstests:
Es handelt hier sich um: Raumvorstellung, Fähgikeit zur Vorstellung räumlicher Relationen, Raum-Lage-Orientierung, "spatial ability" ....
... in Intelligenztestsbatterien
- WIT 2: Spiegelbilder, Abwicklungen
- IST 2000-R: Würfelaufgabe (Weiterentwicklung 3DW)
- AID 2: Analysieren und Subtrahieren-abstrakt, Antizipieren und Kombinieren-figural
Spezielle Leistungstests:
- 3DW: Leistungstest zur Messung des räumlichen Vorstellungsvermögens - geeignet für Eignungsdiagnostik bei Berufs- und Ausbildungsberatung, Persönlichkeitsauslese
- Schlauchfiguren Unikat bei Testaufgaben: pro Aufgabe müssen zwei fotografisch dargestellte Ansichten ein und desselben durchsichtigen Würfels mit einem Inhalt eines gewundenen Schlauchs vergleichen und erkennen von welcher Richtung dieser zu sehen ist - von rechts, links, unten, oben oder hitnen.
Tags: Leistungsdiagnostik, Space, spezielle Leistungstests
Quelle: S199
Quelle: S199
Was sind Beispiele für Tests zur Messung von "memory"? (4)
Teile einer Intelligenz-Testbatterie
Spezielle Leistungstests
- WIT-2: Merkfähigkeit
- IST 2000 R: Merkfähigkeit (verbal), Merkfähigkeit (figural)
- AID 2: Memory erfasst jedoch nur das Kurzzeitgedächtnis
Spezielle Leistungstests
- LGT-3 - Lern- und Gedächtnistest (Bäumler, 1974) - Schwerpunkt auf Gedächtnis (nicht auf Lernfähigkeit)- extreme Überalterung- einziger allgemein einsetzbare Gedächtnistest, der eigenständig vertrieben wird- Untertests beziehen sich auf figurales, verbales (lexikalisches) und numerisches Material (Stadtplan: Weg lernen, Türkisch-Vokabeln, zeichnerisch dargestellte Gegestände: lexikalisch wiedergeben, Telefonnummern, Daten + Fakten zu einem Krankenhaus-Bau, Umrandung von Piktogrammen als Firmenzeichen).- Kritik: ... Eichung erfüllt nicht die Erfordernissen der DIN 33430 ... Berechnung eines Gesamttestwertes als "Lern- und Gedächtnisschwäche" ist widersprüchlic zur Erfassung von 2 Gedächtnisfaktoren (verbal + figural) ... keine Ergebnisse zur Skalierung und Ursachen geringer Testleistung sind nicht differenzierbar
- NVLT - Nonverbaler Lerntest und VLT - Verbaler Lerntest - misst auch eine Gedächtniskomponente (nicht (nur) Lernen)- es geht um merken im Sinne von Einprägen simpler Wahrnehmungsinhalte, die später eine Wiedererkennungsleistung dieser Wahrnehmungsinhalte möglich macht- sinnfreie geometrische Figur oder Neologismen (z.B. Kantug) werden 3 sek. am Bildschirm dargestellt - Tp muss erkennen ob diese bereits gezeigt wurde oder noch nicht.- Kritik: hohe a-priori-Ratewahrscheinlichkeit
- BAT - Berliner Amnesietest - spezieller Test zur Demenz
- LAMBDA - Lernen auswendig-Merken-Belastbarkeit-Denken analytisch) (Kubinger et al) - bisher noch nicht veröffentlichte Computer-Testbatterie- verlangt das Auswendiglernen eines Folders mit berufsbezogen gebündelten Informationen, wobei die Tp selbst darüber entscheidet, wann sie sich der Prüfphase aussetzen möchten.- Prüfphase: Person muss falsche Elemente korrigieren - so oft bis er sie 5x korrekt korrigiert hat.- Abhängig von Anzahl von Fehlern + Lerndauer wird Tp einem von 4 Lerntypen zugeordnet: dem Erfolgreichen, dem Unsicheren, dem Langsamen und wenig Erfolgreichen sowie dem Anstrengungsvermeider.- Fokussiert auf Lernstrategien und nicht auf Gedächtniskapazität (sinnvoll zur Untersuchung von Leistungsproblemen in Schule und Berufsausbildung)
Tags: Leistungsdiagnostik, Memory, spezielle Leistungstests
Quelle: S200
Quelle: S200
Was sind Beispiele für Tests zur Erfassung von "Perceptual speed"?
Im Rahme von Intelligenztestbatterien
Spezielle Leistungstests
Die Informationsverarbeitungsgeschwindigkeit ist eine Voraussetzung für kognitive (Höchst-)Leistungen und interessant bei einschlägigen beruflichen Anforderungen und bestimmten klinischen (Abklärung und Behandlung von Depression) sowie neuro- bzw. gerontopsychologische Fragestellungen.
Andere Tests messen perceptual speed mit Absicht die Ergebnisse als Ausdruck von (Dauer-)"Aufmerksamkeit" und/oder "Konzentration" zu interpretieren.
Häufig weißen die Test einen sehr geringen Schwierigkeitsgrad auf und es geht dabei um Fehler, die bei unaufmerksamen bzw. unkonzentrierten Arbeiten passieren. (siehe auch Tests zu "Aufmerksamkeit und Konzentration")
- AID2: Untertest Kodieren und Assoziieren - motorische Schnelligkeit kommt etwas mehr zum Tragen als beim ZVT und kognitiv höherwertige Aufgabe (Umsetzung von Objekt-Symbol-Verknüpfungsregeln)
Spezielle Leistungstests
- ZVT: misst Informations-Verarbeitungsgeschwindigkeit - extreme Leichtigkeit der Aufgabenstellung (Zahlen von 1-90 der Reihe nach verbinden)- "speed"-Test
Die Informationsverarbeitungsgeschwindigkeit ist eine Voraussetzung für kognitive (Höchst-)Leistungen und interessant bei einschlägigen beruflichen Anforderungen und bestimmten klinischen (Abklärung und Behandlung von Depression) sowie neuro- bzw. gerontopsychologische Fragestellungen.
Andere Tests messen perceptual speed mit Absicht die Ergebnisse als Ausdruck von (Dauer-)"Aufmerksamkeit" und/oder "Konzentration" zu interpretieren.
Häufig weißen die Test einen sehr geringen Schwierigkeitsgrad auf und es geht dabei um Fehler, die bei unaufmerksamen bzw. unkonzentrierten Arbeiten passieren. (siehe auch Tests zu "Aufmerksamkeit und Konzentration")
Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S204
Quelle: S204
Wovon geht die mental-speed-Theorie zur Intelligenz aus?
In der mental-speed-Theorie wird die Geschwindigkeit der Informationsverarbeitung als Basisprozess der Intelligenz angenommen.
Intelligenz wird auf einen einzigen Faktor, die Allgemeine Intelligenz, reduziert.
Die Annahme ist, dass eine höher Informationsverarbeitungsgeschwindigkeit die Wahrscheinlichkeit reduziert, dass das kognitive System überladen wird, was zu Fehlern bei der Informationsverarbeitung führen würde (neuronale Effizienzhypothese).
Eine weitere Vermutung ist, dass bei schnelleren Informationverarbeitung pro Zeiteinheit mehr Information aufgenommen werden kann. Summiert über einen langen Zeitraum hinweg, sollen dadurch erheblicher interindividuelle Differenzen im Wissen und in den Fähigkeiten resultieren.
Intelligenz wird auf einen einzigen Faktor, die Allgemeine Intelligenz, reduziert.
Die Annahme ist, dass eine höher Informationsverarbeitungsgeschwindigkeit die Wahrscheinlichkeit reduziert, dass das kognitive System überladen wird, was zu Fehlern bei der Informationsverarbeitung führen würde (neuronale Effizienzhypothese).
Eine weitere Vermutung ist, dass bei schnelleren Informationverarbeitung pro Zeiteinheit mehr Information aufgenommen werden kann. Summiert über einen langen Zeitraum hinweg, sollen dadurch erheblicher interindividuelle Differenzen im Wissen und in den Fähigkeiten resultieren.
Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S205
Quelle: S205
Was versteht man unter "reasoning" und was sind Beispiele für Tests zur Erfassung von "Reasoning"?
Reasoning ist die Fähigkeit, Gesetzmäßigkeiten oder logisch zwingende Zusammenhänge erkennen und zweckentsprechend verwerten zu können.
Im Rahmen von Intelligenztestbatterien
Spezielle Leistungstests (z.B. Matrizentests)
Reasoning-Tests sind häufig mit Culture-Fair-Tests verbunden, da sie oft Material und Aufgabenstellung verwenden, die, der Absicht gemäß, vom kulturspezifischen Kontext (weitgehend) unabhängig sind.
Im Rahmen von Intelligenztestbatterien
- IST 2000 R: Analogien, Zahlenreihen, Matrizen
- CFT-20-R: Reihenfortsetzen, Klassifikation, Matrizen und Topologien
Spezielle Leistungstests (z.B. Matrizentests)
- WMT
- SPM
- Rechnen in Symbolen
- Syllogismen - formale Logik
- AMP (Advanced Progressive Matrices von Raven)
- CFT 1 (Grundintelligenzskala 1)
Reasoning-Tests sind häufig mit Culture-Fair-Tests verbunden, da sie oft Material und Aufgabenstellung verwenden, die, der Absicht gemäß, vom kulturspezifischen Kontext (weitgehend) unabhängig sind.
Tags: Leistungsdiagnostik, Reasoning, spezielle Leistungstests
Quelle: S205
Quelle: S205
Was versteht man unter "Aufmerksamkeit und Konzentration"? Welche Arten von Aufmerksamkeit werden noch unterschieden?
Konzentration und Aufmerksamkeit bezeichnet die Fähgikeit einer ausgewählten Handlung mit ausreichender (situationsangepasster) Stetigkeit und Präzision nachgehen zu können und andere, dafür irrelevante Dinge außer Acht zu lassen.
Schuri, Keller und Matthes-von Cramon (1994) differenzieren Aufmerksamkeit (hinsichtlich klinisch-praktischen Überlegungen) nach:
Brickenkamp (2002) verwendet den Begriff
Schuri, Keller und Matthes-von Cramon (1994) differenzieren Aufmerksamkeit (hinsichtlich klinisch-praktischen Überlegungen) nach:
- selektive Aufmerksamkeit
- geteilte Aufmerksamkeit
- Daueraufmerksamkeit
- (und auch kognitive Verarbeitungsgeschwindigkeit)
Brickenkamp (2002) verwendet den Begriff
- "konzentrative (besser: fokussierende) Aufmerksamkeit" (für selektive und geteilte A.) und
- "distributive Aufmerksamkeit".
Tags: Aufmerksamkeit, Konzentration, Leistungsdiagnostik, spezielle Leistungstests
Quelle: S211
Quelle: S211
Welche Tests (7) werden verwendet zur Messung von "Aufmerksamkeit und Konzentration"? Was ist die Kritik an diesen Tests?
Konzentrationstests können historisch betrachtet unterteilt werden in:
Spezielle Leistungstests:
KRITIK: Alle angesprochenen Konzentrationstests sind nicht ohne Zeitdruck durchzuführen, d.h. sie eigenen sich alle nicht die Aufmerksamkeit (Konzentration) ohne Zeitdruck zu überprüfen, geschweige den mit kognitiv anspruchsvolleren Anforderungen.
Nur LEVE (Leseverständnistest) erfordert höhere kognitive Fähigkeiten. Hier ist es notwendig einen angemessenen informativen Text im selbst regulierten Tempo zu lesen, zu verstehen und in wesentlichen Belangen zu behalten, um ihn letztlich schlussfolgernd zu verarbeiten.
Für die Messung der Fähigkeit zur geteilten Aufmerksamkeit gibt es keine einschlägigen Tests.
- Durchstreich-Aufgaben
- Rechenaufgaben - haben aber Aktualität verloren, da die Notwendigkeit extremer Rechenfertigkeit als Wichtigkeit verloren hat.
Spezielle Leistungstests:
- Test d2 (Paper-Pencil): Durchstreichtest, Möglichkeit die Arbeitskurve zu bestimmen; jedoch wird auch optische Differenzierungsfähigkeit von d und p gefordert.
- FAIR (Frankfurter Aufmerksamkeits-Inventar, Paper-Pencil): es werden statt Buchstaben (d, p) geometrische Figuren (Kreis + Quadrat) verwendet.
- Cognitrone (Computer): selektive/fokussierende Aufmerksamkeit, ist die gegeben Figur in den zur Auswahl stehenden Figuren enthalten oder nicht.
- Daueraufmerksamkeit (Computer): selektive/fokussierende Aufmerksamkeit; TP muss Taste drücken, wenn bestimmte Anzahl von Dreiecken mit der Spitze nach unten sichtbar sind
- Signal-Detection (Computer):selektive/fokussierende Aufmerksamkeit; Taste muss gedrückt werden wenn in Punktmuster Quadrat sichtbar ist.
- Vigilanz (Computer): Daueraufmerksamkeit; Person muss kreisförmig sich bewegender Punkt verfolgen und in sehr seltenen Fällen wenn sich dieser schneller bewegt Reaktionstaste drücken.
KRITIK: Alle angesprochenen Konzentrationstests sind nicht ohne Zeitdruck durchzuführen, d.h. sie eigenen sich alle nicht die Aufmerksamkeit (Konzentration) ohne Zeitdruck zu überprüfen, geschweige den mit kognitiv anspruchsvolleren Anforderungen.
Nur LEVE (Leseverständnistest) erfordert höhere kognitive Fähigkeiten. Hier ist es notwendig einen angemessenen informativen Text im selbst regulierten Tempo zu lesen, zu verstehen und in wesentlichen Belangen zu behalten, um ihn letztlich schlussfolgernd zu verarbeiten.
Für die Messung der Fähigkeit zur geteilten Aufmerksamkeit gibt es keine einschlägigen Tests.
Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S212
Quelle: S212
Was versteht man unter der Fähigkeit "Technisches Verständnis" und mit welchen Tests wird dies gemessen?
Technisches Verständnis ist das Erfassenkönnen von Ursache-Wirkungs-Zusammenhängen technischer (naturwissenschaftlicher) Art sowie von technischen Konstruktionsprinzipien.
Tlw. gibt es eine Unterscheidung zwischen
Dementsprechend kann technisches Verständnis auch als spezieller Aspekt der "praktischen Intelligenz" aufgefasst werden.
Es gab früher einige Tests, die jedoch alle vom Mark genommen wurden. Derzeit gibt es nur einen relativ neuen Computertest MTA.
Beim MTA muss festgestellt werden welche Konstruktionspläne korrekt bzw. nicht korrekt für eine bestimmte Maschine sind.
Tlw. gibt es eine Unterscheidung zwischen
- technisch-konstruktivem Denken und
- technisch-praktischem Handeln
Dementsprechend kann technisches Verständnis auch als spezieller Aspekt der "praktischen Intelligenz" aufgefasst werden.
Es gab früher einige Tests, die jedoch alle vom Mark genommen wurden. Derzeit gibt es nur einen relativ neuen Computertest MTA.
Beim MTA muss festgestellt werden welche Konstruktionspläne korrekt bzw. nicht korrekt für eine bestimmte Maschine sind.
Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S215
Quelle: S215
Welche Entwicklungstests gibt es?
Bis in das Ende des letzten Jahrtausends gab es keine allgemeinen Entwicklungs-Testbatterien, die an die Tradition der berühmten Kleinkindertests von Charlotte Bühler und Hildegard Hetzer (1932) anschließen.
(Tests erfüllten nicht Skalierung und Akutalität der Eichung)
Mit dem Entwicklungstests 6 Monate - 6 Jahre (ET 6-6, 2005) und dem Wiener Entwicklungstest (WET, 2002) für 3-6 Jahre sind nun zwei Entwicklungstestsbatterien der Psychologischen Diagnostik verfügbar.
Als entwicklungsrelevant erfassen sie weitgehend übereinstimmende Bereiche, die theoretisch inhaltlich und empirisch begründet sind.
Beide erheben den Anspruch, ein differenziertes "Entwicklungsprofil" für jedes Kind zu gewinnen, um sowohl Problembereiche als auch Stärken zu erkennen.
Wichtig: das psychologische Diagnostizieren bei jüngeren Kindern als Schulkindern erfordert regelmäßig eine besondere Zusatzqualifikation.
(Tests erfüllten nicht Skalierung und Akutalität der Eichung)
Mit dem Entwicklungstests 6 Monate - 6 Jahre (ET 6-6, 2005) und dem Wiener Entwicklungstest (WET, 2002) für 3-6 Jahre sind nun zwei Entwicklungstestsbatterien der Psychologischen Diagnostik verfügbar.
Als entwicklungsrelevant erfassen sie weitgehend übereinstimmende Bereiche, die theoretisch inhaltlich und empirisch begründet sind.
Beide erheben den Anspruch, ein differenziertes "Entwicklungsprofil" für jedes Kind zu gewinnen, um sowohl Problembereiche als auch Stärken zu erkennen.
Wichtig: das psychologische Diagnostizieren bei jüngeren Kindern als Schulkindern erfordert regelmäßig eine besondere Zusatzqualifikation.
Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S217
Quelle: S217
Worauf beziehen sich heuzutage Verfahren zur Erfassung von "charakterlichen" Eigenschaften?
Diese beziehen ziemlich universell auf das "Big Five"-Persönlichkeitsmodell.
So nimmt man an, dass Menschen sich unterscheiden hinsichtlich:
Fragebögen:
So nimmt man an, dass Menschen sich unterscheiden hinsichtlich:
- Neurotizismus (besser: Emotionale Stabilität)
- Extraversion
- Offenheit für Erfahrung
- Verträglichkeit
- Gewissenhaftigkeit
Fragebögen:
- Faktorenanalytisch begründete Fragebogenbatterie: 16-PF-R, NEO-PI-R
- A-priori dimensionalisierte Fragebogenbatterien: MMPI, PRF (Deutsche Personality Research Form)
Tags: Persönlichkeitsfragebogen
Quelle: S218
Quelle: S218
Wie entstand das Big-Five-Persönlichkeitsmodell? Was zeigen aktuelle Untersuchungen dazu?
Die Entstehung geht auf die Sedimentationshypothese zurück, welche besagt, dass
"alle Aspekte individueller Differenzen, welche bedeutsam, interessant oder nützlich sind oder waren, in die Sprache Eingang gefunden haben; je bedeutender ein solche individuelle Differenz, desto größer die Wahrscheinlichkeit, dass sie ein gesondertes Wort hervorbrachte.
Die Sedimentationshypothese impliziert, dass ... Lexika ... das Universum aller bedeutenden individuellen Unterschiede abdecken."
Ein solcher lexikalischer Ansatz diente schon R.B. Cattell als Grundlage für die Persönlichkeits-Fragebogenbatterie 16 PF-R. Diese Ergebnisse wurden in vielen weiteren Studien genutzt und analysiert.
Letztlich schließen Costa & McCrae aus kulturvergleichenden und verhaltensgenetischen Studien mit dem aktuellen Repräsentanten des Big Five-Persönlichkeitsmodells, der Persönlichkeits-Fragebogenbatterie NEO-PI-R, auf eine biologisch begründete universale Gültigkeit der Big-Five-Faktoren.
Neuere Forschungsergebnisse zusammengefasst, bietet sich zwar kein so einheitliches Bilds - so kommt Becker (2002) zu einen "Four-plus-X-factor" Modell, das dem Umstand Rechnung tragen soll, dass mindestens vier generell replizierbare Faktoren existieren, aber je nach Art und Anzahl erhobener Aspekte, Facetten, Skalen bzw. Items der Persönlichkeit auch entsprechend mehr Faktoren extrahiert werden können.
Nichtsdestotrotz bedeutet das Big Five-Persönlichkeitsmodell zum aktuellen Forschungsstand die Basis allen psychologischen Diagnostizierens im Persönlichkeitsbereich
"alle Aspekte individueller Differenzen, welche bedeutsam, interessant oder nützlich sind oder waren, in die Sprache Eingang gefunden haben; je bedeutender ein solche individuelle Differenz, desto größer die Wahrscheinlichkeit, dass sie ein gesondertes Wort hervorbrachte.
Die Sedimentationshypothese impliziert, dass ... Lexika ... das Universum aller bedeutenden individuellen Unterschiede abdecken."
Ein solcher lexikalischer Ansatz diente schon R.B. Cattell als Grundlage für die Persönlichkeits-Fragebogenbatterie 16 PF-R. Diese Ergebnisse wurden in vielen weiteren Studien genutzt und analysiert.
Letztlich schließen Costa & McCrae aus kulturvergleichenden und verhaltensgenetischen Studien mit dem aktuellen Repräsentanten des Big Five-Persönlichkeitsmodells, der Persönlichkeits-Fragebogenbatterie NEO-PI-R, auf eine biologisch begründete universale Gültigkeit der Big-Five-Faktoren.
Neuere Forschungsergebnisse zusammengefasst, bietet sich zwar kein so einheitliches Bilds - so kommt Becker (2002) zu einen "Four-plus-X-factor" Modell, das dem Umstand Rechnung tragen soll, dass mindestens vier generell replizierbare Faktoren existieren, aber je nach Art und Anzahl erhobener Aspekte, Facetten, Skalen bzw. Items der Persönlichkeit auch entsprechend mehr Faktoren extrahiert werden können.
Nichtsdestotrotz bedeutet das Big Five-Persönlichkeitsmodell zum aktuellen Forschungsstand die Basis allen psychologischen Diagnostizierens im Persönlichkeitsbereich
Tags: 16 PF-R, Big Five, NEO-PI-R, Persönlichkeitsfragebogen
Quelle: S218
Quelle: S218
Welche unterschiedliche Arten von Verfahrenstypen zur Erfassung von "charakterlichen" Eigenschaften (Persönlichkeit) gibt es?
- faktorenanalytisch begründete Fragebogenbatterien - 16 PF-R- NEO-PI-R- B5PO- FPI-R- PFK 9-14- TIPI
- a-priori dimensionalisierte Fragebogenbatterien Die einzelnen Skalen zu messen beabsichtigte Persönlichkeitskonstrukte wurden nicht empirisch, sondern theorliegeleitet festgelegt.- MMPI-2- PRF- BIP- GPOP
- spezielle Persönlichkeitsfragebogen(-Batterie) zu Leistungsmotivation, Leistungsangst, Kontrollüberzeugung, Belastbarkeit, Aggressivität, Kognitive Stile, Interessen
- Objektive Persönlichkeitstests Sie waren zwar ursprünglich faktorenanalytisch begründet, sind aber heute, wenn mehrdimensional messend, durchweg a-priori konzipiert.- Arbeitshaltungen- LEWITE
- Projektive Verfahren - Rorschach-Form-Deute-Verfahren- TAT (Thematischer Apperzeptionstest)- PFT (Rosenzweig Picture-Frustration Test)- MMG (Multi-Motiv-Gitter für Anschluss, Leistung und Macht)
Tags: Objektive Persönlichkeitstests, Persönlichkeitsfragebogen
Quelle: S220
Quelle: S220
Was untersucht der 16 PF-R?
- Zielpopulation?
- Entwicklung?
- Kritik?
- Zielpopulation?
- Entwicklung?
- Kritik?
- wurde 1949 publiziert
- 16 PF-R: 16-Persönlichkeits-Faktoren Test revidierte Fassung
- Ausgehend von 18.000 persönlichkeitsrelevanten Begriffen wurde die hinsichtlich der Anzahl 16 berühmten Faktoren gewonnen.
- Cattell setzte zunächst ausgewählte Items nur zur Fremdbeurteilung ein und errechnete (immer ungefähr) 12 Faktoren.
- Erst umformuliert zur Selbstbeurteilung resultierten analoge 12 und zusätzlich 4, von im als "questionnaire-specific" bezeichnete Faktoren.
- In der deutschspr. aktuellen Fassung des 16 PF-R heißen die Faktoren grundsätzlich anders als früher
- 16 Faktoren: Wärme, logisches Schlussfolgern, Emotionale Stabilität, Dominanz, Lebhaftigkeit, Regelbewusstsein, Soziale Kompetenz, Empfindsamkeit, Wachsamkeit, Abgehobenheit, Privatheit, Besorgtheit, Offenheitfür Veränderung, Selbstgenügsamkeit, Perfektionismus, Anspannung
- Zielpopulation: Erwachsene ab 18 Jahren
- Einsatzmöglichkeit: Arbeits-, Betriebs- und Berufspsychologie
Entwicklung
- Itemzusammenstellung pro Skala erfolgten auf Basis der Trennschärfen, wobei berücksichtigt wurde, dass möglichst niedrige Korrelationen der Skalen untereinander entstehen.
- Anschließende Faktorenanalyse bezog sich auf jeweils 6 Items aufgeteilte Halbskalen. So wurde aufgrund des Eigenwertabfalldiagramms entsprechend dem Scree-Test die Entscheidung getroffen die ersten 16 Faktoren beizubehalten.
- Anschließend erfolgte eine hypothesenorientierte Zielrotation.
- In einem weiteren Schritt wurden die 16 untereinander korrelierende Primärdimension einer Faktorenanalyse mit anschließender orthogonaler Rotation unterzogen. Dabei ergaben sich 5 Sekundärfaktoren, die als globalere Persönlichkeitsdimensionen zu interpretieren sind.
Kritik
- Betrachtung des Eigenwerts: eigentlich nicht mehr als 5 Faktoren sinnvoll (manifestiert sich letztlich auch in 5 Sekundärfaktoren) Scree-Test: spricht für 5, eigentlich sogar nur für 4 Faktoren.
- Schiefwinkelige Rotation - was ist hierfür der psychologische Erklärungswert, da dadurch eine Korrelation zwischen den Faktoren vorhanden ist.
- geringe Übereinstimmungsvalidität zu Big-Five-Persönlichkeitsmodell (16 der 25 Korrelationen zw. 16-PR-R und NEO-FFI kleiner als 0,20)
- Empfehlung der Autoren zum Einsatz in "Anwendungsfeldern wie Arbeits-, Betriebspsychologie" ignoriert traditionell das Phänomen der Verfälschbarkeit.
Tags: 16 PF-R, Persönlichkeitsfragebogen
Quelle: S221
Quelle: S221
Was ist der "Scree-Test"?
Beim Scree-Test handelt es sich um eine von Cattell (1966) vorgeschlagene Grafik, in der die Eigenwerte (der vollständigen Faktorenlösung) der Größe nach aufgetragen werden.
Mit der Betrachtung beim kleinsten beginnend, zeigt sich dann so lange eine annähernd kontinuiertlicher Verlauf bis der entsprechende Faktor nicht mehr blog zufällig mehr Varianz (Eigenwert) erklärt als der vorhergehende: Es restuliert ein "Knick" im Verlauf.
Faktoren mit größeren Eigenwerten als der "Knick"-Faktor werden als inhaltlich bedeutsam interpretiert.
Horn (1965) hat ergänzend dazu vorgeschlagen, auch den Eigenwertverlauf simulierter Daten von wechselseitig unabhängig modellierten Variablen einzuzeichnen. Danach wären alle Faktoren mit solchen Eigenwerten bedeutend, die oberhalb des Eigenwertverlaufs der simulierten Variablen liegen.
Eine solche Prüfung wurde hier in Bezug auf den 16 PF-R nicht vorgenommen; sie fiele aber erfahrungsgeleitet gegen die 16-Faktorenlösung aus.
Mit der Betrachtung beim kleinsten beginnend, zeigt sich dann so lange eine annähernd kontinuiertlicher Verlauf bis der entsprechende Faktor nicht mehr blog zufällig mehr Varianz (Eigenwert) erklärt als der vorhergehende: Es restuliert ein "Knick" im Verlauf.
Faktoren mit größeren Eigenwerten als der "Knick"-Faktor werden als inhaltlich bedeutsam interpretiert.
Horn (1965) hat ergänzend dazu vorgeschlagen, auch den Eigenwertverlauf simulierter Daten von wechselseitig unabhängig modellierten Variablen einzuzeichnen. Danach wären alle Faktoren mit solchen Eigenwerten bedeutend, die oberhalb des Eigenwertverlaufs der simulierten Variablen liegen.
Eine solche Prüfung wurde hier in Bezug auf den 16 PF-R nicht vorgenommen; sie fiele aber erfahrungsgeleitet gegen die 16-Faktorenlösung aus.
Tags: 16 PF-R, Persönlichkeitsfragebogen
Quelle: S224
Quelle: S224
Was misst der NEO-PI-R?
- Entstehung
- Zielpopulation und Einsatzmöglichkeiten
- Entstehung
- Zielpopulation und Einsatzmöglichkeiten
- Costa & McCrae
- ursprünglich nur 3 Faktoren: Neurotizismus, Extraversion, Offenheit für Erfahrung (N-E-O)
- NEO-PI-R: 5 Faktoren - zusätzlich Agreeableness (Verträglichkeit) und Conscientiousness (Gewissenhaftigkeit) - Jeder Faktor wird durch 6 Skalen (zu je 8 Items) erfasst.
- Verrechnungsmäßige Zusammenfassung je Faktor erfolgt für verschiedene Alters- und Geschlechtsgruppen über die Summierung von Skalenrohwerten. Solche Gruppierungen nicht berücksichtigend, können jedoch auch pro Faktor die Faktoren-Scores bestimmt werden.
- Das Antwortformat ist einheitlich fünfkategoriell (Verrechnung mit 0 - 4 Punkten).
- Zielpopulation: 16-50 Jährige und auch Personen im Alter darüber
- Einsatzmöglichkeiten: Klinische Anwendungsfelder (psychotherapeutischen Kontext, gesundheitspsychologische Fragestellungen), Berufsberatung, Arbeits- und Organisationspsychologie (Achtung: Normierung erfolgte jedoch an freiwilligen Testpersonen ohne Druck zu sozial erwünschten Antworten)
- NEO-PI-R bietet die Möglichkeit der Fremd- und Selbsteinschätzung, Vergleich möglich.
Tags: NEO-PI-R, Persönlichkeitsfragebogen
Quelle: S225
Quelle: S225
Was misst der MMPI-2?
- Entstehung
- Skalen
- Kritik
- Entstehung
- Skalen
- Kritik
- MMPI - Minnesota Multiphasic Personality Inventory
- 1943
- Ziel: lag in der psychiatrischen Kategorisierung bzw. in der Differenzierung zwischen "normal" und "Abnormal" - Erfassung psychischer Störungen, jedoch auch Anwendung in der "Normal"-Population (Guilford bezeichnete dies als "recht ungeschickt, wenn nicht sogar - wegen der pathologischen Kategorisierung - äußerst peinlich").
- Konstruktion des MMPI: orientiert sich an dem Konzept der inhaltlichen Gültigkeit aus der Sicht klinischer Syndrome: aus ursprünglich 1000 Items wurden Items der Skala zugeordnet, welche sich als typisch herausstellte (z.B. Item das viele Depressive zustimmten aber nur wenig Normale - wurde Skala für Depression sprechend zugeordnet)
- MMPI-2: enthält 567 Items, etwa 350 davon werden mehreren Skalen zugerechnet = hohe Skalen-Interkorrelation
- Skalen: Hypochondrie, Depression, Hysterie/Konversationsstörung, Psychopathie, Soziopathie, antisoziale Persönlichkeitsstörung, männliche/weibliche Interessen, Paranoia, Psychasthenie, Schizophrenie, Hypomanie und soziale Introversion. (es gibt auch noch Zusatzskalen die jedoch selten ausgewerten bzw. angewendet werden)
- Neben normalen Skalen bietet der MMPI-2 auch folgende Skalen (genannt Validitätsskalen): Lügen-Skala, Seltenheits-Skala (Infrequency-Skala), Korrektur-Skala (Eigenschaften die häufig geleugnet/beschönigt werden) . Diese sollten vorsichtig angewendet werden, bis mehr empirische Evidenz vorliegt.
Kritik
- zahlreiche befremdliche Items die u.a. dem Intimbereich betreffen und lassen an der Zumutbarkeit zweifeln - tlw. abenteuerliche Behauptungen "Meine Seele verlässt manchmal meinen Körper", oder "Manchmal bin ich von bösen Geistern besessen"- befassen sich mit Verdauungsvorgängen (will man nicht mit Arbeitgeber teilen): "Ich leide selten unter Verstopfung."- Liebesleben: "Mein Sexualleben ist zufriedenstellend." "Viele meiner Träume handeln von Sex."(tlw. werden mit bestimmten Antwortformaten alte Klischess am Leben gehalten)
- MMPI beruht auf alten Kraepelinschen Klassifikationssystems und nicht auf multiaxiale Beschreibungssystemen wie ICD-10 oder DSM-IV. MMPI-2 wird der modernen psychiatrischen Diagnostik nicht mehr gerecht.
- Kritik der unzureichenden psychometrischen Gütenachweise gilt nach wie vor: Bedeutsame empirische Nachweise zur Messgenauigkeit und Validität des MMPI-2 fehlen.
- Obwohl es eine allgemein akzeptierte Notwendigkeit einer Überprüfung der interkulturellen Äquivalenz von psychologisch-diagnostichen Verfahren gibt, scheint es befremdlich, dass die Entwicklung einer nationalen Version eines "Klassikers" als nicht sinnvoll erschien. Eine verfehlte Messintention in der dt. Version sehr wahrscheinlich.
Tags: Persönlichkeitsfragebogen
Quelle: S228
Quelle: S228
Was misst der PRF?
- Theorie
- Zielgruppe und Anwendungsbereich
- Entstehung
- Theorie
- Zielgruppe und Anwendungsbereich
- Entstehung
- Deutsche Personality Research Form, 1985 - gründliche Bearbeitung der amerik. Originalversion aus 1967
- bezieht sich auf Henry Murray und dessen motivationspsychologisch begründete Persönlichkeitstheorie - Murray interpretierte den Menschen als einen aktiven Organisimus, der nicht nur auf den Druck der Situation reagiert, sondern bestimmte Situationen auch aufsucht und gestaltet.
- Murray unterscheidet zwischen primären (Bedürfnissen) und sekundären (psychogenen) Motiven. Darunter fallen: Selbsterniedrigung, Geselligkeit, Auntonimiestreben, Sorgfalt, Dominanzstreben, Bedürfnis nach Beachtung, Impulsiviätt, Ordnungsstreben, Beachtung von Sinnesqualitäten, Anlehnungsbedürfnis, Leistungsstreben, Aggressivität, ...
- Beispiel-Item - es wird mit "richtig" oder "falsch" geantwortet: "Ich ärgere mich über mich selbst, wenn ich etwas nicht gründlich gelernt habe." (Leistungsstreben)
- Skala Infrequenz: zur Kontrolle von Antworttendenzen, 10 Items
- Zielgruppe: Personen ab 17 Jahren
- Anwendungsbereich: Berufs- und Bildungsberatung, Personalwesen, auch bei bestimmten arbeits- bzw. organisationspsychologischen Fragestellungen (NICHT verwendet soll es für Verhaltensauffälligkeiten und -störungen im klinischen Sinn)
Entstehung
- Auswahl der PRF-Items aus ursprünglich 3000 Items.
- Es wurde auf die inhaltliche Gültigkeit Rücksicht genommen - basierend auf Experten-Ratings und Fremdeinschätzung von fiktiven Personen mit extremer Ausprägung im jeweiligen Konstrukt.
- Weiters wurde auf die - innere Konsistenz,- Item-Schwierigkeit,- konvergente und diskriminante Validität (v.a. in Bezug auf soziale Erwünschtheit) geachtet.
- Nachträgliche Absicherung durch Faktorenanalystische Auswertungen auf Itemebene.
Tags: Persönlichkeitsfragebogen
Quelle: S235
Quelle: S235
Was versteht man unter Interessen (Definition)?
Interessen sind relativ stabile, kognitiv, emotional und werthaft in der Persönlichkeit verankerte Handlungstendenzen, die sich nach Art, Generalisiertheit und Intensität unterscheiden.
Das heißt, Interessen hängen von der kognitiven Struktur und der emotionalen Grundstimmung einer Person ab. Und davon, dass sie die Auseinandersetzung mit dem fraglichen Thema als persönlich bedeutsam erlebt, und zwar auch ohne äußere Veranlassung dazu.
Was die Generalisierbarkeit betrifft, ist gemeint, dass sich Interessen auf sehr eng bengrenzte Aspekte eines Themas beziehen können (z.B. Planeten) oder eben universiell auf (fast) alle dieser Aspekte (z.B. Sport).
Das heißt, Interessen hängen von der kognitiven Struktur und der emotionalen Grundstimmung einer Person ab. Und davon, dass sie die Auseinandersetzung mit dem fraglichen Thema als persönlich bedeutsam erlebt, und zwar auch ohne äußere Veranlassung dazu.
Was die Generalisierbarkeit betrifft, ist gemeint, dass sich Interessen auf sehr eng bengrenzte Aspekte eines Themas beziehen können (z.B. Planeten) oder eben universiell auf (fast) alle dieser Aspekte (z.B. Sport).
Tags: Definition, Interessen
Quelle: S254
Quelle: S254
Was ist das "Hexagon-Modell" von John L. Holland?
Holland nimmt 6 Grundhaltungen des Menschen gegenüber seiner Umwelt an, die sich in eben solchen sechs Interessensarten ausdrücken:
Dabei sind diese sechs Interessensarten zueinander in einem bestimmten, hexagonalen Zusammenhang zu sehen - d.h. je mehr Interessensarten auf dem Hexagon zwischen je zwei Interessensarten angeordnet sind, umso weniger "verwandt" sind letztere.
Je nachdem, wie genau die Interessensarten bei einer einzelnen Person strukturiert sind, ergibt sich ein anderer (Interessens-)Typ.
Eine solche Typisierung strebt die Fragenbogenbatterie AIST-R/UST-R an.
- Praktisch-technische Interessen; R, realistic
- Intellektuell-forschende Interessen; I, investigative
- Künstlerisch-sprachliche Interessen; A, artistic
- Soziale Interessen; S, social
- Unternehmerische Interessen; E, enterprising
- Konventionelle Interessen; C, conventional
Dabei sind diese sechs Interessensarten zueinander in einem bestimmten, hexagonalen Zusammenhang zu sehen - d.h. je mehr Interessensarten auf dem Hexagon zwischen je zwei Interessensarten angeordnet sind, umso weniger "verwandt" sind letztere.
Je nachdem, wie genau die Interessensarten bei einer einzelnen Person strukturiert sind, ergibt sich ein anderer (Interessens-)Typ.
Eine solche Typisierung strebt die Fragenbogenbatterie AIST-R/UST-R an.
Tags: AIST-R/UST-R, Interessen
Quelle: S254
Quelle: S254
Was misst der AIST-R/UST-R?
Positive Aspekte und Kritik?
Positive Aspekte und Kritik?
AIST-R/UST-R: Allgemeiner Interessen-Struktur-Test/Umwelt-Struktur-Test; Bergmann&Eder, 2005
Theoriegeleitetes psychologisch-diagnostische Verfahren zur Persönlichkeitsbeschreibung; Erfasst den Interessentyp und Umwelttyp basierend auf dem "Hexagon-Modell" von Holland.
Ist der AIST-R kaum mehr als ein Verfahren zur Persönlichkeitsbeschreibung, so wird er im Zusammenhang mit UST-R für die Praxis von Fallbehandlungen besonders nützlich.
Nach Holland gibt es den sechs Persönlichkeitsorientierungen entsprechend sechs Arten von (Berufs-)Umwelten, so dass die Kongruenz zwischen Person und Umwelt bestimmt werden kann.
Der UST-R erhebt dabei die Vorstellung der Tp über die Bedeutung verschiedenster Tätigkeiten im Zusammenhang mit dem von ihr präferierten Beruf. Dadurch ist nicht nur die indirekte Feststellung des Informationsgrads der Tp +ber den präferierten Beruf möglich, sondern vor allem die Bestimmung des Grads der sog. "Passung" zwischen eigenen Interessen und erwarteten Anforderungen.
Dieser Grad der Passung wird über die Distanzen im Hexagon quantifiziert.
Positive Aspekte
Kritik:
Theoriegeleitetes psychologisch-diagnostische Verfahren zur Persönlichkeitsbeschreibung; Erfasst den Interessentyp und Umwelttyp basierend auf dem "Hexagon-Modell" von Holland.
Ist der AIST-R kaum mehr als ein Verfahren zur Persönlichkeitsbeschreibung, so wird er im Zusammenhang mit UST-R für die Praxis von Fallbehandlungen besonders nützlich.
Nach Holland gibt es den sechs Persönlichkeitsorientierungen entsprechend sechs Arten von (Berufs-)Umwelten, so dass die Kongruenz zwischen Person und Umwelt bestimmt werden kann.
- Kongruenz: Übereinstimmung von Person und Umwelt
- Konsistenz: Ähnlichkeit der bevorzugten Interessenstypen innerhalb einer Person.
Der UST-R erhebt dabei die Vorstellung der Tp über die Bedeutung verschiedenster Tätigkeiten im Zusammenhang mit dem von ihr präferierten Beruf. Dadurch ist nicht nur die indirekte Feststellung des Informationsgrads der Tp +ber den präferierten Beruf möglich, sondern vor allem die Bestimmung des Grads der sog. "Passung" zwischen eigenen Interessen und erwarteten Anforderungen.
Dieser Grad der Passung wird über die Distanzen im Hexagon quantifiziert.
Positive Aspekte
- offensichtlich förderungsorientierte Aspekt mit dem AIST-R: - eine der vielen Erklärungsmöglichkeiten für Leistungsversagen ist damit abzuklären; - "Berufswahlreife": Inwieweit ist der angedachte Berufswunsch der untersuchten Person "reif", d.h. wurde dieser Wunsch reiflich in Bezug auf alle entscheidungsrelevanten Kriterien reflektiert.
Kritik:
- Obwohl der AIST-R theoriegeleitet ist, enthält er gegenüber theorielosen Interessenfragebogen keine grundsätzlich andere Fragen.
Tags: AIST-R/UST-R
Quelle: S255
Quelle: S255
Was misst die GIS?
Generelle Interessen-Skala; Brickenkamp, 1990
Interessensfragebogen
Sinnvoll bei Fragestellungen Leistungsversagen.
GIS unterscheidet zwischen 3 Verhaltensmodalitäten pro Interessensbereich; und zwar zwischen einer rezeptiven, einer reproduktiven und einer kreativen Beschäftigung.
Beispiele zu "Kommunikationstechnologie":
Mit diesem Interessensfragebogen kann sich zeigen, dass einerseits ein offensichtliches Interesse an einem bestimmten Bereich sich andererseits (nur) auf eine bestimmte Art der Beschäftigung bezieht und auf eine bestimmte andere Art eben nicht.
Interessensfragebogen
Sinnvoll bei Fragestellungen Leistungsversagen.
GIS unterscheidet zwischen 3 Verhaltensmodalitäten pro Interessensbereich; und zwar zwischen einer rezeptiven, einer reproduktiven und einer kreativen Beschäftigung.
Beispiele zu "Kommunikationstechnologie":
- "sich über neue Computer informieren"
- "mit Computern spielen oder arbeiten"
- "Computerprogramm erstellen"
Mit diesem Interessensfragebogen kann sich zeigen, dass einerseits ein offensichtliches Interesse an einem bestimmten Bereich sich andererseits (nur) auf eine bestimmte Art der Beschäftigung bezieht und auf eine bestimmte andere Art eben nicht.
Tags: GIS, Interessen
Quelle: S257
Quelle: S257
Was sind generell Probleme bei Interessensfragebögen (5)?
- Die Erfassung von Interesse alleine reicht nicht aus um Ausbildungs- oder Berufszufriedenheit bzw. Erfolg vorherzusagen. - Die notwendigen FÄHIGKEITEN dafür müssen unbedingt mit erhoben werden. (Es muss letztlich bei einer psychologischen Laufbahnberatung die leistungsbezogene Eignung entscheidend sein)- D.h. es soll auch Leistungstest durchgeführt werden.
- Interesse entwickelt sich oftmals erst durch Aktualisierung in einer bestimmten Situation ("by doing"). - Beispiel: „Es interessiert mich sehr Laboruntersuchungen durchzuführen.“ – Kann nur gut beantwortet werden, wenn es selbst schon durchgeführt wurde.
- Interessenfragebogen setzen viel Vorstellungskraft und Informiertheit voraus. (Ist es der Tp überhaupt vorstellbar zu machen, was bestimmte von ihr zu beurteilende Tätigkeiten tatsächlich bedeuten?)Beispiel: "mit Maschinen oder technischen Geräten arbeiten" bedeutet oft, unter starker Lärm- und Staubbelastung, tlw. unter Zeitdruck arbeiten zu müssen.
- Interessefragebögen decken nicht alles ab (Kann ein Interessensfragebogen überhaupt sämtliche heute (und später) relevanten, dh. beruflich verwertbaren Interessensbereich abdecken?)
- Interessensfragebögen sind (sozial erwünscht) verfälschbar. Häufig kann die Motivation für einen Beruf größer als das Interesse daran sein; das mag an Prestigestreben der Tp liegen, am Wunsch der Eltern oder am Vorbild der Peers - dann ist es natürlich verlockend, die Items eines Interessenfragebogens so zu beantworten, wie sie zum gehegten Berufswunsch passt.
Tags: Interessen
Quelle: S257
Quelle: S257
Kartensatzinfo:
Autor: coster
Oberthema: Psychologie
Thema: Psychologische Diagnostik
Schule / Uni: Universität Wien
Ort: Wien
Veröffentlicht: 12.06.2013
Tags: SS2013, Holocher-Ertl
Schlagwörter Karten:
Alle Karten (119)
16 PF-R (3)
AIST-R/UST-R (2)
Aufmerksamkeit (1)
Beobachten (1)
Big Five (1)
culture-fair (5)
Definition (3)
Diagnostik (15)
Eichmaßstäbe (3)
Eichung (9)
Eigenschaft (1)
Ethik (1)
Fairness (7)
Faktorenanalyse (2)
Formal (8)
Fragen (3)
Freiwillige (1)
GIS (1)
Grundsätze (6)
Gruppenverfahren (1)
Gütekriterien (1)
Intelligenz (1)
Interessen (4)
IQ (1)
Konzentration (1)
Laien (1)
Leistungsdiagnostik (13)
Memory (1)
Merkmal (1)
Messen (1)
NEO-PI-R (2)
Nützlichkeit (2)
Objektivität (5)
Ökonomie (3)
Postkorb (1)
Profil (1)
Prognose (1)
Prozentrang (2)
Prüfen (3)
Psychologe (1)
Rasch-Modell (5)
Reasoning (1)
Reliabilität (6)
Schwierigkeit (1)
Skalierung (8)
Space (1)
Test (2)
trait (1)
Validität (8)
Verfahren (3)
Voraussetzung (1)
Zumutbarkeit (2)