VO Rahmenbedingungen Psychologisches Diagnostizieren | Karteikarten online lernen

Alle Oberthemen / Psychologie / Psychologische Diagnostik

VO Rahmenbedingungen Psychologisches Diagnostizieren (119 Karten)

Sag Danke

1
Kartenlink

Was gehört zum Qualitätsprofil für Psycholog(inn)en" im Fach Psychologischer Diagnostik (17)?

Profunde Kenntnisse über Konzepte und Regeln der Gesprächsführung in Bezug auf die "Sammlung der typischerweise mit dem gegebenen Sachverhalt in Verbindung stehenden Informationen" (u.a. Projektion, Gegenübertragung, Reaktanz)
Fertigkeit, umgangssprachlich formulierte Fragestellungen (Untersuchungsanlässe; Aufträge) in psychologische Fragen umzuformulieren (Herausarbeitung eindeutig zu beantwortender diagnostischer Fragestellungen mit Hilfe entscheidungsorientierter Gesprächsführung).
Fertigkeit, je diagnostischer Fragestellung ein Anforderungsprofil auszuarbeiten.
Verfügbarkeit eines Kompendiums allgemeiner Bedingungszusammenhänge möglicher, den Untersuchungsanlass (mit-)beeinflussender Faktoren zur dementsprechenden Hypothesenbildung und -abklärung
Detailkenntnisse von psychologisch-diagnostischen Verfahren (z.B. Tests) der Psychologischen Diagnostik ("state of the art")
Qualifikation zur selbständigen Kompetenzgewinnung in der Anwendung neuer bzw. spezieller psychologische-diagnostischen Verfahren (z.B. Tests)
Beherrschung der wissenschaftlich fundierten Richtlinien bei der Beurteilung der Qualität psychologisch-diagnostischer Verfahren.
Ansprechende Routine in der Administration psychologisch-diagnostischer Verfahren (Einzeltestung, Gruppentestung, Computerdiagnostik)
Kenntnis der rechtlichen Rahmenbedingungen psychologischen Diagnostizierens (Datenschutz, ethische Richtlienien,...)
Kenntnis der spezieller Testbedingungen spezieller Populationen (Kleinkinder, etc.)
Objektivität in der Darstellung von Ergebnissen (strikte Trennung zur Interpretation)
Kompetenz in der Interpretation psychologisch-diagnostischer Ergebnisse sowie in der Umsetzung in psychologische Fachgutachten (Auflösen vermeintlicher Widersprüche, Integration diverser Sachverhalte und Einzelergebnisse).
Kenntnis der psychohygienischen Versorgungsinstitutionen samt deren Angeboten in Bezug auf psychologische Behandlungsmöglichkeiten
Kenntnis der Bildungsinstitutionen
Profunde Kenntnis über Konzepte und Regeln in der Präsentation psychologisch-diagnostischer Ergebnisse (Gesprächsführung zur Übermittlung von Katastrophennachrichten)
Kompetenz zur adressatengemäßgen Diktion bei der Gutachtenerstellung (z.B. sachliche Umschreibung von Fachtermini)
Kompetenz zur Abfassung psychologischer Gutachten in einer Art und Weise, dass die Fragestellung eindeutig beantwortet wird, ein Maßnahmenvorschlag getroffen wird und die getroffene Schlussfolgerung für Fachkollegen nachvollziehbar sind.

Tags: Diagnostik, Profil, Psychologe
Quelle: S2

2
Kartenlink

Wie lässt sich das "Psychologisches Diagnostizieren" definieren (2 Definitionen)?

Psychologisches Diagnostizieren ist ein Prozess, der unter Zuhilfenahme besonderer Verfahren zielgerichtete Informationen über die psychischen Merkmale von einem (oder mehreren) Menschen gewinnen will.
Dieser Prozess bezieht sich auf

Klärung der Fragestellung,
Auswahl der einzusetzenden Verfahren,
Anwendung und Auswertung dieser Verfahren
Interpretation und Gutachtenerstellung,
Festsetzen der Intervention (des Maßnahmenvorschlags).

2. Definition: Psychologisches Diagnostizieren ist die wissenschaftliche Disziplin ("Lehrfach"), die psychologisches Diagnostizieren für die Praxis vorbereitet.

Weitere Infos:
Das Teilgebiet der Psychologie, dass sich mit der Theorie, der Konstruktion und der Analyse von Diagnostikverfahren befasst, ist die Psychologische Diagnostik.
In der traditionellen Einteilung der psychologischen Teilfächer ist die Diagnostik eng verwandt mit der differentiellen Psychologie.

Tags: Definition, Diagnostik
Quelle: S7

3
Kartenlink

Welche 6 Teilbereiche der Psychologie sind mit der psychologischen Diagnostik verwandt bzw. nutzen diese?

In der traditionellen Einteilung der psychologischen Teilfächer ist die Diagnostik eng verwandt mit der differentiellen Psychologie.

Folgende Teilbereiche nutzen die psychologische Diagnostik:

Klinische Psychologie
Arbeits- und Organisationspsychologie
Pädagogische Psychologie
Gesundheitspsychologie
Forensische Psychologie

In diesen Bereichen spielt neben dem "Beschreiben" und "Erkären" besonders das "Messen" psychischer und psychologischer Phänomene eine Rolle.

Tags: Diagnostik
Quelle: S6

4
Kartenlink

Inwiefern beeinflusst das Menschenbild die psychologische Diagnostik?

Je nach Menschenbild, also philosophisch-anthropologischer Annahme, kann das "Psychische" eines Menschen, also seine "Persönlichkeit", als grundsätzlich messbar aufgefasst werden oder, (lediglich) phänomenologisch-betrachtend, als "erschließbar" durch "mitmenschliche Begegnungen". Wichtig ist, dass sich beide Standpunkte ergänzen.

Tags: Diagnostik
Quelle: S6

5
Kartenlink

Was ist eine Diagnose? Was ist eine Prognose?

Die Feststellung des Vorhandenseins oder Ausprägungsgrades psychologischer Merkmale (Eigenschaften, Fähigkeiten, Verhaltensweisen, usw.) unter Beachtung bestimmter Kriterien bezeichnet man inder Psychologie als Diagnose.

Diagnostizieren in der Psychologie kann als das Aufstellen und Prüfen "idiographischer" Hypothesen verstanden werden die sich auf konkrete Einzelfälle beziehen.
Bei den Einzelfällen handelt es sich um

einzelne Personen (Klient, Patient),
spezifische Gruppen von Personen (Paar, Familie, Schulklasse,...) und
ganze Organisationen (Betrieb, Behörde, Institution) in Frage.

Diagnosen sind häufig mit Prognosen verknüpft: Kenn man die ... Eigenschaft ... eines Menschen, so sind unter Umständen Voraussagen über seine künftigen Merkmale, Erfolge bei verschiedenen Ausbildungen oder seine Bewährung bei unterschiedlichen Tätigkeiten möglich.

Tags: Diagnostik, Prognose
Quelle: S6

6
Kartenlink

Was ist ein psychisches Merkmal?

Obwohl in der Angewandten Statistik, insbesonder innerhalb der Psychologie, die Bezeichnung "Merkmal" (oft auch: Variable) geläufig ist, repräsentiert "psychisches Merkmal" kein verbindlichen terminus technicus.
Hier soll damit ein Oberbegriff gemeint sein von Eigenschaft (englisch: trait) einerseits und Erlebens- und Verhaltensweisen andererseits.

Dabei kann als Eigenschaft einer Person vorläufig vereinfachend verstanden werden: die "Bereitschaft, auf eine funktional äquivalente Klasse von Situationen mit einer funktional äquivalten Klasse von Reaktionen zu antworten." (Psychologie-Lexikon). Insbesondere beinhaltet der Begriff Eigenschaft auch (spezifische) kognitive Fähigkeiten.

Tags: Eigenschaft, Merkmal, trait
Quelle: S7

7
Kartenlink

Was versteht man unter psychologisch-diagnostischer Verfahren (2 Definitionen)?

Ein psychologisch-diagnostisches Verfahren (vereinfacht oft "Tests" genannt) erhebt unter standardisierten Bedingungen eine Informationsstichprobe über einen (oder mehrere) Menschen, indem systematisch erstellte Fragen/Aufgaben interessierende Verhaltensweisen oder psychische Vorgänge auslösen;

Ziel ist es, die fragliche Merkmalsausprägung zu bestimmen.

Definition von Lienert:
"Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung."
(Persönlichkeit lt Lienert: Menge aller psychischer Merkmale eines Menschen)

Tags: Definition, Test, Verfahren
Quelle: S10

8
Kartenlink

Welche psychologisch-diagnostischen Verfahren (Tests) gibt es (7)?

Persönlichkeitsfragebogen (wird am häufigsten implizit angenommen)
Anamneseerhebung:
Exploration:
Verhaltensbeobachtung:

Sodann sind zu den psychologisch-diagnostischen Verfahren zu zählen

Biografisches Inventar:
Assessment-Center:
Arbeitsplatzanalyse

Tags: Diagnostik, Verfahren
Quelle: S11

9
Kartenlink

Welche ist hinsichtlich der rechtlichen Rahmenbedingungen beim Psychologischen Diagnostizieren zu berücksichtigen?

Um mit klinischem Klientel arbeiten zu dürfen ist eine postgraduelle Ausbildung zum Klinischen Psychologen und Gesundheitspsychologen notwendig.
Wichtig ist das Psychologen in der Diagnostik immer auf dem aktuellen wissenschaftlichen Stand arbeiten.

Allgemein gilt, dass die Erstellung und Verwendung von Gutachten und Untersuchungsberichten von Psychologen größtmögliche sachliche und wissenschaftliche Fundiertheit, Sorgfalt und Gewissenhaftigkeit erfordert.
Gutachten und Untersuchungsberichte müssen für die Adressaten inhaltlich nachvollziehbar sein.

Reglementierung zum Konsumentenschutz

Der Konsument (die Testperson) hat die Garantie, fachgemäß psychologische behandelt zu werden.

Tags: Diagnostik, Rechtliche Rahmenbedingungen
Quelle: VO01

10
Kartenlink

Was versteht man unter Verhaltensdisposition?

Grundsätzlich ist zwischen tatsächlichen Verhalten und der "Verhaltensdisposition" einer Person strikt zu unterscheiden.

Dabei ist unter Verhaltensdisposition gerade das präziser zu verstehen, was oft ziemlich abstrakt als Eigenschaft bezeichnet wurde: Bestimmte, einer Person letzlich zuzuschreibende, aber eben nicht direkt beobachtbare Eigenschaft machen - vor allem unter gewissen Bedingungen - bestimmte Verhaltensweisen (Haltungen) mehr oder weniger wahrscheinlich; es besteht eine Disposition, ein "Anlage" dazu, gerade diese Verhaltensweise tatsächlich zu realisieren.
Andere Eigenschaften machen die selben Verhaltensweisen mehr oder weniger unwahrscheinlich.

Unbekannte Größen aller Art können aber dieses Verhalten, diese Handlungen auch (gelegentlich) verhindern. Daraus folgt: Mittels psychologischen Diagnostizieren sind schwerlich konkrete Handlungen vorauszusagen, bestenfalls die grundsätzlich Disposition dazu.

Tags: Diagnostik, Verhaltensdisposition
Quelle: S14

11
Kartenlink

Was ist die Grundidee der Psychologischen Diagnostik?

Angelehnt an die experimentelle Idee des systematischen Manipulierens geht es in der Psychologischen Diagnostik darum, bei der untersuchten Person Verhalten (Reaktionen, gelegentlich auch Aktionen) zu provizieren.

Dieses provozierte Verhalten stellt eine Verhaltensstichprobe der Menge aller (gegenwärtig möglichen) Verhaltensweisen der Person dar und wird als das Produkt der eigentlich interessierenden, aber latenten Eigenschaft (Verhaltensdisposition) dieser Person aufgefasst bzw. als ein Ergebnis, das durch diese Eigenschaft (mit-)verursacht wurde.

Mittels Umkehrschluss folgt, dass diese Person die interessierende Eigenschaft zu einem bestimmten Ausprägungsgrad haben muss, weil sie eben genau das konkrete Verhalten gezeigt hat. Mit je nach dem unterschiedlich stark eingeschränkter Sicherheit kann schließlich eine Prognose über das typische Verhalten dieser Person in die Zukunft gegeben werden.

Tags: Diagnostik
Quelle: S15

12
Kartenlink

Welche Einstellungen der Öffentlichkeit (Laien) gibt es die den faktischen Möglichkeiten der psychologischen Diagnostik nicht gerecht werden?

Laienhafte "Gläubigkeit"

Verbindlichkeit eines Testergebnisses für eine Prognose

"Ehrfurcht"

unsachliche Disqualifikation ihrer Relevanz als eine entscheidungsbegründende psychohygienische Methode

Entsprechende Vorbehalte sind

abzuklären

Tags: Diagnostik, Laien, Voraussetzung
Quelle: S16

13
Kartenlink

Welche Arten von Quellen sind hinsichtlich der Reglementierung zum Konsumentenschutz zu unterscheiden?

Grundsätzlich verankerte Rechten, die "Würde des Menschens" betreffend (sinngemäß in der Europäischen Konvention zum Schutz der Menschenrechte und Grundfreiheiten, konkret genannt im Grundgesetz der BRD)
gesetzliche Einzelregelungen (thematischer oder "hoheitsgebietlicher" Art),
berufsordnungsmäßig festgelegte ethische Verpflichtungen im Rang von Vereinssatzungen bzw. Qualitätsstandards von Normungsinstituten,
fachautorisierte "Apelle".

Tags: Diagnostik, Grundsätze
Quelle: S28

14
Kartenlink

Welche Grundsätze (Regelungen) Ausübung des psychologischen Diagnostizieren gibt es im Überblick?

Berufsordnung der BDP (Berufsverband Deutscher Psychologinnen und Psychologen e.V.) für (freiwillige) Mitglieder
Berufsbezogene Eignungsbeurteilung: DIN 33430 (Personen die sich dazu verpflichtet haben)
in AT: Psychologengesetz (allgemeine Grundsätze psychologischen DIagnostizierens)

Die 3 Reglementierungen ergänzen sich einander hervorragend:

Psychologengesetz und Berufsordnung setzen berufsständigsche ethische Richtlinien fest, die
DIN 33430 regelt konkret die Anforderungen an Verfahren und deren Einsatz bei der berufsbezogenen Eignungsbeurteilung, wobei sie sich in wesentlichen Teilen auf die bereits angesprochenen Gütekriterien bezieht; damit erhalten diese (endlich) mehr an Gewicht als bloß das eines fachautorisierten Appells.

Tags: Diagnostik, Grundsätze
Quelle: S29

15
Kartenlink

Was sind die Berufspflichten der Klinischen Psychologen und Gesundheitspsychologen (Psychologengesetz)?

§13 (1) Klinische Psychologen und Gesundheitspsychologen haben ihren Beruf nach bestem Wissen und Gewissen und unter Beachtung der Entwicklung der Erkenntnisse der Wissenschaft auszuüben. Diesem Erfordernis ist insbesondere durch den regelmäßigen Besuch von Fortbildungsveranstaltungen zu entsprechen.
(3) Klinische Psychologen und Gesundheitspsychologen dürfen psychologische Tätigkeiten nur mit der Zustimmung
(4) Klinische Psychologen und Gesundheitspsychologen sind verpflichtet dem Behandelten oder seinem gesetzlichen Vertreter alle Auskünfte über die Behandlung insbesondere über Art, Umfang und Entgelt, zu erteilen.
(5) Klinische Psychologen und Gesundheitspsychologen haben sich bei der Ausübung ihres Berufs auf jene psychologischen Arbeitsgebiete und Behandlungsmethoden zu beschränken, auf denen sie nachweislich ausreichende Kenntnisse und Erfahrungen erworben haben.
§10 (4) Zur Ausübung des psychologischen Berufs berechtigte Personen dürfen psychologische Gutachten nur nach genauer Erhebung der im Gutachten zu beurteilenden Tatsachen nach bestem Wissen und Gewissen ausstellen.

Tags: Grundsätze, Psychologengesetz
Quelle: S30

16
Kartenlink

Was sind die wesentlichen ethischen Richtlinien (15) der DGP und BDP?

Psychologen müssen ihre Klienten/Patienten über alle wesentlichen Maßnahmen und Behandlungsabläufe unterrichten und sich ihre Einwilligung versichern.
Klienten/Patienten haben das Recht, ohne Gegenwart eines Dritten beraten oder behandelt zu werden.
Psychologen sind in der Zusammenarbeit mit Angehörigen anderer Berufe loyal, tolerant und hilfsbereit.
Angestellt oder beamtete Psychologen haben bei Begründung eines Dienstverhältnisses auf ihre eigenverantwortliche Berufsausübung hinzuweisen, insbesondere auf die ihnen kraft Gesetzes obliegende Schweigepflicht.
Sie haben darauf hinzuweisen, dass ihre persönliche Verantwortung für Patient und Klient Grenzen der dienstlichen und fachlichen Aufsicht über ihre Arbeit bedingen kann und darauf hinzuwirken, dass insbesondere in der heilkundlich-klinischen Psychologie den Psychologen ein weisungsfreier Kernbereich bleibt.
Sie haben darauf hinzuwirken, dass ethischen Anforderungen zuwiderlaufende und nicht fachgerecht zu erfüllende Aufgaben nicht abverlangt werden können.
Dem Arbeitgeber soll eine Ausfertigung dieser ethischen Richtlinien übergeben werden.
Psychologen sind nach §203 StGB verpflichtet, über alle ihnen in Ausübung ihrer Berufstätigkeit anvertrauten und bekannt gewordenen Tatsachen zu schweigen, soweit nicht das Gesetz Ausnahmen vorsieht oder ein bedrohtes Rechtsgut überwiegt.
Die Schweigepflicht von Psychologen besteht auch gegenüber Familienangehörigen der ihnen anvertrauten Personen.
Ebenso besteht Schweigepflicht von Psychologen gegenüber ihren Kollegen und Vorgesetzten.
Psychologen sind verpflichtet, über Beratungen und Behandlungen aussagefähige Aufzeichnungen zu erstellen
Allgemein gilt, dass die Erstellung und Verwendung von Gutachten und Untersuchungsberichten von Psychologen größtmögliche sachliche und wissenschaftliche Fundiertheit, Sorgfalt und Gewissenhaftigkeit erfordert.
Gutachten und Untersuchungsberichte müssen für die Adressaten inhaltlich nachvollziehbar sein.
Psychologen sind gehalten, darauf hinzuwirken, dass die Begutachteten ihre Gutachten bzw. den Untersuchungsbericht auf Wunsch einsehen können, sofern für sie kein gesundheitlicher Schaden zu befürchten ist.
Falls der Auftrag eine Einsichtnahme von vornherein ausschließt, müssen die Begutachteten vorab davon in Kenntnis gesetzt werden.

Tags: Ethik, Grundsätze
Quelle: S30

17
Kartenlink

Was sind Ziele und Qualitätskriterien der DIN 33430?

Die Norm dient

dem Schutz der Kandidaten vor unsachgemäßer oder missbräuchlicher Anwendung von Verfahren zu Eignungsbeurteilungen,
Personalverantwortlichen bei der Qualitätssicherung und -optimierung von Personalentscheidungen.

Hinsichtlich der Auswahl, Zusammenstellung, Durchführung, Auswertung und Interpretation der Verfahren fordert die DIN33430, dass

die zur Eignungsbeurteilung eingesetzten Verfahren auf Grundlage einer Arbeits- und Anforderungsanalyse festgelegt werden,
für jedes Verfahren (z.B. auch für Interviews und Assessment-Center) ausführliche Verfahrenshinweise (Manuale) vorliegen,
die Regeln zur Auswertung und Interpretation und Entscheidung vorab festgelegt werden,
die zur Eignungsbeurteilung herangezogenen Normwerte der Referenzgruppe der Kandidaten entsprechen,
die Gültigkeit der eingesetzten Verfahren empirisch nachgewiesen ist,
die Gültigkeit der Normwerte spätestens alle acht Jahre überprüft werden,
der gesamte Prozess der Eignungsbeurteilung, inklusive der Gütekriterien und Entscheidungsregeln, nachvollziehbar dokumentiert wird.

Tags: Diagnostik, Grundsätze
Quelle: S32

18
Kartenlink

Wie ist die rechtliche Verbindlichkeit der DIN 33430?

DIN-Normen haben zunächst keine Rechtsverbindlichkeit. Eine Pflicht zur Anwendung der DIN 33430 gibt es nicht.
Die Einführung und Umsetzung der DIN 33430 ist vollkommen freiwillig. Ein Arbeitgeber muss sie also nicht zwingend anwenden, ein Bewerber kann die Anwendung nicht einfordern. Dennoch kann die DIN33430 verbindlich werden.

Wenn sich z.B. Auftraggeber und Auftragnehmer vorher die Anwendung der DIN33430 vertraglich festlegen.
Einen hohen Verbindlichkeitsgrad kann die DIN 33430 durch Betriebsräte erhalten. Nach (deutschem) Betr.VG §95 Absatz 2 kann der Betriebsrat in Unternehmen mit mehr als 400 Mitarbeitern die Aufstellung von Auswahlrichtlinien verlangen.
Im öffentlichen Dienst kann die DIN 33430 wegen der Möglichkeit einer Konkurrentenklage zum harten Faktor werden.
...

Tags: Grundsätze
Quelle: S32

19
Kartenlink

Was sind die Gütekriterien psychologisch-diagnostischer Verfahren nach Lienert/Gulliksen im Überblick? Welche Kriterien wurden später ergänzt?

Gütekriterien nach Lienert/Gulliksen
Hauptgütekriterien

Objektivität
Reliabilität
Validität

Weitere Gütekriterien

Normierung/Eichung
Ökonomie
Nützlichkeit

Später ergänzte Kriterien

Zumutbarkeit
(Un-)Verfälschbarkeit
Fairness
Skalierung (ergibt sich aus der Item-Response-Theorie)

Tags: Diagnostik, Gütekriterien
Quelle: F37, VO02

20
Kartenlink

Was versteht man unter Objektivität? Welche Arten können unterschieden werden?

„Unter Objektivität eines Tests ist zu verstehen, dass die mit ihm gewonnenen Ereignisse unabhängig vom Untersucher sind.“

Durchführungsobjektivität (Testleiterunabhängigkeit): Fokus auf den Prozess der Durchführung
Auswertungsobjektivität (Verrechnungssicherheit): Fokus auf die Auswertung
Interpretationsobjektivität (Interpretationseindeutigkeit): Kommt jeder Testleiter bei den gleichen Ergebnissen zur Interpretation (ist bei der Normierung meist gegeben)

Tags: Objektivität
Quelle: S38, VO02

21
Kartenlink

Was versteht man unter der Testleiterunabhängigkeit? Welche Effekte treten damit im Zusammenhang auf?

(auch Durchführungsobjektivität)
Testleiterunabhängigkeit ist dann gegeben, wenn das Testverhalten der Testperson und damit ihr Testergebnis unabhängig ist von zufälligen oder systematischen Verhaltensvariationen aller denkbaren Testleiter.

„Halo“-Effekt:
Der Beurteiler hat die Tendenz, bei der Beurteilung einer Persönlichkeitseigenschaft sich von einem Gesamteindruck oder einer hervorstechenden Eigenschaft leiten zu lassen.

Einfluss non-verbaler Kommunikation
Darunter fallen

Körperbewegungen bzw. kinästhetisches Verhalten (Gestik, Körperhaltung, Gesichtsausdruck, Augenbewegung und Kopfhaltung)
Paralinguistische Qualitäten (Töne und Laute)
"Proxemics", das ist der soziale bzw. persönliche Abstand gegenüber anderen.

Rosenthal-Effekt:
Infolge manipulierter Einstellungen der „Lehrer“ gelangen zwei grundsätzlich gleiche Gruppen von Versuchsobjekten (Ratten, Schüler) zu unterschiedlichen Leistungen.

(Studie Preusche, 2007 – Untersuchte v.a. den Einfluss vom Geschlecht der Testleiter auf das Ergebnis.)

Beispiel: Das Beet ist 2m lang und 1m breit. Wie lang muss die Schnur mindestens sein, wenn sie zwei Mal um das Beet herum gespannt werden soll?
Durch unterschiedliche Betonung kann der Testperson Hilfestellungen gegeben werden (z.B. Betonung auf „zwei Mal“)

Um dem Entgegenzuwirken sollen z.B. bestimmte Worte die im Manual vorgegeben werden, verwendet werden.

Zeigt den Übungseffekt bzw. Effekte von unterschiedlichen Testleitern

Fett gedruckte Zahlen sind signifikant
Letzte Spalte: 1.08 – Übungseffekt von 8% beim selben Testleiter
Bei den anderen Spalten wurde jeweils bei einem Testleiter und dann beim zweiten Testleiter untersucht.

Beispiel: Was ist ein Synonym für Bergsteigen?

Tags: Objektivität
Quelle: S39, VO02

22
Kartenlink

Was versteht man unter "Verrechnungssicherheit"? Was zeigte die Studie von Hebenstreit (2002)?

(auch Auswertungsobjektivität)
Mit Verrechnungssicherheit ist gemeint, dass die Reglementierung (im Manual eines psychologisch-diagnostischen Verfahrens), wie die einzelnen Testleitungen bzw. -reaktionen auf Items zu numerischen oder kategorialen Testwerten zu verrechnen sind, derart exakt festgelegt ist, dass jeder Auswerter zu denselben Ergebnissen kommt.

Beispiel: Projektive Verfahren

Die Vorgaben zur Bewertung sind häufig nur schwer einzuhalten (z.B. „Fest angedrückter Stift bedeutet….“ – Was bedeutet „fest angedrückt“?)

Gütekriterien sind der Maßstab an dem die Qualität eines Verfahrens gemessen wird.
Freies vs. Multiple Choice Antwortformat
- Die Verrechnungssicherheit ist bei Multiple Choice Tests gegeben.
- Beispiel: Logisch Schlussfolgerndes Denken
Es gibt Personen die das Problem über das Eliminieren von falschen Antworten lösen und nicht über Schlussfolgerndes Denken - Thema Validität
- Offenes Antwortformat: Es gibt häufig Probleme mit der Verrechnungssicherheit.

Studie von Hebenstreit (2002):
3 Beispiele – AID, Test d2, ZVT

Ergebnisberichte von Studierenden wurden untersucht
Inwiefern wurden die Tests richtig ausgewertet und normiert/umgerechnet wurden?

AID

AID, Adaptives Testen; Umwandlung von Testwert in T-Wert
Der Testwert ist -2,4 – in der T-Wert-Tabelle ist nur -1,8 bis -2,9 – es muss (linear) interpoliert werden.
Häufig wird von den Anwendern dann nicht interpoliert, sondern nur ein Werte genommen.
Ergebnis

Test D2

Konzentrationstest, es sollen möglichst schnell „d“s weggestrichen werden die mit 2 Strichen gekennzeichnet sind.
Der Test D2 sollten keinen Personen gegeben werden, die Probleme mit Buchstaben haben oder Probleme damit haben Unterschiede visuell festzustellen.
Verrechnung relativ einfach
Ergebnis

ZVT-Test

Zahlenverbindungstest (stammt aus der Theorie des Mental Speed)
Mental Speed korreliert relativ hoch mit Intelligenz (0,8) (Theorie von Roth)
Auswertung (sehr einfach): Zählen wie weit die Person gekommen ist
Ergebnis

Tags: Objektivität
Quelle: S43, VO02

23
Kartenlink

Was versteht man unter "Projektive Verfahren"?

Das sind eine Gruppe von psychol. Techniken und Vorgehensweisen, die für sich in Anspruch nehmen, die grundlegende (zugrunde liegende, verborgene) Persönlichkeitsstruktur und die Motive eines Individuums aufzudecken, indem sie das Individuum auffordern, sich mit Material oder Stimuli auseinanderzusetzen oder auf sie zu reagieren in einer freien, nicht festgelegten Weise.

Etwa um die Jahrhundertwende wurde mit dem Ausdruck Projektion die Tendenz eines Individuums bezeichnet, einer anderen Person eigene Gefühle, Gedanken oder Einstellungen zuzuschreiben oder in gewisser Weise die äußere Wirklichkeit als Repräsentanz solcher Gefühle zu betrachten.

(Definition aus "Lexikon der Psychologie")

Tags: Objektivität, Projektive Verfahren
Quelle: S44

24
Kartenlink

Was versteht man unter "Interpretationseindeutigkeit"?

(auch Interpretationsobjektivität)
Die Interpretationseindeutigkeit ist gegeben, wenn aus denselben Auswertungsergebnissen verschiedene "Interpreten" zum selben Schluss gelangen.

Die Interpretationseindeutigkeit ist bei geeichten Tests über die sog. "Prozentränge" jedes Mal erfüllt. Zum Beispiel ist ein als Testwert erreichter Prozentrang von 95% in einem Leistungstest eindeutig dahingehend zu interpretieren, dass nur 5% der sog. "Referenzpopulation" bessere Leistungen zielen.

Dagegen sind projektive Verfahren (fast definitionsgemäß) nicht interpretationseindeutig.

Wichtig: Hier geht es nicht um die Formulierung der Maßnahme (Maßnahmenvorschlag „z.B. der darf die Klasse überspringen“, „der muss zur Psychotherapie“), sondern über die Interpretation des Testrohwerts im Vergleich zur Referenzpopulation.

Eine gegebene Interpretationseindeutigkeit gewährleistet übrigens nicht zwingend die Objektivität der diagnostischen Konsequenzen - "Konsequenzverbindlichkeit". Dies wäre psychologisch auch selten verantwortbar.

Tags: Objektivität
Quelle: S46, VO02

25
Kartenlink

Was versteht man unter Reliabilität? Wie kann diese bestimmt werden (im Überblick)?

Die Reliabilität eines Tests beschreibt den Grad der Genauigkeit, mit dem er ein bestimmtes psychisches Merkmal misst, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht.

Auch: Messgenauigkeit
Es geht darum ob das Ergebnis exakt ist. Die unter gleichen Bedingungen gemessenen Messwerte ein und derselben Person sollten übereinstimmen.
(theoretische Reproduzierbarkeit - jedoch in Diagnostik nicht halbar (Übungseffekte, Erinnerungseffekte)

Paralleltest-Reliabilität
Retest-Reliablität
innere Konsistenz: split-half-Methode, Spearman-Brown-Formel, Standardmessfehler, Konfidenzintervall

(Methoden der Klassischen Testtheorie)

Tags: Reliabilität, Test
Quelle: S49, VO02

26
Kartenlink

Was ist die Paralleltest-Reliablität?

Die Paralelltest-Realiabilität geht davon aus, dass zwar nicht eine Testwiederholung mit dem ursprünglichen Test möglich ist, jedoch eine mit einer völlig gleichwertigen Nachahmung des Tests (sog. Paralleltest).

Die Korrelation zwischen Test und Paralleltest beschreibt dann das Ausmaß, in dem die Relationen der Testwerte (Messungen) der einzelnen Tpn zueinander kostant bleiben.

Der Haupteinwand gegen diese Methode besteht darin, dass die Klassische Testtheorie größte Probleme hat, Paralleltests überhaupt zu erstellen.
Die Konstruktion mit Hilfe der Item-Response-Theorie ist wesentlich einfach und auch methodisch eindeutig kontrollierbar.

Tags: Reliabilität
Quelle: S51, VO02

27
Kartenlink

Was versteht man unter der Retest-Reliabilität?

Sinnvoll um zu überprüfen wie Stabil ein Merkmal ist.

Die Idee der kurzfristigen Wiederholung ein und desselben Tests wurde bereits als unrealistische bezeichnet; trotzdem wird die Retest-Reliabilität als eine Methode der Reliabilitätsbestimmung angeführt.

Über einen längeren Zeitraum hinweg, liefert die Korrelation zwischen Test und sog. "Retest" jedoch sehr wohl relevante Information über den Test bzw. die mit ihm gemessene Eigenschaft: In diesem Zusammenhang ist aber dann besser die Bezeichnung "Stabilität" zu verwenden.

Tags: Reliabilität
Quelle: S52, VO02

28
Kartenlink

Was ist die "innere Konsistenz" und wie kann diese überprüft werden?

Die Messgenauigkeit eines Tests wird beurteilt danach, wie sehr seine einzelnen Teile (Items) dasselbe messen.

Die Items müssen also eine bestimmte Homogenität zeigen, dass sie alle das gleiche Messen, da sonst die Testergebnisse stark von Zufälligkeiten abhängen, was die Exaktheit der Messung reduziert.

Methoden zur Überprüfung:

Split-half-Methode (odd-even):
Spearman-Brown-Formel:

Standardmessfehler

Konfidenzinterfall (siehe Grafik)

Weitere Methoden (nicht in der VO besprochen):

Cronbach-alpha: zur Abschätzung der unteren Grenze der Reliabilität; s2 = Varianz des Gesamttests / s1 und s2 Varianzen der beiden Testteile)

Kuder-Richardson-Formel 20: "Konsistenzanalyse", Ein Test wird in so viele Teile zerlegt wie er Items besitzt.

Tags: Reliabilität
Quelle: S52, VO02

29
Kartenlink

Wie groß ist das Konfidenzintervall bei einem Intelligenztest (IQ,

) wenn gilt:
a)

(und

).
b)

(

).
Interpretiere das Ergebnis.

Die Formeln:

Die Berechnung:
a)

b) für

Das heißt, selbst bei hoch reliablen Tests muss mit einer im Vergleich zu physikalischen Messungen (Fieberthermometer) relativ großen Messungenauigkeit gerechnet werden.

Tags: Konfidenzintervall, Reliabilität
Quelle: S54

30
Kartenlink

Was versteht man unter Validität im Allgemeinen?

Unter Validität eines Tests ist zu verstehen, dass er tatsächlich jenes Persönlichkeitsmerkmal misst, welches er zu messen behauptet.

Tags: Validität
Quelle: S55

31
Kartenlink

Welche verschiedenen Konzepte und Begriffe der Validität können unterschieden werden (im Überblick)?

Inhaltliche Gültigkeit
Konstruktvalidität
Kriteriumsvalidität

Tatsache ist, dass die Validierungsversuche vieler Tests sehr unbefriedigend sind, zumindest was ihre prognostische Validität betrifft!

Tags: Validität
Quelle: S55

32
Kartenlink

Was versteht man unter der "inhaltlichen Gültigkeit"? Welche Arten können unterschieden werden? Was ist das Problem der "inhaltlichen Gültigkeit"?

Von "inhaltlicher Gültigkeit" eines Tests ist zu sprechen, wenn dieser selbst, quasi definitionsgemäßg, das optimale Kritierum des interessierenden Merkmals darstellt.

Triviale Validität: z.B. Arbeitsprobe zur Textverarbeitung (einen Text abtippen)
Logische Validität: z.B. Schulleistungstests (Rechenaufgaben die dem Lehrstoff entsprechen)
Regelgeleitete Itemkonstruktion: Die inhatliche Gültigkeit ist dann gegeben wenn tatsächlich logische Regeln angewendet werden müssen um die Aufgaben zu lösen. (Beispiel Wiener Matrizen Test)

Expertenrating: jedes einzelne Item wird von Experten dahingehend geprüft, ob es in Bezug auf die gegebene operationale Definition passt.

Wer sind die Experten?

Wie erfolgt die Qualifikation von Experten?

Problem der inhaltlichen Gültigkeit: Man erhält kein konkretes, valides Maß der inhatlichen Gültigkeit.

Tags: Validität
Quelle: S55, VO03

33
Kartenlink

Was ist der Zusammenhang zwischen inhaltlicher Gültigkeit (trivialer + logischer Validität) und Augenscheinvalidität?

Inhaltliche Gültigkeit != Augenscheinvalidität
Augenscheinvalidität meint, dass der TP augenscheinlich klar ist, was mit dem Test zu messen beabsichtigt wird; sie durchschaut die Messintention. … nicht: dass der Test augenscheinlich valide ist.

Nachteil Augenscheinvalidität: Verfälschbarkeit hinsichtlich sozialer Erwünschtheit
Vorteil Augenscheinvalidität: Es gibt Personen die nicht gerne getestet werden möchten (z.B. Manger).

Tags: Augenscheinvalidität, Validität
Quelle: VO03

34
Kartenlink

Was versteht man unter "ökologischer Validität"?

Unter ökologischer Validität versteht man, dass das psychologische Diagnostizieren den Anforderungen der „natürlichen Lebensbedingungen“ entspricht.
Es geht also um die Beschreibung und „Funktionsanalyse“ des Menschen unter seinen natürlichen Alltagsbedingungen.
Beispiel: Es gibt 2 Möglichkeiten um den Arbeitsstil einer Testperson zu überprüfen (z.B. impulsives Arbeitsverhalten (Vorteil: schnelle Entscheidung, Nachteil: es passieren Fehler) oder reflexiver Stil (Vorteil: überlegte Entscheidungen und es passieren wenig Fehler, Nachteil: dauert länger)

Fragebogen – ist dies eine gültige Information?
Beobachtung bei der Ausführung einer Arbeitsaufgabe – höhere ökologische Validität
Beobachtung im täglichen Leben – höchste ökologische Validität

Tags: Validität
Quelle: VO03

35
Kartenlink

Was versteht man unter "Konstruktvalidität"? Welche Arten werden unterschieden werden?

Wenn ein Test gewisse theoretische bzw. theoriegeleitete Vorstellungen erfüllt.

Klassische Ansatz: Faktorenanalyse

Nicht-korrelative Ansätze

Extremgruppenvalidierung

Analyse intraindividueller Unterschied

Selbst- bzw. Fremdbeobachtungen

Tags: Validität
Quelle: S57, VO03

36
Kartenlink

Was versteht man unter Kriteriumsvalidität?

Eine bestimmte als relevant angesehene Variable (sog. „Außenkriterium“) wird mit dem interessierenden Test korreliert.
Beispiele für „Außenkriterium“: Leistungstest – höchster Schulabschluss, Notendurchschnitt, Berufliche Erfolg

Problem der Übereinstimmungsvalidität:

wenn der alte Test mangelhaft ist – taugt er als Außenkritierium wenig
wenn er die Gütekriterien erfüllt – besteht für den neuen Test kein Bedarf

Problem der prognostischen Validität:
Je ferner das Außenkriterium in der Zukunft liegt, desto schwieriger wird es unabhängig von anderen Einflussfaktoren eine prognostische Validität zu untersuchen.

Tags: Validität
Quelle: S64

37
Kartenlink

Was belegen die Taylor-Russel-Tafeln?

Die Taylor-Russel-Tafeln belegen aber, warum auch der Einsatz von wenig-validen Tests für praktische Zwecke sinnvoll ist.

Grafik zur Taylor-Russel-Tafel: Selektionsrate – Wieviel Prozent der Bewerber werden aufgenommen?

Bei einer geringen Grundrate: "30-50% der Bewerber sind grundsätzlich für den Beruf geeignet."
Wenn man 10% der Bewerber auswählen möchte und einen Test mit 0,55 Validität hat dann hat man unter den selektierten Bewerben 70% geeignete Bewerber.

Ersttestung Differentialdiagnose
Spezifische Förderung (Training)
Förderungsevaluation (Zweittestung)

Exkurs zu den Taylor-Russel-Tafeln:
Die Taylor-Russel-Tafeln sind hergeleitet aus der Verteilungsfunktion einer bivariaten Normalverteilung, wobei die eine Variable den interessierenden Testkennwert darstellt, die andere die Eignung als einer (angenommener Weise) ursprünglich normalverteilten Variable - die jeweilige Validität ist dabei der Korrelationskoeffizient der bivariaten Normalverteilung.
Je nach Selektionsquote und Grundrate wird nun zur Bestimmung des Prozentsatzes der (zu erwartenden) selektierten Geeigneten sowohl die Randverteilung des Testkennwerts als auch die Randverteilung der Eignung mit einem cutting point versehen, um letzlich die resultierenden bivariate "Fläche" zu integrieren.

Tags: Taylor-Russel-Tafeln
Quelle: S67, VO03

38
Kartenlink

Was ist ein neues Validierungskonzept (Konzept zur Überprüfung der Validität)?

Als neues Validierungskonzept kann die "Evaluation diagnosespezifischer Förderung" angesehen werden.
Wenn ein Test valide sein soll, dann muss er mit seiner Diagnose zumindest zwischen zwei Gruppen differenzieren.

Verfügen wir nun über bewährte differenzielle Therapie-(Förderungs-)Programme, so sollten diese, diagnosespezifisch eingesetzt, auch nur bei denjenigen Gruppen Erfolg zeigen, wofür sie gedacht sind. Gelingt dieser Nachweis nicht, so muss die (differenzielle) Diagnose rückwirkend als nicht valide bezeichnet werden.

(Beispiel: Kinder die beim AID in bestimmten Untertests Teilleistungsstörungen zeigten, wurden 6 Monate einschlägig mit Förderprogrammen trainiert, und zeigten signifikant größere Leistungsfortschritte als Kinder mit anderen diagnostizieren Teilleistungsstörungen)

Tags: Validität
Quelle: S68

39
Kartenlink

Was erfüllt ein Test das Gütekriterium Eichung? Welche Arten von Eichen sind zu betrachten (Überblick)?

Ein Test erfüllt das Gütekriterium Eichung, wenn für sein Bezugssystem zur Relativierung des individuellen Testergebnisses (die sog. "Eichtabellen") folgende Bedingungen gegeben sind:

Die Eichtabellen sind gültig, d.h. nicht veraltet.
die Population, für die die Eichtabellen gelten, ist definiert,
die für die Einstellung der Eichtabellen herangezogene Stichprobe ist repräsentativ

(der frühere Begriff Normierung sollte vermieden werden)

Es ist sinnvoll dies als Nebengütekriterium zu sehen,

da Eichung nur sinnvoll ist, wenn Hauptkriterien erfüllt sind
und eine Diagnostik in Bezug auf bestimmte Kriterien (in Bezug zur Fragestellung) sinnvoller ist als eine "normorientierte" Diagnostik

Es geht um das

Eichen im Sinn von Relativieren
Eichen im Sinn von Repräsentativerhebung und
kriteriumsorientierte Diagnostik

Tags: Eichung
Quelle: S68

40
Kartenlink

Was versteht man unter Eichen im Sinne von Relativieren? Welche Eichmaßstäbe (8) können unterschieden werden?

Unter Eichen im Sinne von Relativieren versteht man das in Bezug setzen der Testwerte, um die relative Position einer Tp bzw. ihrer Testleistung hinsichtlich der entsprechenden Referenzpopulation adäquat zu beschreiben.

Aus der Statistik - z-Wert:

Die standardnormalverteilte Variable z als ein "Eichmaßstab" (Normwert) könnte die relative Position einer Tp bzw. ihrer Testleistung hinsichtlich der entsprechenden Referenzpopulation adäquat beschreiben.
Positive z-Werte bedeuten überdurchschnittliche, negative bedeuten unterdurchschnittliche Testleistungen. Durch die Transformation wird der Populationsmittelwert auf 0 und die Standardabweichung auf 1 gesetzt.

Von Wechsler - Wertpunkte (W)

Die Transformation "mal 3" und "plus 10" ist willkürlich und entspricht dem Festlegen ("Eichen" im Sinne von Relativieren) des Maßstabs samt Null- bzw. Bezugspunkt. (Mittelwert der Population = 10 und eine Standardabweichung von 3).

Weiterer Eichmaßstab von Wechsler - IQ

(Mittelwert von 100 und Standardabweichung von 15)
Betrachtet man die IQ-Werte und die z-Werte so sieht man folgendes: Auf einen IQ von 110 kommt man über z0=0,67; da diesem Tabellenwert p=0,25 entspricht, fallen in das Intervall 90 ≤ IQ ≤ 11ß die mittleren 50% der Referenzpopulation. Leistungen innerhalb diesen Intervalls werden üblicherweise als "durchschnittlich" bzw. "normal" beziechnet.

Weitere Eichmaßstäbe

Z-Werte

Centil-Werte

Stanine-Werte ("standard-nine")

Sten-Werte ("standard-ten")

t-Werte

Prozentrang

Tags: Eichmaßstäbe, Eichung
Quelle: S69

41
Kartenlink

Wie entwickelte sich der Begriff des Intelligenzquotient?

Die Bezeichnung "Intelligenzquotient" geht auf William Stern zurück und war ursprünglich tatsächlich als Quotient definiert: "Intelligenzalter" gebrochen durch Lebensalter ("Intelligenzalter ist nach Binet das Alter derjenigen Referenzpopulation, welche durchschnittlich denselben Testwert erreicht wie die betreffende Tp).

Seit Wechsler ist der "IQ" jedoch als Abweichungsmaß definiert. Von Quotient im mathematischen Sinn ist daher nicht mehr die Rede.

Bemühungen das Q in IQ alternativ zu nutzen (z.B. Intelligenzquantität im AID) fruchteten bislang nicht. Mittlerweile scheint sich der Begriff "IQ" in der Öffentlichkeit verselbstständigt zu haben.

Tags: Intelligenz, IQ
Quelle: S71

42
Kartenlink

Wann bezeichnet man ein Testergebnis als "durchschnittlich"?

Zu einzelnen Verfahren finden sich (verbindlich gemeinte) Interpretationsregeln in publizierten Manualen, diejenigen geeichten Testwerte als "durchschnittlich" zu interpretieren. , welche innterhalb des Intervalls plus/minus einer Standardabweichung um den Mittelwert liegen.
Weil z0=-1,00 einem p=0,1587 entspricht und z0=1,00 einem p=0,8413, bedeutet dann "durchschnittlich" alles was nicht gerade die nidrigsten etwa 16% (15,87) der geeichten Testwerte innerhalb der Population betrifft und gleichzeitig nicht die höchsten etwa 16%.
Vielmehr bezieht sich "durchschnittlich" auf die mittleren etwa 68% der geeichten Testwerte, also grob gesprochen auf 2/3 der Population.

Beim IQ spricht man hingegen von einem Durchschnittsbereich die Werte in denen die mittleren 50% der Referenzpopulation liegen (90 ≤ IQ ≤ 110 - also für p=0,25 und p=0,75)

Tags: Eichung
Quelle: S71

43
Kartenlink

Welche z-Werte sind äußerst unwahrscheinlich? (Werte bei den anderen Eichmaßstäben)

z-Wert: -3 ≤ z ≤ +3
Wertpunkte W: 1 ≤ W ≤ 19
Intelligenzquotient IQ: 55 ≤ IQ ≤ 145
Z-Werte (Standardwerte, SW): 70 ≤ Z ≤ 130
Centil-Werte: -1 ≤ C ≤ 11
Sten-Werte: in 98,8% aller Fälle: 1 ≤ St ≤ 10
T-Werte: 20 ≤ T ≤ 80

Tags: Eichmaßstäbe, Eichung
Quelle: S73

44
Kartenlink

Was versteht man unter dem "Prozentrang"?

Der Prozentrang (PR) gibt den relativen Anteil von Personen in der Referenzpopulation an, die (denselben oder) einen niedrigeren Testwert erreichen.

Der Prozentrang entspricht der Verteilungsfunktion der Standardnormalverteilung an der Stelle z0, das ist die Wahrscheinlichkeit, irgendeinen Wert z ≤ z0 zu erhalten. Für das Beispiel IQ = 110 folgt z0 = 0,67, was einem Prozentrang von 75% entspricht. Und diese ist dahingehend zu interpretieren, dass nur 25% der Referenzpopulation bessere Leistungen erzielen.

Die Prozentränge erlauben insofern also eine inhaltlich unmittelbar einsichtige Beschreibung des Testergebnisses.

Tags: Eichung, Prozentrang
Quelle: S73

45
Kartenlink

Welche Eichmaßstäbe können bei nicht-normalverteilten Testwerten verwendet werden?

Die Prozentränge sind auch bei nicht-normalverteilten Testwerten eruierbar, indem sie unmittelbar aus der Häufigkeitsfunktion der Eichstichprobe empirisch bestimmt werden.
Und die T-Werte waren ursprünglich sogar dafür gedacht, nichtnormalverteilte Testwerte in normalverteilte zu transformieren. Zum Beispiel kann für einen bestimmten Testwert, dem ein Prozentrang von 5% entspricht, leicht über die Standardnormalverteilungstabelle der zugehörigen (normalverteilte) T-Werte errechnet werden: T= (-1,645) * 10 + 50 = 33,6. Dieses Vorgehen wird als Flächentransformation bezeichnet; sie könnte natürlich auch für alle übrigen Eichmaßstäbe erfolgen.

Tags: Eichmaßstäbe, Eichung, Prozentrang
Quelle: S73

46
Kartenlink

Was ist ein häufiger Fehler beim Vergleich zweier Testwerte?

In der Praxis kommt es gelegentlich zu voreiligen Schlussfolgerungen, was die Unterschiede zweier Testwerte betrifft.

Wenn es zum Beispiel inhaltlich gerechtfertigt sein soll, bezüglich IQ = 100 und IQ = 101 von bedeutenden, d.h. statistisch signifikanten Unterschieden zu sprechen, dann dürfte sich das (einseitige) Konfidenzintervall für die Person mit IQ = 100 höchsten (nicht ganz) bis 100,5 erstrecken; zusätzlich dürfte das (in die andere Richtung bestimmte einseitige) Konfidenzintervall für die Person mit IQ = 101 den Minimalwert 100,5 nicht unterschreiten.
Mit Hilfe der Formel des SMF lässt sich aus diesen Bedingungen der dabei notwendige Reliabilitätskoeffizient von rtt=0,99996 leicht ausrechnen - eine garantiert unrealistische Voraussetzung.

Tags: Konfidenzintervall, Reliabilität
Quelle: S74

47
Kartenlink

Was versteht man unter Eichung im Sinn von Repräsentativerhebung?
Was ist dabei zu berücksichtigen?

Repräsentativität der Eichstichprobe zu erreichen, ist stets ein kritischer Punkt der Testentwicklung. Auch besonders große Stichproben sind keine Garantie für Repräsentativität.

Jedoch: Ausreichend große und repräsentative Stichproben zu erhalten, ist heute sowohl stimmungsmäßig als auch rechtlich, in Schulen wie in Betrieben, erschwert oder gar - infolge reduzierter Forschungsmittel für Eichungen - unmöglich.

Besonders kritisch steht es oft um die Aktualität der Eichtabellen, da die gemessenen Eigenschaften häufig einen steten Wandel durchmachen (Beispiel IQ: stieg innerhalb von 20 Jahren um bis zu 25 Punkte).
Die Initiative der DIN33430 berücksichtigte dies und legte eine verbindliche Reglementierung fest, die Angemessenheit der Normwerte (besser: Eichtabellen) ist spätestens alle 8 Jahre zu prüfen.

Repräsentativität in anderen Ländern
Inwiefern sind die verwendeten Eichstichproben aus dem einen Staat für andere deutschsprachige Länder repräsentativ?
Hierfür gibt es jedoch nur wenig Studien.

Gelegentlich ist die Wahl der Referenzpopulation strittig.
Beispiel verkehrspsychologische Begutachtung: 2 mögliche Populationen: aller Personen mit motorisierten Kraftfahrzeugen oder Stichprobe von Klienten verkehrspsychologischer Untersuchungsstellen (verkehrsauffällige Fahrer, Alkoholauffällige, Prüfungsversager und Berufsfahrer)
Die Erhebung einer Zufallsstichprobe ist bei Erwachsenen meist schwieriger als bei Schulkindern. Häufig ist diese jedoch sehr aufwändig, d.h. genügt auch eine sog. "Klumpenerhebung" (es werden nur einzelne Schulen und deren Schulkinder betrachtet).
Wichtig ist hier nur, dass die Klumpen zufällig gewählt werden, am besten nach regional festgelegten Quoten = Quotenstichprobe.

Häufiges Problem: "Freiwillige" für die Eichung eines Tests

Tags: Eichung, Repräsentativität
Quelle: S75

48
Kartenlink

Was ist ein häufiges aber vernachlässigtes Problem bei der Eichung im Sinne von Repräsentativerhebung?

Ein häufig vernachlässigtes, aber grundsätzliches Problem stellt die Verwendung von "Freiwilligen" bei der Eichung eines Tests dar - eigentlich besteht dieses Problem auch bei der Validierung und Reliabilitätsbestimmung.
Damit ist die Freiwilligkeit der Personen gemeint, die für eine bestimmte Studie rekrutiert bzw. akquiriert wurden, für die die entsprechende psychologische Untersuchung gar nicht indiziert ist und für die folglich auch mit dem jeweiligen Testergebnis keine verbindlichen Konsequenzen verbunden sind.

Beim Rekrutieren hätte es unter Umständen für die Betroffenen die Möglichkeit gegeben, die Teilnahme zu verweigern, beim Akquierieren kam es gar zu einer Selbstnominierung der Tpn, mit oder ohne Honorierung für die Untersuchungsteilnahme.

Spätestens seit Karner (2002) ist jedoch bekannt, dass Volunteers ein gänzlich anderes Testverhalten zeigen können als Tpn, die tatsächlich der Referenzpopulation entstammen. So gesehen müsste für entsprechende Studien die Stichprobe auch insofern repräsentativ sein, als sie explizit nicht aus Volunteers besteht.

Angezeigt ist beim Gebrauch von Volunteers stehts eine sog. "Non-Responder-Analyse". Die Idee besteht bei einer Non-Responder-Analyse darin, verschiedene Untergruppen von Respondern zu untersuchen und zu vergleichen, und zwar solche, die sich im Grad der Freiwilligkeit bzw. in der "Schnelligkeit" der Selbstnominierung unterscheiden.
Besteht zwischen diesen Gruppen kein signifikanter Unterschied in den Testwerten, lässt das hoffen, dass auch Non-Responder nicht abweichen; ein Beweis wäre dies allerdings nicht.

Tags: Eichung, Freiwillige, Repräsentativität
Quelle: S79

49
Kartenlink

Was versteht man unter "kriteriumsorientierter Diagnostik"? Wo kann diese sinnvoll eingesetzt werden?

Abgesehen davon, dass der Normalitätsbegriff an sich problematisch ist, ist in vielen Fällen die Relativierung eines Testwerts in Bezug auf die Referenzpopulation nicht zweckmäßig. Die Alternative ist kriteriumsorientiertes psychologisches Diagnostizieren.

Kriteriumsorientierte Diagnostik bedeutet, dass andere Vergleichsmaßstäbe zur Interpretation eines Testwertes herangezogen werden, als die Testwertverteilung in der Referenzpopulation.

Als möglicher Vergleichsmaßstab kommt entweder ein absolut festgelegter oder ein individuumsbezogener, relativ gewählter Ziel-Testwert in Frage.

Eine individuelle Bezugsnorm liegt zugrunde, wenn eine Testwert auf den entsprechenden Testwert einer früheren Testung bezogen wird, also eine individuelle Veränderung gemessen wird.
Eine sachliche, oder eben "kriteriumsorientierte" Bezugsnorm liegt dann zugrunde, wenn der Testwert auf ein bestimmtes Kriterium (Lern- oder Therapieziel) bezogen wird.

Insbesondere für die pädagogisch-psychologische Diagnostik ist der Ansatz der kriteriumsorientierten Diagnostik von Bedeutung (Bezug auf einzelne Lernende oder Gruppe von Lernende). Dieser Ansatz überzeugt auch bei der klinisch-psychologischen Diagnostik, im Zuge einer (psycho-)therapieleitenden Diagnostik.

Umgekehrt sind im Zuge einer förderungsorientierten Diagnostik etwa Teilleistungsstörungen nur unter Verwendung einer geeichten Testbatterie zu entdecken. Ohne Bezug auf die Referenzpopulation wären Hochs und Tiefs nicht identifizierbar (Leistungsprofil im AID).

Im übertragenen Sinn findet kriteriumsorientiertes psychologisches Diagnostizieren manchmal auf statt, wenn der Testwert auf eine Referenzpopulation bezogen wird: Inwiefern nämlich, als gelegentlich das Kriterium festgelegt werden muss, welche Referenzpopulation tatsächlich die relevante ist.

Tags: Eichung, Kriteriumsorientierte Diagnostik
Quelle: S80

50
Kartenlink

Wann erfüllt ein Test das Gütekriterium der Skalierung?

Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsvorschriften resultierenden Testwerte die empirischen Verhaltensrelationen adäquat abbilden.

Es geht also um die Angemessenheit der im Manual eines Tests festgesetzten Reglementierung, wie die einzelnen Testleistungen bzw. -reaktionen einer Tp zu einem numerischen Testwert zu verrechnen sind. "Angemessenheit" erhebt dabei den Anspruch auf "faktische Gegebenheit" im Sinne der Messtheorie, wie sie der empirischen Psychologie allgemein zugrunde liegt.

51
Kartenlink

Was versteht man unter "Messen"?

Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-)Objekts und erfolgt durch eine Zuordnung von Zahlen zu Messobjekten. (Orth, 1995)

.... wobei allerdings eine "Zurodnung von Zahlen zu Messobjekten ... nur dann eine Messung ist, "wenn die Zahlen ("Messwerte") empirische Sachverhalte ausdrücken, d.h. wenn die (numerischen) Beziehungen zwischen Messwerten empirischen Beziehungen zwischen den Messobjekten ausdrücken."

Tags: Messen, Skalierung
Quelle: S83

52
Kartenlink

Was definiert die "Schwierigkeit" einer Aufgabe bei der Klassischen Testtheorie und bei Persönlichkeitsfragebögen?

Im einfachsten Fall, bei dichotom zu verrechnenden Aufgaben eines Leistungstests (richtig vs. falsch), ergibt sich die (Item-)Schwierigkeit laut Klassischer Testtheorie als die relative Lösungshäufigkeit, mit der eine Aufgabe in der Eichstichprobe gelöst wurde.

Bei mehrkategoriell zu verrechnenden Aufgaben können zwar die relativen Häufigkeiten bestimmt werden, mit denen die einzelnen Kategorien in einer (Eich-)Stichprobe realisiert wurden, die Bezeichnung als "Schwierigkeit" ist aber pro Kategorie unüblich.

Demgegenüber wird die Bezeichnung "Schwierigkeit" häufig auch bei dichotom zu verrechnenden Items eines Persönlichkeitsfragebogens verwendet, obwohl es inhaltlich treffender wäre, vom "Grad der Herausforderung" zu sprechen, mit dem ein Item die Tp konfrontiert, in bestimmter Weise zu reagieren.

Tags: Klassische Testtheorie, Persönlichkeitsfragebogen, Schwierigkeit, Skalierung
Quelle: S83

53
Kartenlink

Was ist das Problem von Testungen unter "Speed-and-Power"-Bedingungen in Bezug auf die Skalierung?

Skalierung als Gütekriterium bezieht sich auf die Eindimensionalität eines Tests und ob die Verrechnung zu Testwerten empirisch begründet ist.

Bei Testungen unter "Speed-and-Power" Bedingungen werden häufig zwei Eigenschaften vermengt, nämlich die Fähigkeit, bestimmte Anforderungen - auch schwierige - grundsätzlich zu erfüllen, mit der Fähigkeit, dies auch (hinreichend) schnell zu können.
Daher ist die Voraussetzung der Eindimensionalität nicht gegeben.

Tags: Skalierung
Quelle: S84

54
Kartenlink

Welche Probleme können bei einer Faktorenanalyse für dichotome zu verrechnende Items entstehen? Welche Ansätze könnten stattdessen angewendet werden?

(Kapitel Skalierung)

Die (herkömmliche, weil auf Intervallsksala aufbauende) Faktorenanalyse funktioniert im beabsichtigten Zusammenhang allerdings höchstens bei nicht dichotom zu verrechnenden Items.

Testbatterien mit dichotom zu verrechnenden Items, die auf Faktorenanalyse beruhen und dementsprechend je Untertest Eindimensionalität behaupten, genügen diesem Anspruch nur vordergründig.

Zum Beispiel Guttmann (1955) hat schon vor langer Zeit gezeigt, dass die Anwendung der Faktorenanalyse auf dichotome Variablen stets zu artifiziellen Faktoren führt. Lange bekannt, aber kaum umgesetzt ist auch, dass die Lösung des Problems die Verwendung eines anderen, besonderen Korrelationsmaßes wäre; nämlich der tetrachorischen statt der obligaten Pearson-Korrelation.
Und vor allem gäbe es im Rahmen der sog. "linearen Strukturgleichungsmodell" Ansätze, die als Faktorenanalyse für dichotome Daten gelten können.

Beispiel: Erklärung siehe Seite 85

Tags: Faktorenanalyse, Skalierung
Quelle: S84

55
Kartenlink

Welche Rolle spielt die Skalierung in der Klassischen Testtheorie?

(Skalierung als Gütekriterium bezieht sich bei gegebener Eindimensionalität eines Tests darauf, ob die Verrechnung zu Testwerten empirisch begründet ist.)

Die Methoden der klassischen Testtheorie sind völlig ungeeignet, einen Test hinsichtlich des Gütekriteriums Skalierung zu prüfen und deshalb gibt es dieses Gütekriterium in diesem Ansatz gar nicht.

Im Zusammenhang mit der Skalierung verwendet die klassische Testtheorie folgende Methoden (in denen es vor allem um die Zusammenfassung von Items zu Tests geht):

Innere Konsistenz
Faktorenanalyse
Interkorrelationen

Die Zielsetzung eindimensionaler Messungen entsprechend soll die innere Konsistenz eines Tests möglichst groß sein: Die Items ein und desselben Tests sollen gemeinsam auf einen einzigen Faktor laden und die Interkorrelationen aller Items nahzu 1 betragen.

Des Weiteren fordert die klassische Testtheorie bei der Itemzusammenstellung eines Test auch

dass sich die Schwierigkeit des Items gleichmäßig innerhalb des Intervalls (0,05 bis 0,95) verteilen,
dass die sog. "Trennschärfeindizes" der Items (das sind die Korrelationen des Testwerts pro Item mit dem Testwert aus allen übrigen Items) sehr hohe Werte annehmen.

Die Methoden der klassischen Testtheorie müssen jedoch grundsätzlich kritisiert werden. Sie sind alle stichprobenabhängig.
(Abbildung unten zeigt, dass die Korrelation der Testwerte zweier Aufgaben für 2 Teilstichproben gänzlich andere Werte annehmen kann als für die Gesamtstichprobe.)

Anders als die Klassische Testtheorie kann die Item-Response-Theorie durchaus prüfen, ob die gegebenen Verrechnungsvorschriften eines Tests zu Testwerten führen, die verhaltensadäquate Relationen wiedergeben.

Tags: Faktorenanalyse, Innere Konsistenz, Item-Response-Theorie, Klassische Testtheorie, Skalierung
Quelle: S84

56
Kartenlink

Was ist der einfachste Verrechnungsmodus (Methode der Skalierung)? Welche Bedingung muss gelten, damit dieser Verrechnungsmodus fair ist?

Der einfachste Verrechnungsmodus sieht als Testkennwert die Anzahl gelöster Aufgaben vor. Das heißt, ungeachtet dessen, welche Aufgaben von einer Tp gelöst und welche nicht gelöst werden, zählen nur die "Treffer".

Fischer gibt dazu einen Beweis, wonach das (dichotome) logistische Testmodell von Georg Rasch - Rasch-Modell - notwendigerweise gelten muss, damit dieser Verrechnungsmodus fair ist.

Das Rasch-Modell beschreibt die Wahrscheinlichkeit, dass Tp

Item

löst (+), in Abhängigkeit des Personenparameters

, das ist die (wahre) Fähigkeit von

, und des Itemparameters

, das ist die (wahre) Schwierigkeit von

Weil sich dieses Modell als im statistischen Sinn stichprobenunabhängig herausstellt, kann auch ein besonderer Modelltest abgeleitet werden - somit muss es nie ungeprüft vorausgesetzt werden.

Tags: Rasch-Modell, Skalierung, Stichprobenunabhängig
Quelle: S88

57
Kartenlink

Was ist der sog. "Notwendigkeits-Beweis" des Rasch-Modells?

Die vereinfacht ausgedrückte Bedingung, dass das Rasch-Modell notwendigerweise gelten muss, wenn die Anzahl gelöster Aufgaben ein faires Maß für die erbrachte Testleistung sein soll, ist exakter Weise so zu formulieren:
... das Rasch-Modell - oder eine monotone Transformation davon.

Vorausgesetzt wird, dass es um eine einzige Eigenschaftsdimension geht, die mit dem Test erfasst werden soll; somit kann diese Eigenschaft pro Person durch eine einzige Zahl (Parameter) repräsentiert werden. Letzteres gilt sinngemäß auch für jede Aufgabe.

Weiters stellt die sog. "lokale stochastische Unabhängigkeit" eine bedeutende Voraussetzung für die Gültigkeit des genannten Beweises dar - allerdings eine, die inhaltlich durchaus zu rechtfertigen ist:
Ob eine Tp eine Aufgabe löst oder nicht, hängt abgesehen vom Zufall, nur von ihrer Fähigkeit und von der Schwierigkeit der Aufgabe ab, nicht aber davon, welche anderen Aufgaben sie schon gelöst hat oder noch lösen wird.

Die Tragweite des Beweises liegt im Attribut "notwendigerweise". Mit ihm ist nämlich der Umkehrschluss zwingend, dass Tests, für die das Rasch-Modell nicht gilt, auch nicht verrechnungsfair sind. Möglich wäre es zwar, dass schlicht ein anderer Verrechnungsmodus verhaltensadäquat ist, zum Beispiel wenn die einzelnen Antworten aufgabenspezifisch gewichtet werden, bezüglich des festgelegten Verrechnungsmodus sind sie es aber nicht.

58
Kartenlink

Inwiefern ist das Rasch-Modell stichprobenunabhängig?

Im Gegensatz zu anderen testtheoretischen Modellen erfüllt das Rasch-Modell" einen besonderen wissenschaftstheoretischen Ansatz, nämlich den sog. "spezifisch objektive" Vergleiche zu ermöglichen:
Den Unterschied in den Fähigkeiten

und

zwischen je zwei Personen

und

kann unabhängig davon bestimmt werden, welche Aufgaben des Tests herangezogen werden; bzw. umgekehrt und wichtiger, der Vergleich je zweier Aufgaben

und

bezüglich

und

ist unabhängig davon mögliche, welche Stichprobe dafür verwendet wird.
Das heißt, die Schätzung der Parameter sind insofern stichprobenunabhängig, als die Wahl der Stichprobe aus einer bestimmten Population für die statistische Interferenz dieser Parameter keine Rolle spielt.

Diese Tatsache kann für den Spezialfall eines Tests mit nur zwei Aufgaben leicht bewiesen werden, und zwar ausgehend vom zitierten Beweis, wonach bei Geltung des Rasch-Modells die Anzahl gelöster Aufgaben (S) einen fairen Testkennwert darstellt.
Stellt sich dementsprechend einmal empirisch heraus, dass (abgesehen von zufallsbedingten Variationen) die Differenz von Stichprobe zu Stichprobe verschieden ist, so stünde das in Widerspruch zu der abgeleiteten Konsequenz des Rasch-Modells; was heißt: Das Rasch-Modell kann nicht gelten - folglich wäre die zur Diskussion stehende Verrechnung nicht fair.

Tags: Rasch-Modell, stichprobenunabhängig
Quelle: S89

59
Kartenlink

Wie kann die Geltung des Rasch-Modells geprüft werden?

Soll nun ein Test tatsächlich auf Geltung des Rasch-Modells geprüft werden, dann können dazu pro Aufgabe die zweifach, an Hand von zwei Personen-Teilstichproben modellgemäß geschätzten Itemparameter miteinander verglichen werden (indem eigentlich nur Parameterdifferenzen zu schätzen sind, muss zuvor ein Maßstab willkürlich festgelegt werden, z.B.

).

Am einfachsten geschieht dies mittels Grafik, in der die Parameterschätzungen pro Item in einem rechtwinkeligen Koordinatensystem gegeneinander aufgetragen werden.

Im theoretischen Idealfall ergibt sich dabei das Bild einer durch den Ursprung gehenden 45°-Geraden:
Weil die Parameter dann pro Aufgaben identisch wären, entstünden nur Punkte, die auf dieser Gerade liegen.
Weichen einzelne oder alle Punkte von der 45°-Geraden deutlich ab, so gilt für diese die Stichprobenunabhängigkeit nicht, also ist die gegebene Verrechnung auch nicht fair.

Interferenzstatistisch erfolgt der Modelltest des Rasch-Modells sinngemäß über einen Likelihood-Quotienten-Test.

Beispiel: Untertest 6 aus dem AID (Gegenüberstellung Population DE+CH zu Population AT)

Obwohl, streng genommen, die Umkehrung nicht gilt, also im Fall, dass ein psychologischer Test den Modelltests standhält, die Geltung des Rasch-Modells nicht (zwingend) bewiesen ist (auf Grund des Falsifikationsprinzip), wird sie überblicherweise dann als gegeben erachtet: Der Grad der Bewährung nach Karl Popper ist für das Modell ausreichend.

Tags: Rasch-Modell
Quelle: S91

60
Kartenlink

Wie weit ist die Verbreitung der Rasch-Modell geprüften Tests?

An publizierten Tests, die den zur Diskussion stehenden Verrechnungsmodus beinhalten und dem Modell laut Modelltest entsprechen, existieren nach wie vor nur sehr wenige.

International beachtete Intelligenz-Testbatterien, die gemäß Rasch-Modell konstruiert wurden, sind folgende:

BAS II (British Ability Scales II) - nicht mehr vertrieben,
DAS bzw. DAS II (Differential Ability Scales - Second Edition, 2007) - amerik. Version des BAS
K-ABC (Kaufman Assessment Battery for Children) - deutschspr. Edition von Melchers & Preus, 1991
AID 2 (deutsch, türkisch, italienisch, ungarisch) - eine englischsprachige Version ist in Vorbereitung.

Regelmäßig erweisen sich Tests, die (noch) ohne entsprechende Prüfung entwickelt wurden als nicht verrechnungsfair: Das Rasch-Modell gilt nicht. Um nur einige bedeutende Beispiele zu nennen:

SPM (Standard Progressive Matrices, John C. Raven): gravierende Modellabweichungen festgestellt
HAWIK-IV - frühere Versionen; für betroffene Untertests laut der Monografie von Kubinger (1983) in Bezug auf den HAWIK und laut Steuer (1988) in Bezug auf den HAWIK-R gravierende Modellabweichungen festgestellt.

Beispiele

abhängig vom Geschlecht

leistungsschwache Kinder leichter zu beantworten

Tags: Rasch-Modell, Skalierung
Quelle: S92

61
Kartenlink

Wie kann die Überprüfung des Rasch-Modells bei nicht-dichotomen Antwortformat erfolgen?
Welche Ergebnisse zeigten die Überprüfungen mittels Rasch-Modell?

Für bestimmte andere Verrechnungsmodi existieren innerhalb der Item-Response -Theorie andere Modelle bzw. Verallgemeinerungen des Rasch-Modells, die teilweise analoge Bedeutung haben. Wenn etwa zusätzlich zur Bewertung in richtig/falsch, teilrichtige Antworten berücksichtigt und verrechnet werden, dann müssten sich die mit dem mehrkategoriellen mehrdimensionalen Rasch-Modell gewonnene Itemkategorienparameter (für z.B. "teilw. richtig"/1 Punkt, "vollkommen richtig"/2 Punkte) über alle Items hinweg in der behaupteten Relation zueinander verhalten (im Beispiel also 1:2).

Entsprechende Modelltests bei Tests angewendet, die bei ihrer Entwicklung (noch) nicht daraufhin geprüft wurden, dokumentieren erfahrungsgemäß deutlich, dass die Verrechnungsfairness nicht gegeben ist.

Beispiel: Anwendung des mehrkategoriell mehrdimensionalen Rasch-Modell geschätzten Itemparameter im Untertest Gemeinsamkeiten finden (HAWIK-R).
Die optimal angepasste Gerade weist auf einen Anstieg von 0,52 auf - wegen relativer Antworthäufigkeiten von 0,00 bzw. 1,00 musten einige Aufgaben aus der analyse ausgeschlossen werden.

Es ist einsichtig, dass umso strengere Voraussetzungen bzw. Modellansprüche an die Items zu stellen sind, je komplizierter der vorgesehene Verrechnungsmodus ist.

Tags: Rasch-Modell, Skalierung
Quelle: S93

62
Kartenlink

Wann erfüllt ein Test das Gütekriterium der Ökonomie?

Ein Test erfüllt das Gütekriterium Ökonomie, wenn er, gemessen am diagnostischen Informationsgewinn, relativ wenig Ressourcen (Zeit und Geld) beansprucht.

In diesem Zusammenhang sind 2 Themen interessant:

Wirtschaftlichkeit und Aufwandsminimierung
adaptives Testen

Tags: Ökonomie
Quelle: S98

63
Kartenlink

Was ist im Zusammenhang mit Wirtschaftlichkeit und Aufwandsminimierung bei Tests zu berücksichtigen?

Ökonomie bestimmt sich im Sinne von Wirtschaftlichkeit über die Kosten der Untersuchung.

Diese entstehen durch

die Anschaffung eines Tests,
durch Personalkosten des Testleiters,
Anschaffungs- und Betriebs-/Verschleißkosten von Computern, sowie schließlich durch den
Verbrauch von Protokollbögen bzw.
der Gebühr für die Nutzung computerisierter Tests.

Was die Ressource Zeit betrifft ist genauer zu differenzieren, denn nicht automatisch muss Zeit mit Kosten gleichgesetzt werden.
Zu unterscheiden ist nämlich zwischen der Zeit, die eine psychologisch-diagnostische Untersuchung den Psychologen beansprucht, und der Zeit, die die Testung für die Tp dauert.
Auch muss zwischen der Zeitspannen, in der der Tl bzw. Psychologe für eine Tp bereit sein muss, vielleicht auch ohne tatsächlich aktiv sein zu müssen, und der Nettozeit, also der tatsächlicehn Arbeitszeit des Tl bzw. Psychologen, die für die Untersuchung pro Tp aufgeht.
- Also muss strikt getrennt werden, zwischen der teureren Arbeitszeit des qualifizierten Psychologen und der billigeren Arbeitszeit einer eingeschulten Hilfskraft (Tl oder Auswerter).

Tags: Ökonomie
Quelle: S98

64
Kartenlink

Wann verfehlt das psychologische Diagnostizieren seinen Zweck in Bezug auf die Aufwandsminimierung/Ökonomie?

Die Sachlichkeit ist vorrangig gegenüber der Aufwandsminimierung.
Die Wirtschaftlichkeit eines Tests darf bei einer konkreten Fragestellung erst dann zu Buche schlagen und mit der eines anderen konkurrieren, wenn der Einsatz (auch) dieses Tests sachlich gerechtfertigt ist, er die gestellte Frage tatsächlich beantwortet.

So gesehen verfehlt psychologisches Diagnostizieren seinen Zweck, sobald

eine nicht ausreichend in die Psychologische Diagnostik ausgebildete Person als Tl fungiert,
auf den Einsatz von Tests dort verzichtet wird, wo diese wertvolle diagnostische Informationen liefern würden,
Tests verwendet werden, anstatt dass eine systematische Verhaltensbeobachtung erfolgt, weil erst diese die relevante diagnostische Information erbringen würde,
lediglich Tests zum Einsatz kommen, mit denen der Psychologe seit Jahren vertraut ist, die aber weniger diagnostische Information liefern als andere,
ausschließlich solche Tests eingesetzt werden, die nach dem geltenden (Kranken)Kassenvertrag abzurechnen sind, obwohl andere den diagnostischen Informationsgewinn steigern könnten,
die Testauswahl primär danach erfolgt, dass die Vorgabe des Tests oder wenigstens Auswertung über Computer möglich ist.

Tags: Ökonomie
Quelle: S99

65
Kartenlink

Wann erfüllt ein Test das Gütekriterium der Nützlichkeit?

Ein Test ist dann nützlich

wenn für das von ihm gemessene psychische Merkmal praktische Relevanz besteht und
die auf seiner Grundlage getroffenen psychologischen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.

Beispiel: Die Betrachtungen zu den Taylor-Russel-Tafeln zeigten, dass die Anwendung eines Test mit einer Validität von 0,35 bei einer mittleren Grundrate und niedrigen Selektionsrate insofern einen Gewinn bringt, als dann - bei wiederholtem entsprechenden Vorgehen, der Prozentsatz selektierter Geeigneter höher ist als bei Zufallsentscheidungen.

Selbstverständlich ist der Gewinn bzw. sind die Kosten des Einsatzes eines Tests nicht immer monetär zu sehen. Oft genug ist der gesellschaftliche Nutzen bzw. Gewinn oder der gesellschaftliche Schaden bzw. Verlust nicht in Geldeinheiten zu quantifizieren. Trotzdem spielen nutzentheoretische Überlegungen bei der Auswahl und dem Einsatz eines psychologischen Tests immer ein Rolle.

Ausganspunkt der entsprechenden Entscheidungstheorie ist eine Arbeit von Cronbach und Gleser (1965).

Tags: Nützlichkeit
Quelle: S112

66
Kartenlink

Was unterstützt die Entscheidungstheorie von Cronbach & Gleser (1965) hinsichtlich der Betrachtung der Nützlichkeit eines Tests? Zeige dies am Beispiel der Cerebralschadensdiagnostik.

Ausganspunkt einer entsprechenden Entscheidungtheorie ist einer Arbeit von Cronbach und Gleser (1965). Daraus wir klar, dass es einen Unterschied macht,

ob die angestrebte Diagnose im Interesse der Tp oder im Interesse einer Institution liegt,
ob und wieviele Interventionsalternativen es gibt und
ob ein einziges Testergebnis oder mehrere verfügbar sind -
und vieles mehr

Im einfachsten Fall handelt es sich um Alternativentscheidung, sie sachlich richtig oder falsch sein können.
Fehler sind dabei, genauso wie beim Hypothesenprüfen innerhalb der Pearson-Neyman-Statistik, auf zweierlei Art möglich:
Entweder ein Faktum nicht (positiv) zu befunden oder trotz Fehlens des Faktums es doch (positiv) zu befunden.

Läge in diesem Fall die Diagnose alleine im Interesse der Tp und bestünde nur die Wahl zwischen Intervention-ja (ohne Nebenwirkungen) und Intervention-nein, bräuchte man für die Entscheidung eigentlich gar kein Testergebnis; gibt es jedoch (auch) institutionelle Interessen, so müssen Effizienzbetrachtungen miteinbezogen werden.

Beispiel: Cerebralschadensdiagnostik bei Kindern.
In der Abbildung ergibt sich aufgrund des zur Diskussion stehenden Tests in Summe eine Trefferrate von 0,13+0,51 = 0,64 richtiger Entscheidungen.

Die Nützlichkeit des Tests ist jedoch daraus alleine nicht abzuschätzen. Das Beispiel zeigt nämlich Folgendes:

Interesse des Tp: weitere Untersuchungen zur besseren Absicherung oder Therapieprogramme auf jeden Fall einsetzen.
institutionelle Interesse: Unterstellung es geht um eine möglichst hohe Trefferrate - man könnte durch zufällige Entscheidung (0,68) oder durch spieltheoretisch optimierte Entscheidung (0,84) höhere Trefferraten erzielen (0,64). - Der Test hätte also keine Chance.
institutionelle Interesse - jedoch anderer Nutzen: abhängig von Rahmenbedingungen ist z.B. Spezifität (negative Diagnose bei tatsächlich negativem Zustand) relevant und Sensitivität (positive Diagnose bei tatsächlich positive Zustand) jedoch weitgehend irrelevant. In der Regel haben dann auch die beiden Fehlermöglichkeiten unterschiedliche Bedeutung und wirken dem angeführten Nutzen quasi als Schaden unterschiedlichlich entgegen.

Der Entscheidung über den Einsatz des Tests im gegebenen Zusammenhang muss also eine Nutzenfunktion zugrunde gelegt werden. D.h. für jede der vier Ergebnismöglichkeiten ist (explizit oder implizit) eine nutzentheoretischer Wert zu postulieren.

Tags: Entscheidungstheorie, Nützlichkeit
Quelle: S113

67
Kartenlink

Wann erfüllt ein Test das Gütekriterium der Zumutbarkeit?

Ein Test erfüllt das Gütekriterium Zumutbarkeit, wenn er die Testperson absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen in zeitlicher, psychischer (insbesondere energetisch-motivationaler und emotionaler) sowie körperlicher Hinsicht schont.

(Erstmals wurde es vom Testkuratorium der Förderation Deutscher Psychologenvereinigung als Gütekriterium angesprochen (1986). In den 1985 erstellten "Standards für pädagogisches und psychologisches Testen" (ins Deutsche übertragen von der APA) ist es nicht erwähnt, was den historisch recht autoritären Zugang psychologischen Diagnostizieren dokumentiert.)

Es muss kritisch reflektiert werden, was genau einer Tp mit psychologisch-diagnostischen Verfahren zuzumuten ist.
Es ist an die fachliche Erfahrung und Kompetenz des Psychologen zu appellieren, wie sie z.B. in den Richtlinien für die Erstellung Psychologischer Gutachten (Berufsverband dt. Psychologen) gefordert ist: "Es liegt ... in der Verantwortung des jeweiligen Gutachters, welche Verfahren aufgrund des aktuellen Forschungsstandes in der wissenschaftlichen Psychologie auswählt, welchen Umfang der Datenerhebung er für angemessen hält,...".

Es gibt also keine allgemein verbindliche Differenzierung zwischen zu- und unzumutbar sondern es ist gegebenfalls abzuwägen wo die Grenzen zwischen dem subjekt- und dem gesellschaftsbezogenen Nutzen zu ziehen ist. Hier greifen gesellschaftliche Werte bzw. Ideologien ein.

Tags: Zumutbarkeit
Quelle: S116

68
Kartenlink

Welche Fragen (12) sollten laut Kubinger (2001) betrachtet werden um die Zumutbarkeit psychologischen Diagnostizierens sicherzustellen?

Welche Testdauer ist regelmäßig, welche in Ausnahmefällen - und das alles in Abhängigkeit verschiedener Populationen von Tpn (etwa Kinder, Erwachsene, Alter) - zumutbar?
Ist die diesbezüglich zumutbare Testdauer für Leistungs- und Persönlichkeitsverfahren gleich anzusetzen?
Ist eine obligatorische Intelligenztestung, wie sie in der Praxis vielerorts vorgenommen wird, zumutbar?
Wie schwierige Aufgabenstellungen innerhalb von Leistungstests sind zumutbar?
Wie weit in die "Tiefe" gehende Fragen zum persönlichen Intimbereich sind regelmäßig bzw. in Ausnahmefällen zumutbar?
Inwiefern sind Leistungstest im Multiple-Choice-Format - und zwar in Abhängigkeit von der Fragestellung (etwa Auswahlsituationen, Beratungskontext, Large-Scale-Assessment) - zumutbar?
Inwiefern ist bei Persönlichkeitsfragebogen regelmäßig bzw. in welchen Ausnahmefällen - und zwar in Abhängigkeit verschiedener Populationen von Tpn - ein dichotomes Antwortformat zumutbar?
Inwiefern sind Persönlichkeitsfragebogen wegen ihrer Durchschaubarkeit überhaupt zumutbar?
Inwiefern sind projektive Verfahren ohne jede Augenscheinvalidität überhaupt bzw. für welche Fragestellung zumutbar?
Inwiefern sind sog. "Objektive Persönlichkeitstests" mit ihren die Tp experimentell manipulierenden Aufgabenstellungen überhaupt bzw. für welche Fragestellungen zumutbar?
Inwieweit ist Computerdiagnostik regelmäßig bzw. in welchen Ausnahmefällen - und zwar in Abhängigkeit verschiedener Populationen von Testpersonen - zumutbar?
Welcher psychologische Untersuchungsablauf ist zumutbar, welcher nicht? Insbesondere welche Pausengestaltung ist zumutbar?

Verbindliche Richtlinien, die diese Fragen beantworten stehen mangels ensprechender Grundlagenforschung der psychologischen Diagnostik (noch) aus.

Anmerkung (Ergebnisse aus wenigen Studien):

Bereits bei verhältnismäßig kurze Pausen von 5 Minuten während einer Testung tritt ein Erholungseffekt ein.
Abhängigkeit Persönlichkeitsfragebogen/Leistungstest: Die vorausgehende Bearbeitung eines Persönlichkeitsfragebogens wirkt sich auf die Testwerte in einem nachfolgenden Leistungstest nicht aus.

Tags: Zumutbarkeit
Quelle: S117

69
Kartenlink

Wann erfüllt ein Test das Gütekriterium der Unverfälschbarkeit?

Ein Test erfüllt das Gütekriterium der Unverfälschbarkeit, wenn die getestete Person ihr Testergebnis nicht oder nur unwesentlich nach eigenem Belieben beeinflussen kann.

Bei Leistungstests ist es zwar möglich, aber kaum wahrscheinlich, dass eine Tp absichtlich schlechte Leistungen erbringt. Auch der umgekehrte Fall (absichtlich bessere Leistungen als die wahre Fähigkeit) sind in einem überzufälligen Ausmaß auszuschließen.

Bei Persönlichkeitsfragebogen hingegen ist es in der Regel sogar sehr wahrscheinlich, dass eine Tp systematisch verfälscht, d.h. (sozial) erwünscht bzw. zu ihrem persönlichen Vorteil antwortet.
Die Verfälschbarkeit von Persönlichkeitsfragebogen hat insbesondere in der Personalauswahl gravierende Folgen.

Um die Verälschbarkeit von Persönlichkeitsfragebogen hat sich ein gesamter Forschungszweig entwickelt. Durch die Verwendung verschiedener Antwortformate ergeben sich basierende auf den Unterschieden in den resultierenden Testwerten ein "Mindesteffekt", mit dem bei der Personalauswahl mit verfälschten Ergebnissen (sog. "Faking-good") bei der Vorgabe von Persönlichkeitsfragebogen zu rechnen ist.

Tags: Persönlichkeitsfragebogen, Unverfälschbarkeit
Quelle: S122

70
Kartenlink

Was versteht man unter dem Phänomen der "Alexithymie"?

(Unverfälschbarkeit)

Bei der Alexithymie geht es zwar nicht ums Verfälschen, jedoch um eine grundsätzliche Kritik an Persönlichkeitsfragebogen.
Es ist darunter das Unvermögen einer Person zu verstehen, Gefühle angemessen wahrnehmen und beschreiben zu können.

Dies findet sich zumindest bei einigen Patientengruppen. Übrigens sprechen natürlich auch "selbstbetrügerische" Tendenzen mancher Tpn gegen die Zweckmäßigkeit von Persönlichkeitsfragebogen.

Tags: Persönlichkeitsfragebogen, Unverfälschbarkeit
Quelle: S121

71
Kartenlink

Welche Verfahren zur Persönlichkeitsdiagnostik wurden entwickelt die weniger leicht verfälschbar sind?

Objektive Persönlichkeitstests
Dabei werden einerseits persönliche Stil-Merkmale bei typischen Leistungsanforderungen beobachtet - und die Tp muss sich in der Regel nicht selbst beurteilen - und andererseits ist das Messprinzip nur schwer zu durschauen. Dadurch wird eine geringe Verfälschbarkeit erwartet und dies ist auch durch einige Studien gestützt.

Untersuchung von Baldinger (2006):

Vergleich von Stellenbewerbern und Klienten im Beratungskontext.
Untersuchung mittels BIP und Objektiven Persönlichkeitstest Arbeitshaltungen
Ergebnis: Gruppen unterschieden sich nicht in "Arbeitshaltungen", jedoch ergaben sich für die Gruppe der Bewerber in 9 der insgesamt 14 Skalen des BIP TEstwerte, die signifikant höhere Ausprägungen aufwiesen

Nicht prüfungsrelevant:
Die Testbatterie Arbeitshaltungen enthält unter anderem den auf auf R.B. Catell zurückgehenden Untertest "Flächengrößen Vergleichen".
Die Flächenpaare sind so gestaltet, dass die richtige Antwort nicht offensichtlich ist, die Tp also grundsätzlich zum Raten verleitet wird.
Der Testkennwert setzt nun die Anzahl richtiger und falscher sowie nicht erfolgter Entscheidungen derart in Beziehung, dass die Tendenz einer Tp zu eher impulsivem oder eher reflexivem Verhalten quantifiziert wird. Dieses Messprinzip ist von der Tp nicht genau zu durchschauen.

Tags: Objektive Persönlichkeitstests, Unverfälschbarkeit
Quelle: S122

72
Kartenlink

Wann erfüllt ein Test das Gütekriterium Fairness? Welche Themen werden hier diskutiert?

Ein Test erfüllt das Gütekriterium Fairness, wenn die resultierenden Testwerte zu keiner systematischen Diskriminierung bestimmter Testpersonen zum Beispiel aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen.

Konkret geht es um mögliche Benachteiligungen durch testimmanente Bedingungen, wie

Instruktion (z.B. sprachliche Verständlichkeit),
technische Handhabung (z.B. Testreaktionen via Computer) und
inhaltliche Details des Testmaterials (z.B. Bezug auf religiöse Wertmaßstäbe).

Zu unterscheiden ist insbesondere, ob "nur" einzelne Items bestimmte Gruppen von Tpn benachteiligen, also einen Item Bias aufweisen, oder ob der Test insgesamt benachteiligt.

In Bezug auf eine globale Benachteiligung beschäftigt sich die psychologische Diagnostik traditionell mit sozioökonomisch bedingten Handikaps (culture-fair-tests).
An traditionellen Testkonzepten wurde nämlich kritisiert, dass mit ihnen Personen, die unteren Sozialschichten angehören, nicht nur in Bezug auf die im Test geforderte Sprachkompetenz gehandikapt werden, sondern auch in Bezug auf die thematischen Aspekte des Tests.

Relevante Themen im Bezug zu Fairness:

Sprachunabhängige bzw. sprachfreie Tests und Instruktionen
Schichtunabhängig
Computerdiagnostik & ältere Tpn
Wahrnehmungstypen (visuell vs. akustisch)
Gruppenspezifische Unterschiede (und die Verwendung von spezifischen Eichtabellen)
Einfluss der Testerfahrung (Vertrautheit mit psychologischen Tests im Allgemeinen).

Tags: culture-fair, Fairness
Quelle: S123

73
Kartenlink

Was ist ein typisches Beispiel für Culture-Fair-Tests und inwiefern sind diese "Kulturabhängig"?

(Kapitel Gütekriterium Fairness)
Als typisches Beispiel von Culture-Fair-Tests können Matrizentests, zum Beispiel der WMT, angeführt werden. Zwar ist dort, anders als im Test SPM, eine sprachfreie Instruktion nicht explizit vorgesehen oder gar eigens im Manual angeführt, dennoch ist Sprachkompetenz nur so weit nötig, wie es das Begreifen der Instruktion erfordert.

(Kapitel Spezielle Leistungstests Reasoning)
Deutschsprachig gibt es innerhalb der Psychologischen Diagnostik verschiedene Übersetzungsversuche von Culture-Fair. Zumeist wird von "kulturfrei" oder von "kulturabhängig" gesprochen. Dass "Kulturunabhängigkeit" grundsätzlich nicht zu erreichen ist, lässt sich u.a. daraus ableiten, dass manche Kulturen gar keine Erfahrung mit den rechtwinkelig gestalteten Formen und Figuren haben (wie häufig verwendet).

Eine der Qualitäten des WMT liegt gerade darin, dass dieser Test laut Analysen nach dem Rasch-Modell in Österreich und in Westafrika (Togo und Nigeria) nachweislich eindimensional, und zwar dieselbe Fähigkeit misst.
Das heißt aber nicht, dass der Test "kulturfrei" oder "Culture-Fair" ist: Im Mittel schneiden die österreichischen Tpn (nicht nur signifikant, sondern deutlich) besser ab.

(Wird der Test nur innerhalb eines Kulturkreises angewandt so ist dieser Unterschied irrelevant).

Tags: culture-fair, Fairness
Quelle: S124, S207

74
Kartenlink

Was zeigten Untersuchungen zum AID 2 hinsichtlich
- Einsatz von sprachfreien Instruktionen?
- Unterschiede in verschiedenen sozialen Schichten?

AID2: Einsatz von sprachfreien Instruktionen
Im AID2 wurde bereits in der früheren Auflage für sämtliche Untertests zur Messung von manuell-visuellen Fähigkeiten sowie für zwei Zusatztests eine sprachfreie Instruktion optional angeboten.
In einem Experiment, welches die Angemessenheit der Eichung auch für die sprachfreien Instruktionen prüfen sollte, stellten die Autoren fest, dass dabei für etliche Kinder beim Untertest Realitätssicherheit erhebliche Verständnisschwierigkeiten gegeben sind. Es macht vor allem den jüngeren Tp Probleme, die sprachfreie Instruktion dahingehend zu begreifen, dass bei den gebotenen Bildern auf wichtige fehlende Details zu zeigen ist.
Als Konsequenz des angeführten Ergebnisses wurde für die aktuelle Auflage des AID2 eine geänderte, noch anschaulichere sprachfreie Instruktion entwickelt.

AID 2: Unterschiede in sozialen Schichten
Was Unterschiede in den Testwerten einschlägiger Intelligenz-Testbatterien zwischen Personen verschiedener Sozialschichten betrifft, schein sich eine interessante Entwicklung abzuzeichnen: Während im Manual des 1985 publizierten AID noch signifikant und relevante Unterschiede hinsichtlich aller Untertests in Bezug auf "obere" vs. "untere" Sozialschicht angegeben sind (bis zu 11 T-Werte zu Ungunsten der "Unteren Sozialschicht") - wird im Manual 2000 publizierten AID 2 explizit darauf hingewiesen, dass keine solche Unterschiede (mehr) bestehen.

Tags: culture-fair, Fairness
Quelle: S124

75
Kartenlink

Was zeichen Studien hinsichtlich der Fairness bei der Anwendung von Computerdiagnostik für ältere Tpn?

Schlüssige Studien, deren Ergebnisse vor allem auch für die relevante Population in etwa fünf Jahren generalisiert werden könnten, liegen dazu nicht vor.

So ist dieser Skepsis bloß entgegenzuhalten, dass Computerverfahren erstens seitens der Tpn erfahrungsgemäßg außerordentlich gut akzeptiert werden und zweitens bei Fragestellungen der neuropsychologischen Diagnostik heute bereits obligat ist.

Schon eine frühe Studie von Hergovich (1994) zeigte, dass selbst beim (Linien-)Zeichnen mit der Maus keine signifikanten Leistungsunterschiede zwischen Tpn mit und ohne Mauserfahrung bestehen, sobald ein entsprechendes Lernprogramm dem eigentlichen Computerverfahren vorausgeht.

Tags: culture-fair, Fairness
Quelle: S125

76
Kartenlink

Was versteht man unter der Neuropsychologischen Diagnostik?

"Neuropsychologische Diagnostik" beschäftigt sich mit der wissenschaftlichen fundierten, qualitativen und quantitativen ERfassung und objektiven Beschreibung aktueller kognitiver und affektiver Funktionsstörungen in Folge einer erworbenen Hirnschädigung oder Hirnfunktionsstörung anhand geeigneter psychologischer und spezieller neuropsychologischer Tests sowie den emotionalen Reaktionen eines Patienten auf diese Beeinträchtigungen und Störungen.

Tags: Fairness
Quelle: S125

77
Kartenlink

Inwiefern tragen gruppenspezifische Eichtabellen zur Fairness bei?

Selbstverständlich ist Tests auch dann Fairness zu attestieren, wenn eine signifikant von null abweichende, sachlich begründete Korrelation zwischen den Testwerten und der Zugehörigkeit zu einer gesellschaftlichen Gruppe besteht.

Alldering müssen dazu gruppenspezifische Eichtabellen angeboten werden, wie das regelmäßig in Bezug auf alters- und geschlechtsspezifische Unterschiede der Fall ist. Zum Beispiel bei Intelligenztests für Kinder werden so entwicklungspsychologisch begründete Niveauunterschiede nivelliert.

(Anmerkung: Ev. ist jedoch die Verwendung von gruppenspezifischen Eichtabellen nicht sinnvoll, z.B. bei einer Berufseignungsdiagnostik in der es um eine Bestenauswahl geht - hier sind z.B. geschlechtsspezifische Eichtabellen für die "Raumvorstellung" nicht sinnvoll die die Qualifikation relativieren.)

Tags: culture-fair, Fairness
Quelle: S126

78
Kartenlink

Welchen Einfluss kann Testerfahrung auf die Fairness eines Tests haben?

Manche Tests bevorteilen in hohem Grad Testroutinees bzw. viele Tests benachteiligen Tpn, die noch keine
Erfahrung mit psychologischen Tests gemacht haben.

Dabei geht es weniger um spezifische Übungs- bzw. Erinnerungs-Effekte, wie sie bei mehrmaliger Testung mit ein und demselben Test üblich sind, als vielmehr grundsätzlich um die Gewöhnung an und die Vertrautheit mit Items psychologischer Tests.

Eigentlich sollten Tests daher auch hinsichtlich der "Erfahrungsunabhängigkeit" ihrer Testergebnisse geprüft werden.

(Es gibt einige Bücher die eine kompetent aufbereitete Informationsgebung für Stellenwerber liefern oder sogar Trainings, z.B. für Langzeitarbeitslose, um die Unerfahrenheit einer Tp im Umgang mit psychologischen Tests auszuschließen.)

Tags: Fairness
Quelle: S126

79
Kartenlink

Welche Arten psychologisch-diagnostischer Verfahren (10) sind zu unterscheiden?

Anamneseerhebung
Exploration
Verhaltensbeobachtung
Biografisches Inventar
Assessment-Center
Arbeitsplatzanalyse
Tests im eigentlichen Sinn des Wortes (Prüfung): Leistungstests und Objektive Persönlichkeitstests
Persönlichkeitsfragebogen
Projektive Verfahren

Tags: Diagnostik, Verfahren
Quelle: S129

80
Kartenlink

Welche formalen Aspekte von psychologisch-diagnostischen Verfahren können unterschieden werden (im Überblick)?

Gestaltungsweisen
Erhebungstechniken
Prozess-Strategien

Tags: Formal
Quelle: S129

81
Kartenlink

Was versteht man unter
- power-test?
- speed-test?
- speed-and-power-test?

power-test
Test der Leistungshöhe, ...haben entweder keine oder eine großzügig bemessene Zeitbegrenzung.

speed-tests
sind Tests, bei denen die Bearbeitungsgeschwindigkeit als Leistung bewertet wird. Der Schwierigkeitsgrad der Aufgaben ist dabei sehr niedrig.

Speed-and-Power-Tests
beinhalten sowohl eine power- als auch seine Speed-Komponente, stellen also anspruchsvolle Leistungsanforderungen unter Zeitdruck.

Tags: Formal, Speed-and-Power-Test
Quelle: S129

82
Kartenlink

Was sind die Vor- und Nachteile von Multiple-Choice-Formaten?

Verrechnungssicherheit
Gruppen- vs Individualverfahren
Rateeffekt: 3-PL bzw. Difficulty plus Guessing PL Modell
Zumutbarkeit
Wirtschaftlichkeit

inhaltliche Grenzen

Tags: Formal, Multiple-Choice-Format
Quelle: S130

83
Kartenlink

Welche inhaltlichen Gründe können für die Verwendung des MC-Formats sprechen?

Bei manchen Testkonzepten ist die Aufgabenstellung erst über die Antwortmöglichkeiten definiert.

Der Untertest N-Test 1 aus dem KFT 4-12+R zum Beispiel, verlangt von der Testperson, pro Aufgabe eine gemeinsame Eigenschaft von 3 Figuren herauszufinden, wobei diese erst durch die beigegebenen fünf Antwortmöglichkeiten bestimmt ist.

(Beispiel noch einscannen - S133 unten)

Tags: Formal, Multiple-Choice-Format
Quelle: S133

84
Kartenlink

Welche Rolle spielt der Rateeffekt bei MC-Format und wie kann dieser in den Griff bekommen werden (6)?

Sehr oft unterschätzt wird die diagnostische Tragweite des Rateeffekts beim Multiple-Choice-Format. Die Wahrscheinlichkeit nämlich, dass die Tp bei einer Aufgabe nur zufällig die richtige Antwortmöglichkeit wählt und folglich die Aufgabe als "gelöst" verrechnet wird, kann relativ groß werdne.

Die "a-priori Ratewahrscheinlichkeit" bezeichnet die Wahrscheinlichkeit, wenn die Wahrscheinlichkeit eines "Treffers", lediglich von der Anzahl der dargebotenen Antwortmöglichkeiten abhängt.

Heute gibt es häufig 5 Antwortmöglichkeiten (1 Lösung + 4 Distraktoren); dass heißt die Ratewahrscheinlichkeit beträgt dann 1/5 = 0,20.
Diese Ratewahrscheinlichkeit wird höher (bis zu 1/2), wenn die Person über ein moderates Fähigkeitsniveau verfügt.

Ein allfälliger Rateeffekt ist testtheoretisch am besten mit dem 3PL bzw. dem Difficulty-plus-Guessing PL-Modell in den Griff zu bekommen: Hier wird der gesuchte Personenparameter eben gerade unter Berücksichtigung der Item-Rateparameter geschätzt.
Die Chance, erfolgreich zu raten, wird also in den Testwert mit ein kalkuliert, es kommt zu einer fairen Verrechnung der Testleistung.

Eine weitere Möglichkeit den Rateeffekt zu minimieren, ist die Anzahl der Antwortmöglichkeiten extrem anzuhöhen - dies ist jedoch unpraktikabel. Eine weitere Möglichkeit ist zwei richtige Antwortmöglichkeiten vorzusehen (und die Antwort ist nur richtig wenn beide angekreuzt werden).
Beispiel mit 5 Antwortmöglichkeiten: (5/2) = 1/10 = 0,10.
Noch stärker lässt sich die a-priori-Ratewahrscheinlichkeit reduzieren, wenn beliebig viele der Antwortmöglichkeiten richtig oder falsch sein können, also sogar auch einmal gar keine oder auch alle.

Weiters gibt es die Möglichkeit mit besonderen Instruktionen oder Antwortmöglichkeiten die Tp vom Raten abzuhalten.
(Beispiel 3DW: 2 Antwortmöglichkeiten "Ich weiß die Lösung nicht" und "Kein Würfel richtig".)

Auch kann die Ratewahrscheinlichkeit durch das sequenzielle vorgeben der Antwortmöglichkeiten, im gegensatz zur parallelen Vorgabe erheblich reduziert werden.

Tags: Formal, Multiple-Choice-Format
Quelle: S134

85
Kartenlink

Welche Rolle spielt das MC-Format bei Persönlichkeitsfragebögen?

Hier spricht man nicht von einem MC-Format sondern von einem Rating-Skala-Format.

Auch bei Persönlichkeitsfragebögen kann es dazu kommen, dass dabei Antworten zufällig zustande kommen, also eine der vorgegebenen Antwortmöglichkeiten von der Tp nicht mit Bezug auf die zu messen gesuchte Eigenschaft gewählt werden - etwa wenn der Tp keine der vorgegebenen Antwortmöglichkeiten passend erscheint.

Insbesondere leistet das MC-Format bzw. Rating-Skala-Format bestimmten Antworttendenzen (Reponse-Sets) Vorschub, wie der Akquieszenz-Tendenz (Ja-Sage-Tendenz) oder der Tendenz zur Mitte.

Da eine offensichliche Entscheidung eine höhere diagnostische Information enthält als neutrale (mittlere) Antwortmöglichkeiten ist zu beachten ob die Verwendung eines Forced-Choice-Formats in Relation zum Risiko einer (subjektiven) Überforderung der Tp mit allen denkbaren Konsequenzen tatsächlich lohnt.
(Wird auf neutrale Antwortmöglichkeit verzichtet, soll es wenigstens mehrfach abstufende Antwortmöglichkeiten geben.)

Tags: Multiple-Choice-Format, Persönlichkeitsfragebogen
Quelle: S141

86
Kartenlink

Was versteht man unter "Response-Set"?

Das "ist die Bezeichnung für alle jene Einflüsse, die sich durch bestimmte Antwortstereotypen der Testperson verfälschend auf die intendierte Dimension eines Tests auswirken.
Es werden zwei grundlegende Formen unterschieden:

Formale Response Sets: durch spezielle Form der Antwortvorgabe bedingt.
Inhaltliche Reponse Sets: verfälschende Antwort aufgrund spezifischen Inhalts eines Items oder Tests (defensive Einstellungen, soziale Erwünschtheit, Abweichungsreaktionen, Lügen)

Tags: Formal, Multiple-Choice-Format, Persönlichkeitsfragebogen
Quelle:

87
Kartenlink

Was sind die Vor- und Nachteile von Power vs. Speed-and-Power-Test?

Gruppenverfahren erzwingen praktisch die Gestaltung als Speed-and-Power-Test wenn sie als Papier-Bleistift-Verfahren durchgeführt werden.

Wie beim MC-Format stoßen Speed-and-Power-Tests dann an inhaltliche Grenzen, wenn allein der wirtschaftliche Aspekt, nämlich die Gestaltungsmöglichkeit als Gruppenverfahren, verantwortlich für die Begrenzung der Bearbeitungszeit.

Geht es um hochwertige bis herausragende Leistungen so ist die Gestaltung als Speed-and-Power-Test verfehlt.

Die Vermengung zweier Eigenschaftsdimensionen bei einem Speed-and-Power-Test steht dem Streben nach Eindimensionalität entgegen und es ist keine förderungsorientierte Diagnostik möglich.

Manchmal ist die Vermengung der Komponenten gewünscht - z.B. Raumvorstellungstest für Piloten.

Tags: Formal, Speed-and-Power-Test
Quelle: S143

88
Kartenlink

Was sind die Vor- und Nachteile von Gruppen- und Individualverfahren?

Vorteil Individualverfahren

Einsatzmöglichkeit ganz besonderer Testmaterialien: z.B. Puzzles.

Vorteile Gruppenverfahren

Wirtschaftliche Aspekte
mutmaßliche Testleiterunabhängigkeit
ev. ziehen Testpersonen "Anonymität" vor

Amelang und Schmit-Atzert (2006) führen 3 Nachteile von Gruppenverfahren an:

Benachteiligung von Tpn mit geringer Lesefertigkeit infolge der obligatorischen schriftlichen Fassung des Gruppenverfahrens
Gefahr des Abschreibens der Tpn untereinander
Störung der Tp durch die anderen Tpn

Tags: Formal, Gruppenverfahren, Individualverfahren
Quelle: S145

89
Kartenlink

Nach welchen 3 Erhebungstechniken lassen sich alle psychologisch-diagnostische Verfahren charakterisieren (Überblick)?

Prüfen
Fragen
Beobachten

Alle Verfahren: Anamneseerhebung, Exploration, Verhaltensbeobachtung, Biografisches Inventar, Assessment-Center, Arbeitsplatzanalysen sowie Tests, Persönlichkeitsfragebogen und projektive Verfahren.

Allerdings sind nur einige dieser Verfahren eindeutig einer einzigen Erhebungstechnik zuzuordnen (z.B. definitionsgemäß:
- Tests dem Prüfen,
- Persönlichkeitsfragebogen dem Fragen,
- Verhaltensbeobachtung dem Beobachten), andere sind dies grundsätzlich nicht (z.B. Assessment Center)

Genau genommen wird aber auch in der Leistungsdiagnostik nicht nur geprüft: So können bestimmte Fähigkeiten auch mittels (standardisierten) Fragebogen erfragt werden, nämlich innerhalb eines biologischen Inventars.

Die Alternative, Prüfen einerseits oder Fragen bzw. Beobachten andererseits, ist demnach nicht identisch mit der Polarisierung: Leistungs- vs. Persönlichkeitsdiagnostik.

Als grenzwertig zw. Prüfen und Beobachten sind Objektive Persönlichkeitstests zu werten: sie versuchen die persönlichen Stil-Merkmale aus dem beobachtbaren Verhalten bei bestimmten (Leistungs-)Anforderungen zu erschließen.

Die Abgrenzungsfragen helfen beim besseren Begreifen der verfahrensspezifischen Testsituation.
Tpn akzeptieren in der Regel durchaus, geprüft zu werden (es geht darum sich zu bewähren), jedoch ist für Tpn nicht transparent, welche Informationen der Testleiter sammelt und wie er sie interpretiert, wenn die Tp nur beobachtet wird.

Tags: Beobachten, Erhebungstechniken, Fragen, Prüfen
Quelle: S157

90
Kartenlink

Welche diagnostisch-psychologische Verfahren nutzen die Erhebungsmethode des Prüfen?
Was sind Beispiele für typische Prüfmodalitäten?

Außer bei Tests kommt es nur innerhalb von Assessment Center zum Prüfen im eigentlichen Sinn:
So bei der wohl bekanntesten Übung daraus, dem zwar obliganten, aber nirgends verbindlich reglementierten sog. "Postkorb" (In Basket, Mailbox), bei dem an Hand des Abarbeitens eines Stapels von Post die Fähigkeit einer Tp zur Arbeitskoordination bzw. Arbeitsorganisation erfasst werden soll.

Besondere Prüfmodalitäten gibt es bei Computerverfahren, die den Computer mediumsgerecht nutzen; sie werden genauer entweder im Zuge der Messung von Aufmerksamkeit und Konzentration bzw. Reaktionsschnelligkeit ausgeführt oder in Zusammenhang mit Objektiven Persönlichkeitstests.

Typische Prüfmodalitäten:

Verbinde die Zahlen (ZVT)
Funktionen Abstrahieren: "Was ist das Gemeinsame an Polo und Trabrennen?" (AID 2)
Wortanfänge: "Suche Worte mit ver-" (VKT)
Sprichwörter: "Suche sinngleiche Sprichwörter" (WIT-2)
Satzergänzungen: "Das Gegenteil von Hoffnung ist?" (IST 2000 R)
Soziales Erfassen und sachliches reflektieren: "Warum ist es gut eine Sonnencreme zu benutzen?" (AID 2)

Tags: Erhebungstechniken, Prüfen
Quelle: S158

91
Kartenlink

Was ist das Postkorbverfahren? Wie läuft es ab?

(Prüfen, häufig in Assessment-Center)
auch: In-Basket, Mail-Box

Charakteristisch für das Postkorbverfahren ist, dass der Bewerber mit dem Inhalt eines Postkorbs konfrontiert wird, der Aufgaben enthält, die in einer vorgegebenen Zeit zu bearbeiten sind.

Typische Aufgaben sind Aktenvermerke, Notizen von Vorgesetzten und Kollegen, Briefe, Notizen über Telefongespräche oder Besprechungen, Terminvereinbarungen, etc.

Er wird instruiert, welche Position innerhalb eines Unternehmens oder auch einer sozialen Institution er einzunehmen hat. Ein beigefügtes Organigramm vermittelt ihm die Organisationsstruktur des Unternehmens, manchmal ergänzt durch eine kurze Beschreibung der Entwicklungsgeschichte des Unternehmen.

Es wird gebeten, sämtliche Entscheidungen und Vorhaben zu notieren. Diese schriftlichen Aufzeichnungen werden dann zur Beurteilung der Leistung des Bewerbers herangezogen.

Tags: Erhebungstechniken, Postkorb, Prüfen
Quelle: S158

92
Kartenlink

Welche und inwiefern nutzen die diagnostisch-psychologische Verfahren die Erhebungsmethode des Fragen?

Die Erhebungstechnik des Fragens ist variantenreich:

Fragen in Persönlichkeitsfragebogen (inkl. Interessensfragebogen) zielen auf die (reflektierte) Selbsteinschätzung einer Tp bezüglich ihrer Eigenschaften und typischen Erlebens- und Verhaltensweisen ab.
Fragen in Projektiven Verfahren provozieren Stimmungslagen, aus denen heraus die Tp agieren muss.
Fragen in Biografischen Inventaren betreffen historische Fakten über bestimmte Lebensbereiche der Tp.
Fragen im Zuge der Anamneseerhebung beziehen sich auf (kranken-)entwicklungsgeschichtliche Ereignisse der Tp und sind insofern ebenfalls biografischer Natur, zielen jedoch in besonderem Maß auf eine im Zusammenhang erlebte subjektive Sicht der Dinge ab.
Fragen im Zuge der Exploration dienen der Klärung der subjektiv gegebenen, aktuellen Sachlage mit dem Ziel der Entscheidungvorbereitung
Fragen im Assessment-Center, soweit sie über die bisher angesprochenen Fragen hinausgehen, beziehen sich auf grundsätzliche Überlegungen und Problemlösestrategien der Tp zu vorgegebenen Konfliktsituationen
Fragen im Zuge einer Arbeitsplatzanalyse zielen auf Faktisches der Arbeitsroutine einer konkreten beruflichen Position ab, wobei es in Bezug auf deren Häufigkeit und Bedeutung durchaus zu sujektiven Einschätzungen kommt.

Tags: Erhebungstechniken, Fragen
Quelle: S164

93
Kartenlink

Welche Fragemodalitäten werden bei Persönlichkeitsfragebogen genutzt?

Typische Fragen aus Persönlichkeitsfragebogen:

"Ich ärgere mich oft darüber, wie andere Leute mich behandeln" (NEO-PI-R, NEO-Persönlichkeitsinventar revidierte Form, 2004)

Eher selten angewendete Methoden:

Gegenüberstellung von wenigstens 3 qualitativ unterschiedlichen Inhalten

Response Sets

"Q-Sort"-Methode

Response-Sets

Tags: Erhebungstechniken, Fragen, Persönlichkeitsfragebogen
Quelle: S165

94
Kartenlink

Was versteht man unter der Leistungsdiagnostik (im Überblick)?

Die psychologische Leistungsdiagnostik ist geprägt durch Intelligenz-Testbatterien - zumeist Zusammenstellung von mehreren Untertests zu einer Testbatterie.
Darüber hinaus gibt es aber spezielle Leistungstests, zum Beispiel zur Messung der Aufmerksamkeit oder zur Messung bestimmter neuropsychologischer Funktionstüchtigkeiten.

Beide Verfahrensgruppen sind dadurch gekennzeichnet, die kognitiven Fähigkeiten eines Menschen zu erfassen.

Tags: Intelligenz-Testbatterien, Leistungsdiagnostik, spezielle Leistungstests
Quelle: S191

95
Kartenlink

Was kennzeichnet Intelligenz-Testbatterien?
Welche Beispiele gibt es?

Alle Intelligenz-Testbatterien haben eine gewisse Affinität zu herkömmlichen Intelligenztheorien; strikt nach einer bestimmten Theorie konstruierte Testbatterien gibt es aber mit Ausnahme des BIS-Tests nicht.
Die meisten nehmen zwar Bezug auf entweder Thurstone oder Wechsler, jedoch fügen sich die Autoren der Faktizität der Faktorenstruktur oder verfolgen praktische Zwecke.

In der Praxis ist die Systematisierung der Intelligenz-Testbatterien nach Einzel- vs. Gruppenverfahren relevanter als nach intelligenztheoretischer Orientierung.
Beispiele:

Gruppenverfahren: IST 2000 R, KFT 4-12+R, PSB-R 4-6, WIT-2
Einzelverfahren: AID 2, WIE, HAWIK-IV, K-ABC

IST 2000-R

theorievielfältige Konzeption: Thurstone, Cattell, Guilford, Jäger
Im Endeffekt liegt der Testbatterie ein hierarchisches Intelligenzmodell zugrunde.
Einsatzbereich: berufbezogene Fragestellungen
Eichtabellen für 15-51 Jährige (und älter)
Positiv: IST 100 R bietet kein IQ als Maß einer "allgemeinen" Intelligenz an
Kritik: testtheoretische Tragweite des gewählten Verrechnungsmodus pro Untertest wird weder reflektiert noch geprüft - vermutlich nicht verrechnungsfair.

AID 2

orientiert sich am Testkonzept von Wechsler
Realisiert adaptives Testen als Papier-Bleistift-Verfahren (dt.sprachig nach wie vor einmalig)
Zielpopulation: Kinder und Jugendliche (6-16 Jahre)
Einsatzbereich: Schulpsychologie, Berufs- und Ausbildungsberatung, Klinische Psychologie, Fragestellung bei fremdsprachigen Tpn (tlw. sprachfreie Instruktion)
Ergebnis als Profilinterpretation der einzelnen Untertests (kein IQ) - ermöglicht unmittelbar förderungsorientierte Diagnostik
Kritik

intelligenztheoretische Konzept

ungenügenden

Bezug zu theoretisch fundierten Störungsmodellen fehlt.

Tags: Intelligenz-Testbatterien, Leistungsdiagnostik
Quelle: S192

96
Kartenlink

Was kennzeichnet spezielle Leistungstests im Überblick? Was untersuchen spezielle Leistungstests?

Unter spezielle Leistungstests fallen insbesondere auch solche, die zwar gelegentlich als "Intelligenztests" bezeichnet werden, jedoch lediglich einen speziellen Aspekt, also einen einzelnen Intelligenzfaktor erfassen.

Kritik: kritische Durchsicht des Verhaltensinventars vermittelt den Eindruck, die einzelnen Verfahren sind kaum am Bedarf der Fallbehandlung bei typischen Fragestellungen orientiert, sondern eher gemäß gelegentlicher Forschungsinteressen entwickelt wurden.

Systematik (nach Intelligenzfaktoren von Thurstone):

Verbal comprehension
Space
Memory
Perceptual Speed
Reasoning
(Intellektuelle) Lernfähigkeit)
Aufmerksamkeit und Konzentration
Technisches Verständnis
Entwicklungstests

Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S197

97
Kartenlink

Was sind Beispiele für Tests zur Messung von "Verbal comprehension"?
Wofür sind diese Tests ungeeignet?

Ist auch häufig als Untertest bei Intelligenz-Testbatterien:

WIT-2: Gleiche Wortbedeutung
IST 2000 R: Gemeinsamkeiten, Analogien
AID 2: Funktionen abstrahieren

Spezielle Leistungstests

WST - Wortschatztest (Schmidt & Metzler, 1992)
LEWITE - Lexikon-Wissen Test (Wagner-Menghin, 2004)

Sprachentwicklungstest (gehört zu Entwicklungstests)

Heidelberger Sprachentwicklungstest (HSET)

Zweifellos erfassen Tests zu Verbal comprehension eine zwar bildungmitbedingt, aber eindeutig kognitiv-operative Fähigkeit, die zu einschlägigen Intelligenzdefinitionen passt.

Zur Beantwortung der Fragestellungen, die das "Talent zum (Fremd-)Sprachenerwerb" oder das "Geschick zur sprachlichen Ausdrucksprägnanz" einer Tp betreffen, sind sie alle aber ungeeignet.

Tags: Leistungsdiagnostik, spezielle Leistungstests, Verbal comprehension
Quelle: S198

98
Kartenlink

Was sind Beispiele für Tests zur Messung von "space"?

Raumvorstellungstests sind für jede einschlägige Intelligenz-Testbatterie vom Forschungsansatz Thurstones abzuleiten.

Es handelt hier sich um: Raumvorstellung, Fähgikeit zur Vorstellung räumlicher Relationen, Raum-Lage-Orientierung, "spatial ability" ....
... in Intelligenztestsbatterien

WIT 2: Spiegelbilder, Abwicklungen
IST 2000-R: Würfelaufgabe (Weiterentwicklung 3DW)
AID 2: Analysieren und Subtrahieren-abstrakt, Antizipieren und Kombinieren-figural

Spezielle Leistungstests:

3DW: Leistungstest zur Messung des räumlichen Vorstellungsvermögens
Schlauchfiguren

Tags: Leistungsdiagnostik, Space, spezielle Leistungstests
Quelle: S199

99
Kartenlink

Was sind Beispiele für Tests zur Messung von "memory"? (4)

Teile einer Intelligenz-Testbatterie

WIT-2: Merkfähigkeit
IST 2000 R: Merkfähigkeit (verbal), Merkfähigkeit (figural)
AID 2: Memory

Spezielle Leistungstests

LGT-3 - Lern- und Gedächtnistest (Bäumler, 1974)

Kritik

NVLT - Nonverbaler Lerntest und VLT - Verbaler Lerntest

Kritik

BAT - Berliner Amnesietest
LAMBDA - Lernen auswendig-Merken-Belastbarkeit-Denken analytisch) (Kubinger et al)

Lerntypen

Erfolgreichen

Unsicheren

Langsamen und wenig Erfolgreichen

Anstrengungsvermeider

Tags: Leistungsdiagnostik, Memory, spezielle Leistungstests
Quelle: S200

100
Kartenlink

Was sind Beispiele für Tests zur Erfassung von "Perceptual speed"?

Im Rahme von Intelligenztestbatterien

AID2: Untertest Kodieren und Assoziieren

Spezielle Leistungstests

ZVT: misst Informations-Verarbeitungsgeschwindigkeit

Die Informationsverarbeitungsgeschwindigkeit ist eine Voraussetzung für kognitive (Höchst-)Leistungen und interessant bei einschlägigen beruflichen Anforderungen und bestimmten klinischen (Abklärung und Behandlung von Depression) sowie neuro- bzw. gerontopsychologische Fragestellungen.
Andere Tests messen perceptual speed mit Absicht die Ergebnisse als Ausdruck von (Dauer-)"Aufmerksamkeit" und/oder "Konzentration" zu interpretieren.

Häufig weißen die Test einen sehr geringen Schwierigkeitsgrad auf und es geht dabei um Fehler, die bei unaufmerksamen bzw. unkonzentrierten Arbeiten passieren. (siehe auch Tests zu "Aufmerksamkeit und Konzentration")

Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S204

101
Kartenlink

Wovon geht die mental-speed-Theorie zur Intelligenz aus?

In der mental-speed-Theorie wird die Geschwindigkeit der Informationsverarbeitung als Basisprozess der Intelligenz angenommen.
Intelligenz wird auf einen einzigen Faktor, die Allgemeine Intelligenz, reduziert.

Die Annahme ist, dass eine höher Informationsverarbeitungsgeschwindigkeit die Wahrscheinlichkeit reduziert, dass das kognitive System überladen wird, was zu Fehlern bei der Informationsverarbeitung führen würde (neuronale Effizienzhypothese).

Eine weitere Vermutung ist, dass bei schnelleren Informationverarbeitung pro Zeiteinheit mehr Information aufgenommen werden kann. Summiert über einen langen Zeitraum hinweg, sollen dadurch erheblicher interindividuelle Differenzen im Wissen und in den Fähigkeiten resultieren.

Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S205

102
Kartenlink

Was versteht man unter "reasoning" und was sind Beispiele für Tests zur Erfassung von "Reasoning"?

Reasoning ist die Fähigkeit, Gesetzmäßigkeiten oder logisch zwingende Zusammenhänge erkennen und zweckentsprechend verwerten zu können.

Im Rahmen von Intelligenztestbatterien

IST 2000 R: Analogien, Zahlenreihen, Matrizen
CFT-20-R: Reihenfortsetzen, Klassifikation, Matrizen und Topologien

Spezielle Leistungstests (z.B. Matrizentests)

WMT
SPM
Rechnen in Symbolen
Syllogismen - formale Logik
AMP (Advanced Progressive Matrices von Raven)
CFT 1 (Grundintelligenzskala 1)

Reasoning-Tests sind häufig mit Culture-Fair-Tests verbunden, da sie oft Material und Aufgabenstellung verwenden, die, der Absicht gemäß, vom kulturspezifischen Kontext (weitgehend) unabhängig sind.

Tags: Leistungsdiagnostik, Reasoning, spezielle Leistungstests
Quelle: S205

103
Kartenlink

Was versteht man unter "Aufmerksamkeit und Konzentration"? Welche Arten von Aufmerksamkeit werden noch unterschieden?

Konzentration und Aufmerksamkeit bezeichnet die Fähgikeit einer ausgewählten Handlung mit ausreichender (situationsangepasster) Stetigkeit und Präzision nachgehen zu können und andere, dafür irrelevante Dinge außer Acht zu lassen.

Schuri, Keller und Matthes-von Cramon (1994) differenzieren Aufmerksamkeit (hinsichtlich klinisch-praktischen Überlegungen) nach:

selektive Aufmerksamkeit
geteilte Aufmerksamkeit
Daueraufmerksamkeit
(und auch kognitive Verarbeitungsgeschwindigkeit)

Brickenkamp (2002) verwendet den Begriff

"konzentrative (besser: fokussierende) Aufmerksamkeit" (für selektive und geteilte A.) und
"distributive Aufmerksamkeit".

Tags: Aufmerksamkeit, Konzentration, Leistungsdiagnostik, spezielle Leistungstests
Quelle: S211

104
Kartenlink

Welche Tests (7) werden verwendet zur Messung von "Aufmerksamkeit und Konzentration"? Was ist die Kritik an diesen Tests?

Konzentrationstests können historisch betrachtet unterteilt werden in:

Durchstreich-Aufgaben
Rechenaufgaben - haben aber Aktualität verloren, da die Notwendigkeit extremer Rechenfertigkeit als Wichtigkeit verloren hat.

Spezielle Leistungstests:

Test d2 (Paper-Pencil): Durchstreichtest, Möglichkeit die Arbeitskurve zu bestimmen; jedoch wird auch optische Differenzierungsfähigkeit von d und p gefordert.
FAIR (Frankfurter Aufmerksamkeits-Inventar, Paper-Pencil): es werden statt Buchstaben (d, p) geometrische Figuren (Kreis + Quadrat) verwendet.

Cognitrone (Computer): selektive/fokussierende Aufmerksamkeit, ist die gegeben Figur in den zur Auswahl stehenden Figuren enthalten oder nicht.

Daueraufmerksamkeit (Computer): selektive/fokussierende Aufmerksamkeit; TP muss Taste drücken, wenn bestimmte Anzahl von Dreiecken mit der Spitze nach unten sichtbar sind
Signal-Detection (Computer):selektive/fokussierende Aufmerksamkeit; Taste muss gedrückt werden wenn in Punktmuster Quadrat sichtbar ist.

Vigilanz (Computer): Daueraufmerksamkeit; Person muss kreisförmig sich bewegender Punkt verfolgen und in sehr seltenen Fällen wenn sich dieser schneller bewegt Reaktionstaste drücken.

KRITIK: Alle angesprochenen Konzentrationstests sind nicht ohne Zeitdruck durchzuführen, d.h. sie eigenen sich alle nicht die Aufmerksamkeit (Konzentration) ohne Zeitdruck zu überprüfen, geschweige den mit kognitiv anspruchsvolleren Anforderungen.

Nur LEVE (Leseverständnistest) erfordert höhere kognitive Fähigkeiten. Hier ist es notwendig einen angemessenen informativen Text im selbst regulierten Tempo zu lesen, zu verstehen und in wesentlichen Belangen zu behalten, um ihn letztlich schlussfolgernd zu verarbeiten.

Für die Messung der Fähigkeit zur geteilten Aufmerksamkeit gibt es keine einschlägigen Tests.

Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S212

105
Kartenlink

Was versteht man unter der Fähigkeit "Technisches Verständnis" und mit welchen Tests wird dies gemessen?

Technisches Verständnis ist das Erfassenkönnen von Ursache-Wirkungs-Zusammenhängen technischer (naturwissenschaftlicher) Art sowie von technischen Konstruktionsprinzipien.

Tlw. gibt es eine Unterscheidung zwischen

technisch-konstruktivem Denken und
technisch-praktischem Handeln

Dementsprechend kann technisches Verständnis auch als spezieller Aspekt der "praktischen Intelligenz" aufgefasst werden.

Es gab früher einige Tests, die jedoch alle vom Mark genommen wurden. Derzeit gibt es nur einen relativ neuen Computertest MTA.

Beim MTA muss festgestellt werden welche Konstruktionspläne korrekt bzw. nicht korrekt für eine bestimmte Maschine sind.

Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S215

106
Kartenlink

Welche Entwicklungstests gibt es?

Bis in das Ende des letzten Jahrtausends gab es keine allgemeinen Entwicklungs-Testbatterien, die an die Tradition der berühmten Kleinkindertests von Charlotte Bühler und Hildegard Hetzer (1932) anschließen.
(Tests erfüllten nicht Skalierung und Akutalität der Eichung)

Mit dem Entwicklungstests 6 Monate - 6 Jahre (ET 6-6, 2005) und dem Wiener Entwicklungstest (WET, 2002) für 3-6 Jahre sind nun zwei Entwicklungstestsbatterien der Psychologischen Diagnostik verfügbar.
Als entwicklungsrelevant erfassen sie weitgehend übereinstimmende Bereiche, die theoretisch inhaltlich und empirisch begründet sind.

Beide erheben den Anspruch, ein differenziertes "Entwicklungsprofil" für jedes Kind zu gewinnen, um sowohl Problembereiche als auch Stärken zu erkennen.

Wichtig: das psychologische Diagnostizieren bei jüngeren Kindern als Schulkindern erfordert regelmäßig eine besondere Zusatzqualifikation.

Tags: Leistungsdiagnostik, spezielle Leistungstests
Quelle: S217

107
Kartenlink

Worauf beziehen sich heuzutage Verfahren zur Erfassung von "charakterlichen" Eigenschaften?

Diese beziehen ziemlich universell auf das "Big Five"-Persönlichkeitsmodell.

So nimmt man an, dass Menschen sich unterscheiden hinsichtlich:

Neurotizismus (besser: Emotionale Stabilität)
Extraversion
Offenheit für Erfahrung
Verträglichkeit
Gewissenhaftigkeit

Fragebögen:

Faktorenanalytisch begründete Fragebogenbatterie: 16-PF-R, NEO-PI-R
A-priori dimensionalisierte Fragebogenbatterien: MMPI, PRF (Deutsche Personality Research Form)

Tags: Persönlichkeitsfragebogen
Quelle: S218

108
Kartenlink

Wie entstand das Big-Five-Persönlichkeitsmodell? Was zeigen aktuelle Untersuchungen dazu?

Die Entstehung geht auf die Sedimentationshypothese zurück, welche besagt, dass
"alle Aspekte individueller Differenzen, welche bedeutsam, interessant oder nützlich sind oder waren, in die Sprache Eingang gefunden haben; je bedeutender ein solche individuelle Differenz, desto größer die Wahrscheinlichkeit, dass sie ein gesondertes Wort hervorbrachte.
Die Sedimentationshypothese impliziert, dass ... Lexika ... das Universum aller bedeutenden individuellen Unterschiede abdecken."

Ein solcher lexikalischer Ansatz diente schon R.B. Cattell als Grundlage für die Persönlichkeits-Fragebogenbatterie 16 PF-R. Diese Ergebnisse wurden in vielen weiteren Studien genutzt und analysiert.
Letztlich schließen Costa & McCrae aus kulturvergleichenden und verhaltensgenetischen Studien mit dem aktuellen Repräsentanten des Big Five-Persönlichkeitsmodells, der Persönlichkeits-Fragebogenbatterie NEO-PI-R, auf eine biologisch begründete universale Gültigkeit der Big-Five-Faktoren.

Neuere Forschungsergebnisse zusammengefasst, bietet sich zwar kein so einheitliches Bilds - so kommt Becker (2002) zu einen "Four-plus-X-factor" Modell, das dem Umstand Rechnung tragen soll, dass mindestens vier generell replizierbare Faktoren existieren, aber je nach Art und Anzahl erhobener Aspekte, Facetten, Skalen bzw. Items der Persönlichkeit auch entsprechend mehr Faktoren extrahiert werden können.
Nichtsdestotrotz bedeutet das Big Five-Persönlichkeitsmodell zum aktuellen Forschungsstand die Basis allen psychologischen Diagnostizierens im Persönlichkeitsbereich

Tags: 16 PF-R, Big Five, NEO-PI-R, Persönlichkeitsfragebogen
Quelle: S218

109
Kartenlink

Welche unterschiedliche Arten von Verfahrenstypen zur Erfassung von "charakterlichen" Eigenschaften (Persönlichkeit) gibt es?

faktorenanalytisch begründete Fragebogenbatterien

- 16 PF-R- NEO-PI-R

a-priori dimensionalisierte Fragebogenbatterien

- MMPI-2- PRF

spezielle Persönlichkeitsfragebogen(-Batterie)
Objektive Persönlichkeitstests
Projektive Verfahren

Tags: Objektive Persönlichkeitstests, Persönlichkeitsfragebogen
Quelle: S220

110
Kartenlink

Was untersucht der 16 PF-R?
- Zielpopulation?
- Entwicklung?
- Kritik?

wurde 1949 publiziert
16 PF-R: 16-Persönlichkeits-Faktoren Test revidierte Fassung
Ausgehend von 18.000 persönlichkeitsrelevanten Begriffen wurde die hinsichtlich der Anzahl 16 berühmten Faktoren gewonnen.
Cattell setzte zunächst ausgewählte Items nur zur Fremdbeurteilung ein und errechnete (immer ungefähr) 12 Faktoren.
Erst umformuliert zur Selbstbeurteilung resultierten analoge 12 und zusätzlich 4, von im als "questionnaire-specific" bezeichnete Faktoren.
In der deutschspr. aktuellen Fassung des 16 PF-R heißen die Faktoren grundsätzlich anders als früher
16 Faktoren: Wärme, logisches Schlussfolgern, Emotionale Stabilität, Dominanz, Lebhaftigkeit, Regelbewusstsein, Soziale Kompetenz, Empfindsamkeit, Wachsamkeit, Abgehobenheit, Privatheit, Besorgtheit, Offenheitfür Veränderung, Selbstgenügsamkeit, Perfektionismus, Anspannung
Zielpopulation: Erwachsene ab 18 Jahren
Einsatzmöglichkeit: Arbeits-, Betriebs- und Berufspsychologie

Entwicklung

Itemzusammenstellung pro Skala erfolgten auf Basis der Trennschärfen, wobei berücksichtigt wurde, dass möglichst niedrige Korrelationen der Skalen untereinander entstehen.
Anschließende Faktorenanalyse bezog sich auf jeweils 6 Items aufgeteilte Halbskalen. So wurde aufgrund des Eigenwertabfalldiagramms entsprechend dem Scree-Test die Entscheidung getroffen die ersten 16 Faktoren beizubehalten.
Anschließend erfolgte eine hypothesenorientierte Zielrotation.
In einem weiteren Schritt wurden die 16 untereinander korrelierende Primärdimension einer Faktorenanalyse mit anschließender orthogonaler Rotation unterzogen.

5 Sekundärfaktoren

globalere Persönlichkeitsdimensionen

Kritik

Betrachtung des Eigenwerts: eigentlich nicht mehr als 5 Faktoren sinnvoll (manifestiert sich letztlich auch in 5 Sekundärfaktoren)

Schiefwinkelige Rotation - was ist hierfür der psychologische Erklärungswert, da dadurch eine Korrelation zwischen den Faktoren vorhanden ist.
geringe Übereinstimmungsvalidität zu Big-Five-Persönlichkeitsmodell (16 der 25 Korrelationen zw. 16-PR-R und NEO-FFI kleiner als 0,20)
Empfehlung der Autoren zum Einsatz in "Anwendungsfeldern wie Arbeits-, Betriebspsychologie" ignoriert traditionell das Phänomen der Verfälschbarkeit.

Tags: 16 PF-R, Persönlichkeitsfragebogen
Quelle: S221

111
Kartenlink

Was ist der "Scree-Test"?

Beim Scree-Test handelt es sich um eine von Cattell (1966) vorgeschlagene Grafik, in der die Eigenwerte (der vollständigen Faktorenlösung) der Größe nach aufgetragen werden.

Mit der Betrachtung beim kleinsten beginnend, zeigt sich dann so lange eine annähernd kontinuiertlicher Verlauf bis der entsprechende Faktor nicht mehr blog zufällig mehr Varianz (Eigenwert) erklärt als der vorhergehende: Es restuliert ein "Knick" im Verlauf.

Faktoren mit größeren Eigenwerten als der "Knick"-Faktor werden als inhaltlich bedeutsam interpretiert.

Horn (1965) hat ergänzend dazu vorgeschlagen, auch den Eigenwertverlauf simulierter Daten von wechselseitig unabhängig modellierten Variablen einzuzeichnen. Danach wären alle Faktoren mit solchen Eigenwerten bedeutend, die oberhalb des Eigenwertverlaufs der simulierten Variablen liegen.

Eine solche Prüfung wurde hier in Bezug auf den 16 PF-R nicht vorgenommen; sie fiele aber erfahrungsgeleitet gegen die 16-Faktorenlösung aus.

Tags: 16 PF-R, Persönlichkeitsfragebogen
Quelle: S224

112
Kartenlink

Was misst der NEO-PI-R?
- Entstehung
- Zielpopulation und Einsatzmöglichkeiten

Costa & McCrae
ursprünglich nur 3 Faktoren: Neurotizismus, Extraversion, Offenheit für Erfahrung (N-E-O)
NEO-PI-R: 5 Faktoren - zusätzlich Agreeableness (Verträglichkeit) und Conscientiousness (Gewissenhaftigkeit)

Jeder Faktor wird durch 6 Skalen

Verrechnungsmäßige Zusammenfassung je Faktor erfolgt für verschiedene Alters- und Geschlechtsgruppen über die Summierung von Skalenrohwerten.

Faktoren-Scores

Das Antwortformat ist einheitlich fünfkategoriell (Verrechnung mit 0 - 4 Punkten).
Zielpopulation: 16-50 Jährige und auch Personen im Alter darüber
Einsatzmöglichkeiten: Klinische Anwendungsfelder (psychotherapeutischen Kontext, gesundheitspsychologische Fragestellungen), Berufsberatung, Arbeits- und Organisationspsychologie (Achtung: Normierung erfolgte jedoch an freiwilligen Testpersonen ohne Druck zu sozial erwünschten Antworten)
NEO-PI-R bietet die Möglichkeit der Fremd- und Selbsteinschätzung, Vergleich möglich.

Tags: NEO-PI-R, Persönlichkeitsfragebogen
Quelle: S225

113
Kartenlink

Was misst der MMPI-2?
- Entstehung
- Skalen
- Kritik

MMPI - Minnesota Multiphasic Personality Inventory
1943
Ziel: lag in der psychiatrischen Kategorisierung bzw. in der Differenzierung zwischen "normal" und "Abnormal"
Konstruktion des MMPI:
MMPI-2: enthält 567 Items,

hohe Skalen-Interkorrelation

Skalen: Hypochondrie, Depression, Hysterie/Konversationsstörung, Psychopathie, Soziopathie, antisoziale Persönlichkeitsstörung, männliche/weibliche Interessen, Paranoia, Psychasthenie, Schizophrenie, Hypomanie und soziale Introversion.
Neben normalen Skalen bietet der MMPI-2 auch folgende Skalen (genannt Validitätsskalen): Lügen-Skala, Seltenheits-Skala (Infrequency-Skala), Korrektur-Skala (Eigenschaften die häufig geleugnet/beschönigt werden) .

Kritik

zahlreiche befremdliche Items die u.a. dem Intimbereich betreffen und lassen an der Zumutbarkeit zweifeln
MMPI beruht auf alten Kraepelinschen Klassifikationssystems und nicht auf multiaxiale Beschreibungssystemen wie ICD-10 oder DSM-IV.
Kritik der unzureichenden psychometrischen Gütenachweise gilt nach wie vor: Bedeutsame empirische Nachweise zur Messgenauigkeit und Validität des MMPI-2 fehlen.
Obwohl es eine allgemein akzeptierte Notwendigkeit einer Überprüfung der interkulturellen Äquivalenz von psychologisch-diagnostichen Verfahren gibt, scheint es befremdlich, dass die Entwicklung einer nationalen Version eines "Klassikers" als nicht sinnvoll erschien.

Tags: Persönlichkeitsfragebogen
Quelle: S228

114
Kartenlink

Was misst der PRF?
- Theorie
- Zielgruppe und Anwendungsbereich
- Entstehung

Deutsche Personality Research Form, 1985
bezieht sich auf Henry Murray und dessen motivationspsychologisch begründete Persönlichkeitstheorie
Murray unterscheidet zwischen primären (Bedürfnissen) und sekundären (psychogenen) Motiven.
Beispiel-Item - es wird mit "richtig" oder "falsch" geantwortet: "Ich ärgere mich über mich selbst, wenn ich etwas nicht gründlich gelernt habe." (Leistungsstreben)
Skala Infrequenz: zur Kontrolle von Antworttendenzen, 10 Items
Zielgruppe: Personen ab 17 Jahren
Anwendungsbereich: Berufs- und Bildungsberatung, Personalwesen, auch bei bestimmten arbeits- bzw. organisationspsychologischen Fragestellungen

Entstehung

Auswahl der PRF-Items aus ursprünglich 3000 Items.
Es wurde auf die inhaltliche Gültigkeit Rücksicht genommen - basierend auf Experten-Ratings und Fremdeinschätzung von fiktiven Personen mit extremer Ausprägung im jeweiligen Konstrukt.
Weiters wurde auf die
Nachträgliche Absicherung durch Faktorenanalystische Auswertungen auf Itemebene.

Tags: Persönlichkeitsfragebogen
Quelle: S235

115
Kartenlink

Was versteht man unter Interessen (Definition)?

Interessen sind relativ stabile, kognitiv, emotional und werthaft in der Persönlichkeit verankerte Handlungstendenzen, die sich nach Art, Generalisiertheit und Intensität unterscheiden.

Das heißt, Interessen hängen von der kognitiven Struktur und der emotionalen Grundstimmung einer Person ab. Und davon, dass sie die Auseinandersetzung mit dem fraglichen Thema als persönlich bedeutsam erlebt, und zwar auch ohne äußere Veranlassung dazu.
Was die Generalisierbarkeit betrifft, ist gemeint, dass sich Interessen auf sehr eng bengrenzte Aspekte eines Themas beziehen können (z.B. Planeten) oder eben universiell auf (fast) alle dieser Aspekte (z.B. Sport).

Tags: Definition, Interessen
Quelle: S254

116
Kartenlink

Was ist das "Hexagon-Modell" von John L. Holland?

Holland nimmt 6 Grundhaltungen des Menschen gegenüber seiner Umwelt an, die sich in eben solchen sechs Interessensarten ausdrücken:

Praktisch-technische Interessen; R, realistic
Intellektuell-forschende Interessen; I, investigative
Künstlerisch-sprachliche Interessen; A, artistic
Soziale Interessen; S, social
Unternehmerische Interessen; E, enterprising
Konventionelle Interessen; C, conventional

Dabei sind diese sechs Interessensarten zueinander in einem bestimmten, hexagonalen Zusammenhang zu sehen - d.h. je mehr Interessensarten auf dem Hexagon zwischen je zwei Interessensarten angeordnet sind, umso weniger "verwandt" sind letztere.

Je nachdem, wie genau die Interessensarten bei einer einzelnen Person strukturiert sind, ergibt sich ein anderer (Interessens-)Typ.
Eine solche Typisierung strebt die Fragenbogenbatterie AIST-R/UST-R an.

Tags: AIST-R/UST-R, Interessen
Quelle: S254

117
Kartenlink

Was misst der AIST-R/UST-R?
Positive Aspekte und Kritik?

AIST-R/UST-R: Allgemeiner Interessen-Struktur-Test/Umwelt-Struktur-Test; Bergmann&Eder, 2005

Theoriegeleitetes psychologisch-diagnostische Verfahren zur Persönlichkeitsbeschreibung; Erfasst den Interessentyp und Umwelttyp basierend auf dem "Hexagon-Modell" von Holland.

Ist der AIST-R kaum mehr als ein Verfahren zur Persönlichkeitsbeschreibung, so wird er im Zusammenhang mit UST-R für die Praxis von Fallbehandlungen besonders nützlich.

Nach Holland gibt es den sechs Persönlichkeitsorientierungen entsprechend sechs Arten von (Berufs-)Umwelten, so dass die Kongruenz zwischen Person und Umwelt bestimmt werden kann.

Kongruenz: Übereinstimmung von Person und Umwelt
Konsistenz: Ähnlichkeit der bevorzugten Interessenstypen innerhalb einer Person.

Der UST-R erhebt dabei die Vorstellung der Tp über die Bedeutung verschiedenster Tätigkeiten im Zusammenhang mit dem von ihr präferierten Beruf. Dadurch ist nicht nur die indirekte Feststellung des Informationsgrads der Tp +ber den präferierten Beruf möglich, sondern vor allem die Bestimmung des Grads der sog. "Passung" zwischen eigenen Interessen und erwarteten Anforderungen.
Dieser Grad der Passung wird über die Distanzen im Hexagon quantifiziert.

Positive Aspekte

offensichtlich förderungsorientierte Aspekt mit dem AIST-R:

Berufswahlreife

Kritik:

Obwohl der AIST-R theoriegeleitet ist, enthält er gegenüber theorielosen Interessenfragebogen keine grundsätzlich andere Fragen.

Tags: AIST-R/UST-R
Quelle: S255

118
Kartenlink

Was misst die GIS?

Generelle Interessen-Skala; Brickenkamp, 1990
Interessensfragebogen

Sinnvoll bei Fragestellungen Leistungsversagen.
GIS unterscheidet zwischen 3 Verhaltensmodalitäten pro Interessensbereich; und zwar zwischen einer rezeptiven, einer reproduktiven und einer kreativen Beschäftigung.

Beispiele zu "Kommunikationstechnologie":

"sich über neue Computer informieren"
"mit Computern spielen oder arbeiten"
"Computerprogramm erstellen"

Mit diesem Interessensfragebogen kann sich zeigen, dass einerseits ein offensichtliches Interesse an einem bestimmten Bereich sich andererseits (nur) auf eine bestimmte Art der Beschäftigung bezieht und auf eine bestimmte andere Art eben nicht.

Tags: GIS, Interessen
Quelle: S257

119
Kartenlink

Was sind generell Probleme bei Interessensfragebögen (5)?

Die Erfassung von Interesse alleine reicht nicht aus um Ausbildungs- oder Berufszufriedenheit bzw. Erfolg vorherzusagen.

leistungsbezogene Eignung

Interesse entwickelt sich oftmals erst durch Aktualisierung in einer bestimmten Situation ("by doing").
Interessenfragebogen setzen viel Vorstellungskraft und Informiertheit voraus.
Interessefragebögen decken nicht alles ab
Interessensfragebögen sind (sozial erwünscht) verfälschbar.