Wie hoch ist mein IQ?

12. Oktober 2002, 20:30
11 Postings

Wie werden Intelligenztests konstruiert - und wer sorgt dafür, dass etwas Brauchbares dabei herauskommt?

Vor kurzem moderierte Günther Jauch zum zweiten Mal die große "IQ-Show" auf RTL. Nicht nur war die Sendung quoten- und echomäßig erfolgreich, der dabei eingesetzte Test entsprach sogar ziemlich gut den wissenschaftlichen Standards - sieht man von den Situationsbedingungen ab, unter denen er durchgeführt wurde.

Dies allerdings ist bei dem, was unter "Tests" durch die Medien geistert, die Ausnahme und nicht die Regel. Intelligenz- oder allgemeiner psychologische Tests müssen bestimmte Kriterien erfüllen, und die setzen schon aus, wenn man nur das Kürzel "Psycho-Tests" liest. Deren Unterhaltungswert kann man sich gönnen, solange einem ihre Bedeutung als Spiel bewusst ist. Im anderen Fall bergen sie die Gefahr der Missinterpretation mit allen denkbaren Konsequenzen wie "selbsterfüllende Prophezeiung" oder Minderung des Selbstwertgefühls, mit denen man dann allein gelassen wird.

Psychologische Tests sollen grundsätzlich physikalischen Messgeräten vergleichbar sein; eine unlängst in Kraft getretene DIN-Norm spezifiziert die Standards, denen sie genügen müssen. Aber schon lange vor deren Inkrafttreten hat die Psychologie zum Konsumentenschutz bestimmte Gütekriterien festgelegt, die einen Test für die Praxis qualifizieren.

Wesentlich dafür ist die fachgemäße Verwendung. PsychologInnen mit Studienabschluss sind die (einklagbare) Garantie dafür, dass diese Tests "unter Beachtung der Entwicklung der Erkenntnisse der Wissenschaft" eingesetzt und interpretiert werden und dass "psychologische Gutachten nur nach genauer Erhebung der im Gutachten zu beurteilenden Tatsachen nach besten Wissen und Gewissen" ausgestellt werden (Zitate aus dem Psychologengesetz 1991). Das psychologische Gutachten wiederum ist laut deutschem Berufsverband "eine wissenschaftliche Leistung, die darin besteht, aufgrund wissenschaftlich anerkannter Methoden und Kriterien nach feststehenden Regeln der Gewinnung der Interpretation von Daten zu konkreten Fragestellungen Aussagen zu machen".

Daraus folgt etwas, was nicht unwichtig ist und oft übersehen wird: Die Anwendung eines psychologischen Tests ist nur dann zweckmäßig, wenn dies zur Beantwortung einer konkreten Fragestellung innerhalb eines bestimmten (Problem-)Zusammenhangs dient. Testungen um ihrer selbst willen, also ohne Fragestellung, besitzen eigentlich keinen brauchbaren Aussagewert.

"Wie hoch ist mein IQ?" - diese Frage steht im luftleeren Raum, die Antwort, eine Zahl, bietet keine konkrete Hilfe. Hingegen: "Ist Rita S. angesichts ihrer derzeitigen Schulprobleme im Gymnasium für eine Ausbildung an einer Handelsakademie geeignet?"; "Welche psychologischen Maßnahmen sind bei seiner Schulunlust und Prüfungsangst für Xaver R. angeraten?"; "Ist eine Leistungsunterforderung für die massiven Verhaltensauffälligkeiten von G.Z. in der Schule (mit-)verantwortlich?": Hier tragen einschlägige Intelligenztests zur Klärung bei.

Für ältere Personen, für Zwecke der Berufsberatung und der Personalauswahl, spielen IQ-Tests bereits eine geringere Rolle, dafür werden spezifische Fähigkeiten relevant wie mechanisch-technisches Verständnis, räumliches Vorstellungsvermögen, Lernfähigkeit, Daueraufmerksamkeit oder Reaktionsschnel-

ligkeit, aber vor allem Persönlichkeitseigenschaften, wie sie früher als "charakterliche" Eigenschaften bezeichnet wurden. Dafür stehen der Praxis eigene psychologische Tests bzw. psychologisch-diagnostische Verfahren zur Verfügung. In letzter Zeit gelang es, auch andere Verfahren als bloße Persönlichkeitsfragebogen zu entwickeln, die nicht, wie letztere, hauptsächlich "schöngefärbte" bis unwahre Informationen über die Testperson liefern. Im Zusammenhang mit Fragestellungen der klinischen (Neuro-)Psychologie sind erst recht spezifische psychologische Tests gefragt und verfügbar, wobei dabei u.a. solche zu den vielen möglichen Funktionsbeeinträchtigungen des Gedächtnisses interessieren.

Das Wort "Test" im Sinn von Prüfung der persönlichen Eigenheit ist 1890 vom amerikanischen Psychologen James McKeen Cattell eingeführt worden. In der Frühzeit standen Eignungen für den Militärdienst bzw. Auswahlkriterien für Einwanderer im Vordergrund vor allem der IQ-Test-Entwicklungen - dementsprechend war der Zugang häufig ein pragmatischer und erst in zweiter Linie von der psychologischen Wissensbildung getragener. Parallel zur Entwicklung immer genauerer Verfahren wurde dann die Frage diskutiert, aus wievielen Faktoren oder Dimensionen "Intellingenz" nun bestünde. Je nach Theorie - und der Konstruktion entsprechender Testbatterien - postulierten die Forscher von einem einzigen oder einigen wenigen bis zu über 100 solcher Faktoren. Die Diskussion entwirrte sich erst, als man die Theoriebildung stärker formalisierte: Aus der Vielzahl der Daten und der beobachteten "Treffsicherheit" konnte man die Brauchbarkeit von Tests zielgenauer ableiten.

Die angesprochenen Gütekriterien als Garant für "Produktqualität" lauten im Detail: Übereinstimmung zwischen Messabsicht und wahrlich gemessener Eigenschaft (was Psychologiestudenten als "Validität" kennen lernen), Messgenauigkeit ("Reliabilität", was auch heißt, dass die Messungen im Prinzip wiederholbar sein sollen, wenn auch nicht unbedingt mit den selben Fragen und Aufgaben), Objektivität, Gültigkeit der Eichung, Angemessenheit der Punktevergabe, Zumutbarkeit, Unverfälschbarkeit, Fairness.

Je länger man über der Konstruktion eines Tests sitzt bzw. je öfter man Tests verabreicht, um so mehr mögliche Fehlerquellen sieht man - was nur zeigt, wie schwierig ein wirklich brauchbarer Aufgaben- und Fragenkatalog ist. Beispiele, inwiefern diese Gütekriterien bei nicht sorgfältiger Konstruktion verletzt werden können: · Es wird statt der beabsichtigten Eigenschaft (etwa Merkfähigkeit) nur geprüft, ob die getestete Person die Anweisung, was sie im Test zu tun hat, überhaupt versteht. · Die wiederholte Testung ein und derselben Person führt zu ziemlich stark und unsystematisch variierenden Ergebnissen. · Das Testergebnis ist ein grundsätzlich anderes je nach dem, ob den Test eine Frau oder ein Mann vorgibt. · Die "Eichung", d.h. der Bezugspunkt, von dem aus das Testergebnis einer Person etwa als durchschnittlich, unter- oder überdurchschnittlich zu werten ist, gilt zwar für die amerikanische, nicht aber für die mitteleuropäische Bevölkerung. · Die Bewertung der Testleistungen sieht vor, dass Misserfolge bei bestimmten Aufgaben durch Erfolge bei bestimmten anderen Aufgaben kompensiert werden können, obwohl dies dem faktischen Alltagsverhalten widerspricht. · Es werden Fragen zum Intimbereich gestellt, deren Beantwortung der Person im gegebenen Zusammenhang nicht zumutbar ist. · Die Fragen etwa zu typischen Verhaltensweisen einer Person sind dergestalt, dass sie sozial erwünschte, unehrliche Antworten provozieren. · Die Anweisung, was im Test zu tun ist, bevorteilt Personen mit viel Testerfahrung.

Der Weg zum brauchbaren Messinstrument ist beschwerlich: So brauchte ein heute in der psychologischen Praxis routinemäßig eingesetzter Intelligenztest für Kinder und Jugendliche bis zur erstmaligen Veröffentlichung sechs Jahre. In dieser Zeit mussten die zu erfassenden "Intelligenzdimensionen" in einem wissenschaftlichen Fachbeirat erarbeitet werden; dann wurden dazu etwa 2000 Aufgaben entworfen und verbessert, erprobt und revidiert, schließlich auf die nötige Anzahl reduziert und an einer Stichprobe von fast 3000 Personen in Österreich, Deutschland und der Schweiz geeicht. Inklusive der statistischen Auswertungen und der schriftlichen Abfassung der Belege für die Erfüllung der Gütekriterien betrug der Aufwand mehr als 15 Mann/Frau-Jahre. Und nach 10 Jahren war eine Überarbeitung vor allem in bezug auf die Eichung notwendig, was seinerseits drei Jahre kostete.

Immerhin ist damit ein moderner Test gewonnen, der als Vorbild genannt werden kann (Adaptives Intelligenz Diagnostikum 2 (AID 2) von Kubinger & Wurst, erschienen 2000 bei Beltz, Göttingen). Er definiert "Intelligenz" pragmatisch: als das Bündel aller kognitiven Voraussetzungen, die notwendig sind, um Wissen zu erwerben und Handlungskompetenzen zu entwickeln - das bezieht sich auf alle Prozesse, durch die der Mensch Kenntnis von einem Objekt erhält oder sich seiner Umwelt bewusst wird, nämlich Wahrnehmung, Erkennen, Vorstellen, Urteilen, Gedächtnis, Lernen, Denken, Sprache.

Weil er verschiedene Fähigkeiten messen soll, besteht dieser Test aus einer Reihe von Untertests. Sie sollen als eine Art Breitband-Diagnostikum möglichst viele Aspekte intelligenten Verhaltens abklären sowie etwaige Höhen und Tiefen im "Intelligenzprofil" feststellen; im Sinne einer förderungsorientierten Diagnostik versprechen sie auch, unmittelbar diejenigen Maßnahmen anzuzeigen, welche zu Verbesserungen führen können. Untertests zeigen also gelegentlich "Teilleistungsschwächen", die zwar die Leistungsfähigkeit akut behindern, aber keinesfalls ein universelles kognitives Unvermögen bedeuten - etwa eine akustische Merkfähigkeitsstörung, eine Schwäche des Gedächtnisses, die auf akustisch dargebotene Informationen beschränkt ist, aber eben nicht auch bei visuell gebotenen Informationen gegeben ist.

Dieser Intelligenztest dokumentiert, dass in der psychologischen Praxis vom "IQ" als einem einzigen Maß, nämlich einem Durchschnittsmaß, zur Beschreibung vielfältiger Aspekte intelligenten Verhaltens bzw. vielfältiger Intelligenzpotentiale abgekehrt wird. Er liefert gar keinen "IQ" mehr, sondern leitet den Psychologen oder die Psychologin zu einer Interpretation des Intelligenzprofils an. Ein globaler Quotient hat hier ausgedient.

Übrigens ist der beschriebene Intelligenztest auch insofern wegweisend, als er erstmals die Aufgaben dem Leistungsniveau der Testperson anpasst, d.h. spätere Aufgaben danach auswählt, was sie bei vorausgehenden Aufgaben geleistet hat - so werden weder Aufgaben gestellt, die ihr viel zu leicht sind und ihre Leistungsmotivation reduzieren, noch solche, die sie nur frustrieren; und trotzdem sind die erbrachten Testleistungen zwischen verschiedenen Testpersonen vergleichbar.

Trotz sorgfältigster Konstruktionsregeln aber erfassen Tests immer nur eine Verhaltensstichprobe, so dass mit gewissen Fehlern zu rechnen ist. Sie können nicht annähernd so genau messen wie physikalische Messgeräte. Und sie versuchen, die Fähigkeiten einer Person zu beschreiben, also das Potenzial zu bestimmten Handlungen, sie können aber nicht mit Sicherheit bestimmte Handlungen (oder Leistungen) einer Person vorhersagen. Schließlich sind Eigenschaften nicht immer stabil; im Gegenteil, Ansätze wie kognitive Rehabilitationsprogramme oder Psychotherapien verweisen auf das Gegenteil: die Möglichkeit der Veränderung.

------------------------------------------

P.S. der Redaktion: In Heft 30/2002 des "New Yorker" schreibt der Biologe H. Allen Orr über den im Mai verstorbenen Anthropologen und Evolutionstheoretiker Stephen Jay Gould unter anderem: "Die I.Q.-Industrie war die andere Front in Goulds Krieg (gegen "schlampige Wissenschaft", Anm.d.Red.). Eine umfangreiche und scheinbar hochgestochene Literatur behauptet, der I.Q. messe etwas Wirkliches, das den Namen ,Intelligenz' hat, und dass diese große Unterschiede zwischen den Rassen aufweise. (...) In Arbeiten, die in ,The Mismeasure of Man' (Deutsch: ,Der falsch vermessene Mensch') gipfelten, machte Gould ganze Häuserblöcke dieser Literatur dem Erdboden gleich und entlarvte ihre erschreckende intellektuelle Schäbigkeit. Für das Buch bekam er den National Book Critics Circle Award, und ist schade, dass wir nicht mehr von seiner Art haben."

P.P.S.: Das Bielefelder geva-institut bietet über seine Website verschiedene Tests an, u.a. einen gemeinsam mit der "Zeit" veranstalteten Berufseignungstest. Die Tests sind gebührenpflichtig, über Aufbau und Qualitätskriterien kann man hier Näheres nachlesen. (DER STANDARD, Print-Ausgabe, 12./13. 10. 2002)

Wie hoch ist mein IQ? Um diese Frage intelligent zu beantworten, fragt man am besten zurück: Was soll eigentlich gemessen werden und wozu? Wie werden Tests konstruiert, wer sorgt dafür, dass etwas Brauchbares herauskommt? Und schon ist man ein wenig gescheiter.

Von Klaus D. Kubinger

Klaus Kubinger ist Professor an der Uni Wien mit dem Arbeitsbereich Psychologische Diagnostik. Redaktionelle Mitarbeit: Michael Freund.

Einführende Literatur: Kubinger, K.D. & Jäger, R.S., Stichwörter der Psychologischen Diagnostik. Weinheim: Psychologie Verlags Union, 2003, in Druck.

Information über Psychologische Dienste

"Ich plädiere für Allgemeinbildung"
Günther Jauch, Moderator des RTL-IQ-Tests, im Interview
  • Bild nicht mehr verfügbar
Share if you care.