Studie 1: Struktur mathematischer Schülerleistung

▼ 97 

Das Hauptziel der vorliegenden Arbeit ist, mathematische Schülerleistung als psychologisches Konstrukt zu spezifizieren, um sie aus dieser Perspektive besser zu verstehen. In dieser Arbeit wird dieses Ziel aus einer differenzialpsychologischen Sicht verfolgt: Die erste Forschungsfrage beschäftigt sich mit der Frage, welche kognitiven Fähigkeiten interindividuelle Unterschiede bei Aufgaben zur Messung mathematischer Schülerleistung erklären können. Die Antwort erfolgt in zwei Schritten. Diesem Vorgehen liegt die Annahme zu Grunde, dass kognitive Fähigkeitskonstrukte hierarchisch organisiert sind und eine globalere mathematische Fähigkeit spezifischeren mathematischen Fähigkeiten übergeordnet ist. In Abschnitt 7.1 werden zunächst diese spezifischen mathematischen Fähigkeiten untersucht. Abschnitt 7.2 befasst sich mit der nächsten Hierarchieebene und beleuchtet das Zusammenspiel von mathematischen Fähigkeiten und kognitiven (nicht genuin mathematischen) Fähigkeiten (vgl. Abschnitt 4.2).

Beide Unterkapitel sind in gleicher Weise aufgebaut. Zunächst wird die empirische Befundlage dargestellt. Auf dieser Grundlage und anhand der referierten Strukturmodelle (vgl. Abschnitt 4.2) werden Hypothesen abgeleitet, welche mathematischen Fähigkeiten unterschieden werden können bzw. welche weiteren (nicht genuin mathematischen) Fähigkeiten interindividuelle Unterschiede bei Aufgaben zur Messung mathematischer Schülerleistung erklären können. Die Hypothesen werden in Form von Strukturmodellen repräsentiert. Im anschließenden Methodenteil werden jeweils die verwendeten Schülerstichproben und Messinstrumente beschrieben und das analytische Vorgehen dargestellt. Im Anschluss werden die Ergebnisse der Modellprüfungen dokumentiert und kurz diskutiert. Abschließend folgt eine Gesamtdiskussion zur ersten Forschungsfrage.

7.1  Mathematische Fähigkeiten

7.1.1  Empirische Befundlage und zu prüfende Strukturmodelle

Welche mathematischen Fähigkeiten können die interindividuellen Unterschiede bei Aufgaben zur Messung mathematischer Schülerleistung erklären? Ein zentraler Befund bei der Diskussion der Strukturmodelle kognitiver Fähigkeiten ergab, dass im Gf-Gc-Modell (Horn & Noll, 1997) und im BIS-Modell (Jäger, Süß & Beauducel, 1997) eine operative Unterscheidung mathematischer Fähigkeiten vorgenommen wird. Vernon (1964) differenziert in seinem Modell hingegen die mathematische Fähigkeit inhaltlich nach mathematischen Stoffgebieten. Carroll (1963) nimmt im Rahmen der Drei-Stratum-Theorie eine integrative Position ein und unterscheidet sowohl operativ (Rechenfertigkeit vs. quantitatives Reasoning) als auch innerhalb von quantitativem Reasoning nochmals inhaltlich nach Stoffgebieten. Gemein ist allen vier Modellen, dass sie von einem hierarchischen Aufbau ausgehen. Operative oder stoffgebietsspezifische mathematische Teilfähigkeiten sind einer globaleren mathematischen Fähigkeit untergeordnet. Wie sieht die empirische Befundlage hierzu aus? Nachfolgend werden einige ausgewählte Ergebnisse aus Large-Scale-Studien vorgestellt.

▼ 98 

Empirische Befundlage. Gustafsson (1994) analysierte die Struktur mathematischer Schülerleistung bei einer Stichprobe schwedischer Fünftklässler. Dabei differenzierte er mathematische Schülerleistung operativ. Er unterschied mathematisches Problemlösen (Aufgaben erforderten das Lösen von Textaufgaben), numerisches Verständnis (Aufgaben erforderten das verständnisvolle Anwenden numerischer Begriffe) und arithmetische Gleichungen (Aufgaben erforderten das Lösen arithmetischer Gleichungen). Die drei Faktoren, die die operativen Facetten repräsentierten, interkorrelierten dabei hoch miteinander. Die Korrelationen lagen zwischen .74 und .90. Ein hierzu alternatives Nested-Faktormodell sah eine generelle Mathematikfähigkeit sowie davon unabhängige spezifische Fähigkeiten für numerisches Verständnis und arithmetische Gleichungen vor. Beide Modelle wiesen guten Modell-Fit auf, wobei das Nested-Faktormodell einen etwas besseren Fit hatte.

In der US-amerikanischen NELS: 88-Längsschnittstudie bearbeiteten Schüler in der 8. Klasse, in der 10. Klasse und in der 12. Klasse mathematische Schülerleistungstests. Bei der Zusammenstellung der Tests wurden sowohl mathematische Stoffgebiete als auch kognitive Operationen berücksichtigt. Im Rahmen von zwei Arbeiten reanalysierten Kupermintz und Kollegen (Kupermintz, Ennis, Hamilton, Talbert & Snow, 1995; Kupermintz & Snow, 1997) mit exploratorischen Itemfaktorenanalysen (Bock, Gibbons & Muraki, 1988) die Daten von NELS: 88. In allen drei Jahrgangsstufen konnten sie einen mathematischen Wissensfaktor extrahieren. Dieser repräsentierte nach Kupermintz und Kollegen vornehmlich die Fähigkeit zur Ausführung (einfach zu lösender) mathematischer Berechnungen sowie die Fähigkeit zur Anwendung mathematischer Begriffe und Algorithmen. Ein zweiter replizierbarer Faktor mathematischen Schlussfolgerns repräsentierte die Fähigkeit, komplexe mathematische Probleme zu lösen. In der 8. Klasse korrelierten die beiden Faktoren mit r = .72, in der 10. Klasse mit r = .75 und in der 12. Klasse mit r = .67.

Muthén, Khoo und Goff (1997) reanalysierten den Datensatz aus dem Jahr 1992 für die Jahrgangsstufen 8 und 12 aus der US-amerikanischen Studie National Assessment of Educational Pr o gress (NAEP). Muthén und Kollegen spezifizierten dabei zwei Faktormodelle mathematischer Schülerleistung. Ein Modell sah interkorrelierte Faktoren für fünf mathematische Stoffgebiete (Zahlen und Operationen, Messung, Algebra, Geometrie und Stochastik) vor. Die latenten Interkorrelationen der stoffgebietsspezifischen Fähigkeiten lagen dabei für Schüler in der 8. Klasse zwischen 0,84 und 0,99 und für Schüler in der 12. Klasse zwischen 0,95 und 1,0. Im zweiten Modell wurde ein Nested-Faktormodell spezifiziert, das eine generelle mathematische Fähigkeit und hiervon unabhängige stoffgebietsspezifische Fähigkeiten vorsah. Von Interesse war dabei der Varianzanteil der jeweiligen Fähigkeiten an der reliablen Gesamtvarianz. Die generelle mathematische Fähigkeit erklärte in beiden Jahrgangsstufen etwa 80 Prozent der reliablen Varianz auf. Die Varianzanteile der stoffgebietsspezifischen Fähigkeiten lagen zwischen 0 und 25 Prozent.

▼ 99 

Für die deutsche TIMSS-Schülerstichprobe der 7. Jahrgangsstufe berichtete Köller (1998) die Interkorrelationen zwischen sechs mathematischen Stoffgebieten. Die Interkorrelationen der raschskalierten Personenparameter lagen dabei zwischen .31 (Proportionalität mit Messen/Maßeinheiten) und .53 (Zahlen/Zahlenverständnis mit Algebra).14 Weiterhin konnte Köller auf Grundlage der Personenparameter einen Faktor extrahieren, der eine generelle mathematische Fähigkeit repräsentierte.

Im Rahmen von TIMSS wurden auch deutsche Schüler in der gymnasialen Oberstufe untersucht. Die Mathematikaufgaben des TIMSS-Tests zur „voruniversitären Mathematik“ wurden dabei sowohl inhaltlich nach mathematischen Stoffgebieten als auch operativ nach kognitiven Anforderungen klassifiziert (Klieme, 2000). Die latenten Interkorrelationen für die Stoffgebiete lagen zwischen .77 (Geometrie mit Analysis) und .81 (Zahlen, Gleichungen und Funktionen mit Analysis, Zahlen, Gleichungen und Funktionen mit Geometrie). Die latente Korrelation zwischen den operativen Fähigkeiten Anwenden/Problemlösen und Routineverfahren wie auch die Korrelation zwischen Anwenden/Problemlösen und komplexe Verfahren lag bei .82. Routineverfahren und komplexe Verfahren interkorrelierten mit .87.

Auf der Grundlage der Daten von 15-jährigen Schülern wurden bei PISA 2000 zwei Modelle mathematischer Fähigkeit geprüft, bei denen inhaltlich nach mathematischen Stoffgebieten und operativ nach den Arten mathematischen Arbeitens unterschieden wurde (Klieme, Neubrand u.a., 2001). In beiden Modellen lagen die berichteten latenten Interkorrelationen (mit Ausnahme der Interkorrelationen von Stochastik mit den anderen mathematischen Stoffgebieten) zwischen .88 und .96. Die Korrelationen von Stochastik mit Arithmetik, Algebra und Geometrie lagen zwischen .80 und .83.

▼ 100 

Die gleichen Modelle wurden auch auf Grundlage der Daten 15-jähriger Schüler aus der PISA-2003-Stichprobe spezifiziert (Blum u.a., 2004). Hier lagen die latenten Interkorrelationen bei einer Unterscheidung nach mathematischen Stoffgebieten zwischen .82 (Stochastik und Geometrie) und .91 (Arithmetik und Algebra). Bei der operativen Unterscheidung nach den Arten mathematischen Arbeitens lagen die Interkorrelationen für technische Aufgaben und rechnerisches Modellieren sowie für technische Aufgaben und begriffliches Modellieren bei .89. Rechnerisches Modellieren korrelierte mit begrifflichem Modellieren mit .95.

Zusammenfassung. Zusammenfassend kann festgehalten werden, dass die referierten Befunde nationen- und jahrgangsstufenübergreifend relativ einheitlich sind: Mathematikspezifische Fähigkeiten waren hoch miteinander interkorreliert, unabhängig davon, ob diese auf einer operativen oder inhaltlichen Klassifikation beruhten (Blum u.a., 2004; Gustafsson, 1994; Klieme, 2000; Klieme, Neubrand u.a., 2001; Kupermintz u.a., 1995; Kupermintz & Snow, 1997; Muthén u.a., 1997). Weiterhin wurde in einigen Studien ein Faktor extrahiert (Köller, 1998) oder a priori spezifiziert (Gustafsson, 1994; Muthén u.a., 1997), der eine globalere mathematische Fähigkeit repräsentierte. Interkorrelationen, wie auch der empirisch replizierte Befund eines Faktors, der eine globalere mathematische Fähigkeit repräsentierte, sprechen eindeutig dafür, dass mathematische Teilfähigkeiten hierarchisch organisiert sind.

Im Gegensatz hierzu ist die Befundlage zur Unterscheidung operativer oder stoffgebietsspezifischer mathematischer Fähigkeiten nicht eindeutig. Beide Unterscheidungen werden von den referierten Studien gestützt. Bemerkenswert ist, dass nur in drei der referierten Studien (Blum u.a., 2004; Klieme, 2000; Klieme, Neubrand u.a., 2001) Modelle für die inhaltliche und operative Differenzierung konfirmatorisch geprüft wurden. Leider wurde in keiner dieser Studien dokumentiert, welches der beiden Modelle den besseren Modell-Fit aufwies.

▼ 101 

Zudem wurden im Rahmen von PISA bei beiden Erhebungszyklen die Stichproben 15-jähriger Schüler zur Modellprüfung herangezogen. Dies ist nicht unproblematisch, da diese Schüler unterschiedliche Klassenstufen besuchten. Wenn bestimmte mathematische Inhalte erst in höheren Klassenstufen unterrichtet werden, hatten einige Schüler noch gar keine Möglichkeit, diese Inhalte zu lernen. Damit sind interindividuelle Unterschiede in den mathematischen Fähigkeiten möglicherweise konfundiert mit dem Besuch unterschiedlicher Klassenstufen. Die Frage, ob die Ergebnisse aus PISA auf eine jahrgangshomogene Population generalisiert werden können, ist damit noch offen.

Zusammengenommen können auf Grundlage der referierten Befunde sowie auf Basis der theoretischen Konzeptionen in den Strukturmodellen mathematischer Fähigkeit (vgl. Abschnitt 4.2) drei (teilweise rivalisierende) Annahmen abgeleitet werden:

▼ 102 

Zu prüfende Strukturmodelle. Zur empirischen Prüfung dieser Annahmen werden in der vorliegenden Arbeit drei Strukturmodelle mathematischer Schülerleistung a priori spezifiziert (Abb. 14):15 Interindividuelle Unterschiede bei Aufgaben zur Messung mathematischer Schülerleistung werden darin durch interindividuelle Unterschiede bei einer (oder mehreren) latenten mathematischen Fähigkeit(en) erklärt.

Modell 1: Generelle mathematische Fähigkeit. Dieses Modell sieht nur eine generelle mathematische Fähigkeit vor. Dies korrespondiert mit der Annahme des hierarchischen Aufbaus mathematischer Fähigkeit. Spezifische mathematische Fähigkeiten werden durch die Residualterme der manifesten Mathematikaufgaben repräsentiert, da auch in den Residualvarianzen „wahre“ reliable Varianzanteile enthalten sein können (z.B. Bollen, 1989; Spearman, 1927). Da die Residualterme aufgabenspezifische Fähigkeiten repräsentieren, sind sie wechselseitig unkorreliert.

Mit diesem einfaktoriellen Modell kann zusätzlich die Frage beantwortet werden, ob bei Differenzierung operativer oder mathematischer Teilfähigkeiten die empirischen Daten besser erklärt werden können als mit Modell 1. Der Vergleich mit Modell 1 stellt somit auch einen empirischen Bezugspunkt für die Modelle 2 und 3 dar.

▼ 103 

Modell 2: Operative mathematische Teilfähigkeiten/Arten mathematischen Arbeitens. In diesem Modell werden Mathematikaufgaben nach den Arten mathematischen Arbeitens klassifiziert. Somit werden drei operative Teilfähigkeiten mathematischer Schülerleistung unterschieden: technische Fertigkeiten (TF), die Fähigkeit zum rechnerischen Modellieren (RM) und die Fähigkeit zum begrifflichen Modellieren (BM). Die Annahme einer generellen mathematischen Fähigkeit wird durch die Interkorrelationen der drei operativen Teilfähigkeiten repräsentiert. Technische Fertigkeiten (in den PISA-Studien wurde hierfür der Begriff technische Aufgaben verwendet) werden durch Aufgaben gemessen, bei denen die mathematischen Ansätze vorgegeben sind und mittels bekannter Prozeduren bearbeitet werden können. Für rechnerische Modellierungsaufgaben müssen mathematische Lösungsansätze erstellt werden, die rechnerisch-prozedural aufzulösen sind. Aufgaben zur Messung von begrifflichem Modellieren sind dadurch charakterisiert, dass das Herstellen von begrifflichen Zusammenhängen zwischen mathematischen Konzepten lösungsrelevant ist (Blum u.a., 2004; Klieme, Neubrand u.a., 2001).

Abbildung 14: Mathematische Fähigkeiten

Warum wird diese operative Unterscheidung mathematischer Teilfähigkeiten gewählt? Die Umschreibung der Arten mathematischen Arbeitens korrespondiert eng mit der Konzeption mathematischer Fähigkeit in den Strukturmodellen (Gf-Gc-Modell, BIS-Modell, eingeschränkt auch die Drei-Stratum-Theorie von Carroll; vgl. Abschnitt 4.2), die mathematische Fähigkeit operativ differenzieren. So werden in allen Modellen problemorientierte und fertigkeitsorientierte Teilfähigkeiten unterschieden. Weiterhin wird sogar die Unterscheidung von genau diesen drei Arten mathematischen Arbeitens konzeptionell gestützt. So erfordern im Gf-Gc-Modell (Horn & Noll, 1997) Aufgaben zur Messung „mathematischen Wissens“ Verständnis und Anwendung mathematischer Konzepte (dies korrespondiert eng mit begrifflichem Modellieren) sowie die Anwendung mathematischer Fertigkeiten (dies korrespondiert eng mit technischen Fertigkeiten). Weiterhin wird mathematisches Wissen auch durch die Fähigkeit zum Lösen algebraischer Probleme gemessen (dies korrespondiert eng mit rechnerischem Modellieren).

▼ 104 

Modell 3: Mathematische Stoffgebiete. Alternativ zur Unterscheidung operativer mathematischer Fähigkeiten können jedoch auch stoffgebietsspezifische Fähigkeiten differenziert werden. In Modell 3 werden in Anlehnung an die PISA-2003-Klassifikation vier interkorrelierte Fähigkeiten für die Stoffgebiete Arithmetik, Algebra, Geometrie und Stochastik differenziert (siehe auch Jordan u.a., 2006). Die Interkorrelationen zwischen den stoffgebietsspezifischen Fähigkeiten repräsentieren den Einfluss einer generellen mathematischen Fähigkeit.

Für die Spezifikation dieses Modells sprechen neben der empirischen Befundlage auch konzeptionelle und theoretische Gründe. So geht Vernon (1964) davon aus, dass die globale mathematische Fähigkeit hierarchisch stoffgebietsspezifischen Fähigkeiten übergeordnet ist. Carroll (1993) nimmt an, dass für die Fähigkeit „quantitatives Reasoning“ die Anwendung mathematischer Konzepte aus der Arithmetik, Algebra und Geometrie lösungsrelevant ist. Mayer (1985; vgl. Abschnitt 2.4) differenziert mehrere Arten mathematischen Wissens: schematisches, strategisches und prozedurales Wissen. Insbesondere beim schematischen Wissen ist davon auszugehen, dass dieses vornehmlich stoffgebietsspezifisch ist. So repräsentiert zum Beispiel die Formel zur Berechnung der Oberfläche einer Pyramide spezifisches schematisches Wissen aus der Geometrie. Es ist also denkbar, dass interindividuelle Unterschiede im stoffgebietsspezifischen Wissen (unabhängig davon, ob man Wissen deklarativ vs. prozedural oder im Sinne von Mayer differenziert) interindividuelle Unterschiede bei Aufgaben zur Messung mathematischer Schülerleistung erklären können.

Die Modelle 2 und 3 fokussieren auf die mathematischen Teilfähigkeiten mathematischer Schülerleistung. Die Fragen, wie man die Interkorrelationen der mathematischen Teilfähigkeiten im Rahmen hierarchischer Modelle spezifizieren kann und welche (nicht genuin mathematischen) kognitiven Fähigkeiten mathematischer Schülerleistung zu Grunde liegen, sind Gegenstand des Abschnitts 7.2.

▼ 105 

Natürlich wäre zusätzlich zu den drei vorgestellten Modellen auch ein Modell interessant, bei dem simultan interindividuelle Unterschiede durch eine generelle mathematische Fähigkeit, operative Fähigkeiten und stoffgebietsspezifische Fähigkeiten (z.B. in Form eines Nested-Faktormodells) erklärt werden. Dieses Modell konnte aber mit den verfügbaren Daten nicht geprüft werden. Einerseits, weil die zwölf Zellen (4 Stoffgebiete x 3 Arten mathematischen Arbeitens) nicht mit genügend Mathematikaufgaben besetzt waren; andererseits, weil die Schüler nicht genügend Mathematikaufgaben der einzelnen Zellen bearbeiteten und somit die große Anzahl fehlender Werte keine stabile Schätzung der Modellparameter zuließ.

7.1.2 Methode

Zu den wichtigsten Ziele von PISA 2000 gehörte der Vergleich der mittleren Schülerleistungen unterschiedlicher Nationen und Bundesländer.

Stichpr o benziehung in PISA. Bevor die Stichprobe beschrieben wird, die den Analysen in dieser Arbeit zu Grunde liegt, wird ein kurzer Überblick über die Stichprobenziehung und technischen Grundlagen der PISA-Studie gegeben. Die Stichprobenziehung bei PISA 2000 erfolgte mehrstufig (siehe z.B. Baumert & Artelt, 2003). In Deutschland wurden hierzu zunächst die Schulen nach Schulform, Bundesland und Schulgröße stratifiziert. Aus diesen Strata wurden im nächsten Schritt Schulen zufällig gezogen. Anschließend wurden (mit Ausnahme beruflicher Schulen) durch zufällige Ziehung innerhalb einer Schule zwei sich überlappende Schülerstichproben gebildet. Zur ersten Stichprobe gehörten 15-jährige Schüler unabhängig von der besuchten Klassenstufe. In der zweiten Stichprobe befanden sich Neuntklässler. Insgesamt nahmen in Deutschland 45.899 Schüler aus 1.466 Schulen an PISA 2000 teil (Baumert & Artelt, 2003).

▼ 106 

Beschreibung der Analysestichprobe. Aus dem kompletten Datensatz von 45.899 Schülern wurde jedoch nur eine Teilstichprobe analysiert, die nachfolgend als Analysestichprobe bezeichnet wird. Die Analysestichprobe basiert auf der Anwendung von vier Auswahlkriterien.

  1. (a) Da der Erwerb mathematischen Wissens und mathematischer Fähigkeiten in hohem Maße von den schulischen Lerngelegenheiten abhängig ist, empfehlen Baumert, Stanat und Demmrich (2001, S. 34) eine Populationsdefinition nach Schulalter, wenn mathematische Kompetenzen untersucht werden. Daher wurden zur Beantwortung aller Forschungsfragen in dieser Arbeit nur die Daten von Schülern verwendet, die zum Testzeitpunkt die 9. Jahrgangsstufe besuchten. Das waren insgesamt 34.750 Schüler.
  2. (b) Die Daten für den internationalen und nationalen Vergleich wurden (meist) an zwei aufeinanderfolgenden Testtagen gesammelt. Allerdings nahmen nicht alle Schüler an beiden Testtagen teil. Durch das zweimalige Bearbeiten einer umfassenden Leistungstestbatterie kann einerseits die Testmotivation nachlassen, aber andererseits können auch leistungsförderliche Effekte aus der Testwiederholung resultieren (z.B. Kulik, Kulik & Bangert-Drowns, 1984). Um diese möglichen Varianzquellen konstant zu halten, wurden daher nur Schüler ausgewählt, die an beiden Testtagen teilgenommen hatten.
  3. (c) Im Mittelpunkt von PISA 2000 stand die Erfassung der Lesekompetenz der Schüler. Mathematik nahm eine untergeordnete Rolle ein. Aus dem ursprünglichen Datensatz der Neuntklässler wurden daher nur die Schüler ausgewählt, die eine größere Anzahl an Mathematikaufgaben bearbeitet hatten, damit reliable Indikatoren für die mathematische Schülerleistung gewonnen werden konnten. Einschlusskriterium war daher, dass für jeden Schüler für jeden der beiden Testtage mindestens drei Mathematikaufgaben vorliegen mussten, die als richtig oder falsch bewertet wurden. Damit wurde auch versucht, Schüler auszuwählen, die an beiden Testtagen ein Minimum an Mathematikaufgaben sachgemäß beantwortet hatten.
  4. (d) Weiterhin gingen die ausgewählten Schüler alle in Regelschulen. Sie bedurften also weder einer sonderpädagogischen Förderung, noch gingen sie auf die Berufsschule oder auf Waldorfschulen.

Trotz der angelegten Auswahlkriterien war die Analysestichprobe weitestgehend vergleichbar mit der ursprünglichen Stichprobe der Neuntklässer aus PISA 2000, wie eine „Ausfallanalyse“ hinsichtlich kognitiver, motivationaler und soziodemografischer Schülermerkmale zeigte (vgl. Anhang).

▼ 107 

Insgesamt bestand die Analysestichprobe aus 29.386 Neuntklässlern (49,6% männlich) aus 1.301 Schulen. Das mittlere Alter lag bei 15,8 Jahren (SD 0,7 Jahre). Von den 29.386 Schülern besuchten 15,3 Prozent Hauptschulen, 24,1 Prozent Realschulen, 30,3 Prozent Gymnasien, 12,7 Prozent Gesamtschulen und 17,7 Prozent Schulen mit mehreren Bildungsgängen. Die Alters- und Geschlechterverteilung auf die einzelnen Schulformen ist in Tabelle 3 eingetragen. Zu beachten ist hierbei, dass mehr Jungen an die Hauptschule gingen und seltener das Gymnasium besuchten. Weiterhin war das Durchschnittsalter der Hauptschüler höher als das von Schülern an den anderen Schulformen.

Tabelle 3:Schüleranzahl, Geschlechterverteilung und mittleres Alter in Abhängigkeit der
Schulform

Schulform

Schülerzahl

Anzahl an
Schulen

Anteil der Jungen
(%)

Mittleres Alter (SD)

Hauptschule

4.491

 

255

 

55,1

16,1 (0,7)

Realschule

7.077

 

303

 

50,2

15,9 (0,7)

Gymnasium

8.908

 

361

 

44,7

15,7 (0,6)

Gesamtschulen

3.719

 

162

 

51,3

15,8 (0,6)

Schulen mit mehreren Bildungsgängen

5.191

 

220

 

51,5

15,8 (0,6)

Insgesamt

29.386

 

1.301

 

49,6

15,8 (0,7)

Angaben basieren auf gültigen Werten der Schüler. Insgesamt lag für 60 Schüler keine Angabe zum Geschlecht vor und für 5 Schüler fehlte die Altersangabe.

 
 

Testdesign und mathematischer Schülerleistungstest. Um sowohl Aussagen über ein breites Kompetenzspektrum machen zu können als auch die Testdauer für jeden Schüler in zumutbaren Grenzen zu halten (Baumert u.a., 2001), wurden die PISA-Tests zur Erfassung der Schülerleistung in Lesen, Mathematik und in den Naturwissenschaften in Form eines Multi-Matrix-Sampling-Designs (Mislevy, Beaton, Kaplan & Sheehan, 1992) administriert. Die teilnehmenden Schüler erhielten jeweils an beiden Testtagen zufällig eines von neun Testheften zugewiesen (siehe für eine Übersicht über das Testdesign auch Anhang). Ein Teil der Aufgaben zur Erfassung der Schülerleistung in einem bestimmten Inhaltsgebiet kam in mehreren Testheften vor (Ankeritems), ein Teil der Aufgaben kam nur in einem bestimmten Testheft vor. Aufgrund der zufälligen Zuweisung sowie durch die verwendeten Ankeritems war es möglich, auf Basis von Item-Response-Modellen die Testleistungen aller Schüler auf einer gemeinsamen Metrik abzubilden.

▼ 108 

An beiden Testtagen bearbeiteten die Schüler ungefähr für zwei Stunden Leistungstests (Schülerleistungstests, Tests zum schlussfolgernden Denken, Tests zum Problemlösen). Für die Erhebung der mathematischen Schülerleistung standen am ersten Testtag maximal 30 Minuten, am zweiten Testtag 25 Minuten zur Verfügung (Baumert u.a., 2001). Insgesamt wurden bei PISA 2000 117 verschiedene Mathematikitems eingesetzt. Diese wurden von der Expertengruppe Mathematik des PISA-Konsortiums nach mathematischen Stoffgebieten und den Arten mathematischen Arbeitens klassifiziert (Tab. 4; siehe auch Klieme, Neubrand u.a., 2001).16 Von den 117 Mathematikaufgaben hatten 54 Items ein Multiple-Choice-Format, bei 63 Items konnte eine offene Antwort gegeben werden.

Durch das Multi-Matrix-Sampling-Design bearbeiteten nicht alle Schüler gleich viele Mathematikaufgaben. Aus Tabelle 5 ist beispielsweise ersichtlich, dass die Schüler im Mittel 30 Mathematikaufgaben bearbeiteten. Bei Anwendung des Einschlusskriteriums von mindestens drei (als richtig oder falsch) gewerteten Mathematikaufgaben pro Testtag (vgl. Auswahlkriterium c) hatten die Schüler in der Analysestichprobe minimal an beiden Testtagen zusammen 10 Aufgaben bearbeitet.

Tabelle 4:Kreuzklassifikation aller Aufgaben des Mathematiktests aus PISA 2000 nach
mathematischen Stoffgebieten und Arten mathematischen Arbeitens

 

Algebra

Arithmetik

Geometrie

Stochastik

Summe

    

Technische Aufgaben

9

 

3

 

6

 

5

 

23

 

Rechnerisches Modellieren

8

 

19

 

12

 

8

 

47

 

Begriffliches Modellieren

16

 

7

 

14

 

10

 

47

 

Summe

33

 

29

 

32

 

23

 

117

 
          
          

▼ 109 

Tabelle 5:Anzahl bearbeiteter Mathematikaufgaben pro Schüler

 

Gesamt

Operative Teilfähigkeiten

 

Mathematische Stoffgebiete

            
  

Technische Aufgaben

Rechnerische Aufgaben

Begriffliche Modellierungsaufgaben

 

Arithmetikaufgaben

Algebraaufgaben

Geometrieaufgaben

Stochastikaufgaben

       

M

30

6

13

11

 

9

9

7

5

       

SD

7,7

1,5

3,6

4,2

 

1,5

2,2

3,3

3,4

       
                 

Min.

10

1

 

5

 

2

  

0

 

2

 

1

 

1

 

P5

20

4

 

7

 

5

  

6

 

6

 

3

 

1

 

P25

22

5

 

9

 

7

  

8

 

7

 

4

 

2

 

P50

35

6

 

14

 

13

  

9

 

8

 

6

 

5

 

P75

37

7

 

16

 

15

  

10

 

11

 

10

 

8

 

P95

40

9

 

18

 

17

  

12

 

13

 

12

 

12

 

Max.

41

10

 

19

 

18

  

13

 

14

 

14

 

15

 

M = Mittelwert, SD = Standardabweichung, Min. = Minimum, P = Perzentil, Max. = Maximum. Die Anzahl bearbeiteter Mathematikaufgaben berechnete sich als die Anzahl richtig und falsch gewerteter Items (siehe Text).

                
                 
                 

Bei fast allen Mathematikaufgaben wurden nur zwei Scores unterschieden (0 für falsch, 1 für richtige Lösungen; dichotomes Scoringformat). Zehn Mathematikaufgaben hatten ein polytomes Scoringformat mit drei Abstufungen für die Richtigkeit der Lösung. Bei einer Aufgabe wurden vier Scores unterschieden. Fehlende Werte bei Mathematikaufgaben, die ein Schüler hätte bearbeiten können, wurden in dieser Arbeit als falsch gewertet (siehe auch Adams & Wu, 2002). Mathematikaufgaben, die ein Schüler nicht bearbeitet hat, weil ihm das jeweilige Testheft im Rahmen des Multi-Matrix-Sampling-Designs nicht vorgelegt wurde, wurden als fehlend (nicht administriert) codiert.

Statistische Analysen. Die Modelle 1 bis 3 wurden mit dem Programm ConQuest (Wu, Adams & Wilson, 1998) analysiert, das auch zur Skalierung der Schülerleistungstests in der PISA-Studie verwendet wurde. Bei Verwendung von ConQuest kann berücksichtigt werden, dass die Mathematikaufgaben im Rahmen eines Multi-Matrix-Sampling-Design administriert wurden und somit für alle Schüler zufällig fehlende Werte (missing completely at random, Rubin, 1987) bei einer Vielzahl von Mathematikaufgaben vorlagen. Mit ConQuest ist es auch möglich, gleichzeitig Itemschwierigkeiten und Schwellenparameter für dichotome und polytome Items zu bestimmen (Partial Credit M o del). Weiterhin ist es möglich Modellparameter für ein- und mehrdimensionale Rasch-Modelle zu schätzen. Wie beim herkömmlichen Modell der Faktorenanalyse wird bei multidimensionalen Rasch-Modellen davon ausgegangen, dass die latenten Variablen (die Faktoren) die Assoziationen zwischen den manifesten Variablen erklären können (Köller, Watermann & Baumert, 2001; siehe auch McDonald, 1997; Rost, 2004a). Die Verwendung eines uni- oder mehrdimensionalen Rasch-Modells wurde durch die bisherigen Modelltests der PISA-Mathematikaufgaben gestützt (Adams & Wu, 2002; Klieme, Neubrand u.a., 2001).

▼ 110 

Die Modellparameter (Itemschwierigkeiten, Schwellenparameter, latente Varianzen/Kovarianzen) wurden in dieser Arbeit für alle Mathematikaufgaben frei geschätzt und nicht auf die Parameter aus der PISA-2000-Studie fixiert. Zwei Gründe sprachen hierfür: Erstens wurden für die PISA-Studie keine Itemparameter für Modelle mit mathematischen Stoffgebieten oder Arten mathematischen Arbeitens dokumentiert, da bei PISA 2000 in erster Linie nur der globale Mathematikscore von Interesse war. Zweitens war es durch die freie Schätzung der Modellparameter möglich, eine bestmögliche Modellanpassung an die Daten dieser Stichprobe zu erreichen. Somit wurde eine verzerrte Schätzung der latenten Korrelationen bei Fixierung auf die ursprünglichen Modellparameter von vornherein ausgeschlossen. Ein möglicher Nachteil bei dem gewählten Vorgehen war, dass die geschätzten Personenparameter dieser Studie nicht auf der originalen PISA-Metrik waren. Da jedoch kein direkter Vergleich mit den ursprünglichen PISA-Ergebnissen angestrebt wurde, schien dieser Nachteil nicht gravierend. Alle Modelle wurden identifiziert, indem der Mittelwert der latenten Variablen auf Null fixiert wurde (Wu u.a., 1998).

Wie auch bei den Modellanalysen in PISA 2000 (Adams & Wu, 2002, S. 101) wurden alle Analysen in dieser Arbeit ungewichtet durchgeführt. Damit geht jeder Schüler mit gleichem Gewicht (und nicht mit dem Gewicht, mit dem er die Population der Neuntklässler aus dem Jahr 2000 repräsentierte) zur Schätzung der Modellparameter ein.

Zur Beurteilung des Modell-Fits wurden drei Kriterien herangezogen:

▼ 111 

  1. (a) Der globale Modell-Fit wurde anhand der χ2-Goodness-of-Fit-Werte beurteilt. Hierbei wird die Hypothese getestet, dass das spezifizierte Modell das „wahre“ Populationsmodell ist und die empirischen Daten „generiert“ hat. Jedoch ist vom χ2-Goodness-of-Fit-Test bekannt, dass bei Verwendung großer Stichproben selbst marginale Abweichungen des Modells von den empirischen Daten zu signifikanten Ergebnissen führen und damit alle Modelle verworfen werden (z.B. Hambleton, Swaminathan & Rogers, 1991). Ein Vorteil des χ2-Goodness-of-Fit-Tests ist jedoch, dass damit inferenzstatistische Aussagen über die Verbesserung des Modell-Fits bei zusätzlicher Spezifikation von Modellparametern möglich sind, wenn die zu vergleichenden Modelle ineinander genestet sind (Rost, 2004a). Hierzu wird die Differenz zwischen den χ2-Werten genesteter Modelle berechnet und auf Signifikanz beurteilt. Für alle inferenzstatistischen Tests wurde als Signifikanzniveau p < .05 festgesetzt.
  2. (b) Unter anderem auch, um der Sensitivität des χ2-Goodness-of-Fit-Tests zu begegnen, ist ein weiteres Modellbewertungskriterium, wie gut ein bestimmtes Modell die empirischen Daten im Vergleich zu rivalisierenden Modellen approximiert (McDonald, 1997, 2000). Hierzu können die Informationskriterien (für die Berechnung und Interpretation siehe Rost, 2004a) dieser Modelle verglichen werden. Damit ist es auch möglich, Modellvergleiche durchzuführen, wenn die Modelle nicht ineinander genestet sind. Zur Berechnung des Informationskriteriums Aka i kes Information Criterion (AIC) werden Sparsamkeit des Modells (indiziert durch die Anzahl der geschätzten Modellparameter) und absolute Abweichung des Modells von den empirischen Daten (gemessen durch die Likelihood L der Daten „–2 log (L)“, siehe Rost, 2004a) miteinander in Beziehung gesetzt: Wenn zum Beispiel zwei Modelle M1 und M2 die gleiche absolute Abweichung von den empirischen Daten aufweisen, in M1 jedoch mehr Modellparameter geschätzt wurden als in M2, dann wird aufgrund des AIC M2 favorisiert. Bei den Informationskriterien Bayes Information Criterion (BIC) und Co n sistend AIC (CAIC) wird noch zusätzlich die Anzahl der Modellparameter mit der (logarithmierten) Stichprobengröße17 gewichtet (Rost, 2004a). Gemein ist allen drei Kriterien, dass kleinere Werte einen besseren Modell-Fit unter Berücksichtigung der Sparsamkeit des Modells anzeigen. Man betrachtet dann das Modell als beste Approximation, das die kleinsten Werte bei den Informationskriterien aufweist (Rost, 2004a) und theoretisch interpretierbar ist (siehe McDonald, 1997).
  3. (c) Ein weiteres Maß der Approximationsgüte eines Modells ist der Infit (weighted mean-square error, Wu, 1997) eines Einzelitems. Der Infit ist ein Maß dafür, wie gut die Lösungswahrscheinlichkeit, die durch das Modell vorhergesagt wird, mit der tatsächlichen Lösungshäufigkeit bei einem bestimmten Item übereinstimmt. Bei Modellkonformität eines Items nimmt der Infit den Wert 1 an. Infit-Werte eines Items zwischen 0,8 und 1,2 werden als akzeptable Abweichungen zwischen Modell und den beobachteten Daten betrachtet (Adams & Wu, 2002; Wang, Chen & Cheng, 2004).

7.1.3 Ergebnisse

Die Ergebnisse für den globalen Modell-Fit sind in Tabelle 6 eingetragen. Die signifikanten χ2-Werte aller drei Modelle legten den Schluss nahe, dass keines der drei Modelle das „wahre“ Modell war. Allerdings war es interessant zu fragen, ob die Spezifikation zusätzlicher latenter Variablen zu einer signifikanten Verbesserung des Modell-Fits führte. Diese Frage konnte mittels der χ2-Differenzentests beantwortet werden, wenn die zu vergleichenden Modelle ineinander genestet waren. Die Modelle 2 und 3 waren nicht ineinander genestet, jedoch waren jeweils die Modelle 2 und 3 in Modell 1 genestet: Wenn beispielsweise die latenten Korrelationen zwischen den stoffgebietsspezifischen Faktoren auf „1,0“ fixiert werden und somit die Identität der Faktoren impliziert wird, entspricht dies einem einfaktoriellen Modell. Sowohl die χ2-Differenz (Δχ2) für den Vergleich von Modell 2 mit Modell 1 (Δχ2 = 977, df = 5) als auch für den Vergleich von Modell 3 mit Modell 1 (Δχ2 = 3.017, df = 9) waren signifikant. Beide Modelle passen also aus inferenzstatistischer Perspektive besser als Modell 1.

Diese Schlussfolgerung wurde auch durch die Analyse der Informationskriterien gestützt: Modell 2 als auch Modell 3 hatten bei allen drei Kriterien niedrigere Werte als Modell 1. Im Vergleich von Modell 2 mit Modell 3 indizierten alle drei Informationskriterien, Modell 3 mit den stoffgebietsspezifischen Fähigkeiten zu favorisieren.

▼ 112 

Tabelle 6:Globaler Modell-Fit: χ2-Goodness-of-Fit-Test und Informationskriterien

Modell

χ2

df

AIC

BIC

CAIC

Modell 1: Generelle mathematische Fähigkeit

961.785

132

962.049

962.374

962.506

Modell 2: Arten mathematischen Arbeitens

960.808

137

961.082

961.420

961.557

Modell 3: Mathematische Stoffgebiete

957.791

141

958.073

958.421

958.562

df = Freiheitsgrade. Die kleinsten Werte von AIC = Akaikes Information Criterion, BIC = Bayes Information Criterion und CAIC = Co n sistend AIC sind fett gedruckt.

 
 

Abbildung 15: Infit-Werte aller 117 Mathematikaufgaben aus dem PISA-2000-Test

Auch eine Inspektion der Infit-Werte legte nahe, Modell 3 gegenüber Modell 2 den Vorzug zu geben: In Modell 1 und in Modell 2 hatten insgesamt sechs Mathematikaufgaben und in Modell 3 drei Mathematikaufgaben Infit-Werte außerhalb des kritischen Ranges von 0,8 bis 1,2. Abbildung 15 veranschaulicht diesen Sachverhalt. Darin sind die Infit-Werte aller 117 Mathematikaufgaben für alle drei Modelle dargestellt.

▼ 113 

Alle globalen Modell-Fit-Indizes favorisierten Modell 3 und damit die Unterscheidung stoffgebietsspezifischer mathematischer Fähigkeiten. Allerdings deuteten die Infit-Werte von drei (Modell 3) bzw. von sechs Mathematikaufgaben (Modelle 1 und 2) außerhalb des kritischen Ranges auf eine mögliche Unvereinbarkeit dieser Aufgaben mit einem Raschmodell hin. Um die Robustheit der Schätzung der latenten Korrelationen gegenüber diesen Modellabweichungen zu überprüfen, wurden die latenten Korrelationen in den Modellen 2 und 3 jeweils mit und ohne die Mathematikaufgaben berechnet, die außerhalb des kritischen Infit-Ranges lagen.

Tabelle 7:Modell 2: Latente Korrelationen der operativen mathematischen Fähigkeiten/Arten
mathematischen Arbeitens

 

Technische
Fertigkeiten

Rechnerisches
Modellieren

Begriffliches
Modellieren

Technische Fertigkeiten

1,20

0,85

0,87

Rechnerisches Modellieren

0,85

1,07

0,94

Begriffliches Modellieren

0,87

0,94

1,09

Unterhalb der Diagonalen sind die latenten Interkorrelationen (in der Diagonalen die latenten Standardabweichungen) berechnet auf der Basis aller 117 Mathematikaufgaben eingetragen. Oberhalb der Diagonalen stehen die latenten Interkorrelationen nur für die 111 Mathematikaufgaben mit akzeptablen Infit-Werten.

 

Tabelle 8:Modell 3: Latente Korrelationen der stoffgebietsspezifischen Fähigkeiten

 

Arithmetik

Algebra

Geometrie

Stochastik

Arithmetik

1,30

0,89

0,86

0,80

Algebra

0,88

1,14

0,89

0,80

Geometrie

0,86

0,87

1,10

0,78

Stochastik

0,80

0,79

0,78

0,96

Unterhalb der Diagonalen sind die latenten Interkorrelationen (in der Diagonalen die latenten Standardabweichungen) berechnet auf der Basis aller 117 Mathematikaufgaben eingetragen. Oberhalb der Diagonalen stehen die latenten Interkorrelationen nur für die 114 Mathematikaufgaben mit akzeptablen Infit-Werten.

 
 

▼ 114 

In den Tabellen 7 und 8 sind die latenten Korrelationen der operativen mathematischen Fähigkeiten (Arten mathematischen Arbeitens) und der stoffgebietsspezifischen Fähigkeiten eingetragen. Die latenten Interkorrelationen in Modell 2 waren hoch, jedoch von 1,0 verschieden: Sie lagen zwischen 0,85 (technische Fertigkeiten und rechnerisches Modellieren) und 0,94 (rechnerisches Modellieren und begriffliches Modellieren). In Modell 3 resultierten ebenfalls hohe latente, aber von 1,0 verschiedene Korrelationen: Die Korrelationskoeffizienten lagen zwischen 0,78 (Stochastik und Geometrie) und 0,88 (Algebra und Arithmetik).

Die latenten Korrelationen waren auch robust gegenüber der zu Grunde liegenden Auswahl (in Bezug auf die Infit-Werte) an Mathematikaufgaben. So resultierten (auf zwei Nachkommastellen gerundet) keine Unterschiede für die Korrelationen in Modell 2. In Modell 3 betrug die größte Differenz zwischen korrespondierenden Korrelationen .02.

7.1.4 Diskussion

Die beiden wichtigsten Ergebnisse der vorangegangenen Analysen können folgendermaßen zusammenfasst werden.

▼ 115 

Wie sind die stoffgebietsspezifischen Fähigkeiten zu interpretieren? Sie repräsentieren sensu Carroll (1993; vgl. Abschnitt 2.2) die Fähigkeit zur Anwendung von stoffgebietsspezifischem Mathematikwissen. Welche Wissensarten (z.B. deklarativ, prozedural oder konzeptuell) hierbei den größten Anteil der interindividuellen Unterschiede erklären, konnte auf Grundlage des verwendeten Aufgabenmaterials jedoch nicht beantwortet werden. Fest steht aber, dass alle Aufgaben des PISA-Mathematiktests das Generieren einer Lösung erforderten und somit prozedurale Aspekte betonten. Keine einzige Aufgabe erforderte ausschließlich die Wiedergabe von deklarativem mathematischem Faktenwissen.

Angesichts der operativen Differenzierung mathematischer Fähigkeit in den Strukturmodellen kognitiver Fähigkeit (vgl. Abschnitt 4.2) kann spekuliert werden, ob diese Trennung nicht ein „Artefakt“ des verwendeten Aufgabenmaterials ist. In der Auflistung von operativ orientierten mathematischen Fähigkeiten (Carroll, 1993; Horn & Noll, 1997) fehlen meist Aufgaben aus den anderen mathematischen Stoffgebieten, insbesondere Geometrie und Stochastik. Betrachtet man beispielsweise die Markieraufgaben von Rechenfertigkeit, so stammen diese meist aus der Arithmetik. Auch viele Aufgaben zur Erfassung von quantitativem Reasoning können der Arithmetik zugeordnet werden. Analysiert man solche Aufgabenbatterien mit exploratorischen Faktoranalysen, führt dies zur Extraktion von Faktoren, die operative mathematische Fähigkeiten repräsentieren. Dies jedoch nur, weil die mathematischen Stoffgebiete nicht vollständig repräsentiert sind, oder um mit Anastasi zu sprechen: „What emerges from a factor analysis depends on what variables are included in the correlation matrix.“ (Anastasi, 1986, S. 196)

▼ 116 

Möglicherweise sind also die operativen mathematischen Teilfähigkeiten im Rahmen der Strukturforschung kognitiver Fähigkeiten nur deshalb gefunden worden, weil die anderen mathematischen Stoffgebiete nicht mit genügend Aufgaben repräsentiert waren. Da mit Blick auf Arithmetik in den Strukturmodellen kognitiver Fähigkeiten sowohl fertigkeits- als auch problemorientierte Fähigkeiten unterschieden werden, wirft dies die Frage auf, ob die stoffgebietsspezifischen Fähigkeiten nicht selbst wiederum hierarchisch den operativen Teilfähigkeiten übergeordnet sind.18 Möchte man also dem Ziel nahe kommen, eine Taxonomie kognitiver Fähigkeiten zu erstellen (Gustafsson & Undheim, 1996), ist bei Zusammenstellung der Testbatterien zu beachten, dass operative Gesichtspunkte mathematischer Fähigkeiten, aber auch die mathematischen Stoffgebiete ausgewogen berücksichtigt werden.

Unabhängig von diesen Spekulationen zeigten die hohen latenten Korrelationen in den Modellen 2 und 3, dass technische Fertigkeiten, rechnerisches Modellieren und begriffliches Modellieren, aber auch stoffgebietsspezifische Fähigkeiten nur eingeschränkt unterschieden werden konnten. Welche Erklärungen bieten sich hierfür an?

Ein Grund liegt in der Testkonstruktion des PISA-Mathematiktests verborgen. Der Test wurde so konstruiert, dass die ausgewählten Mathematikaufgaben bei 15-jährigen Jugendlichen mit einem eindimensionalen Raschmodell vereinbar sind. Mathematikaufgaben wurden dabei nach Arten mathematischen Arbeitens oder mathematischen Stoffgebieten klassifiziert, und es wurde darauf geachtet, dass diese in einem ausgewogenen Verhältnis in der Feldtestphase enthalten waren. Allerdings wurde nicht versucht, spezifische Varianzen der Arten mathematischen Arbeitens oder der mathematischen Stoffgebiete zu maximieren, um damit die latenten Interkorrelationen zu verringern.

▼ 117 

Allerdings sind die hohen latenten Interkorrelationen zwischen operativen oder inhaltlichen mathematischen Fähigkeiten kein genuines Charakteristikum des PISA-Mathematiktests. Auch in den anderen Large-Scale-Studien, die in Abschnitt 7.1.1 referiert wurden, waren die Korrelationen zwischen den operativen oder stoffgebietsspezifischen Fähigkeiten hoch. Insgesamt gesehen scheint es – zumindest im Rahmen von Large-Scale-Studien – ein prinzipielles Problem zu sein, verschiedene mathematische Prozesse oder Wissensarten psychometrisch getrennt zu erfassen (siehe hierzu auch Abschnitt 2.6 und 10.3.1).

Der Befund hoher latenter Interkorrelationen wird jedoch nicht nur durch Einflüsse der Testkonstruktion erklärt. Auch theoretische Überlegungen unterstützen dieses Ergebnis:

  1. (a) Mathematische Fähigkeiten entwickeln sich kumulativ: Höhere mathematische Fähigkeiten bauen auf weniger komplexen einfacheren mathematischen Fähigkeiten auf (Geary, 1995). Man kann mit den Autoren des PISA-Mathematiktests (Blum u.a., 2004; Klieme, Neubrand u.a., 2001) argumentieren, dass technische Fertigkeiten weniger komplexe Fähigkeiten repräsentieren und rechnerisches und begriffliches Modellieren höhere mathematische Fähigkeiten darstellen. Bei Schülern, bei denen stoffgebietsübergreifend technische Fertigkeiten weiter entwickelt sind, sollten somit stoffgebietsübergreifend komplexe Fähigkeiten (rechnerisches und begriffliches Modellieren) ebenfalls weiterentwickelt sein. Dies würde dazu führen, dass bei einer querschnittlichen Analyse mathematische Fähigkeiten hoch interkorrelieren, unabhängig davon, ob man mathematische Fähigkeiten operativ oder inhaltlich differenziert.
  2. (b) Ein weiterer Grund für die Interkorrelation mathematischer Fähigkeiten sind Unterschiede in den schulischen Lernangeboten. Wie in Abschnitt 5.3 und 5.4 herausgearbeitet wurde, unterscheiden sich Schulen und Schulklassen in der Qualität des Mathematikunterrichts. Wenn diese Unterschiede zeitlich stabil sind, können sie zur Faktorintegration spezifischer mathematischer Fähigkeiten führen (vgl. Abschnitt 4.3). Dies kann letztlich eine Differenzierung der mathematikspezifischen Fähigkeit M´ (siehe Abb. 16, Modell 7a) implizieren. Der Frage, wie Lernumgebungen und die Heterogenität der mathematikspezifischen Fähigkeit zusammenhängen, wird im Rahmen der zweiten Forschungsfrage nachgegangen und an dieser Stelle nicht weiter elaboriert.
  3. (c) Unabhängig von den Lernumgebungen spiegeln die latenten Interkorrelationen auch den Einfluss einer Fähigkeit wider, die zum Lösen aller Aufgaben des PISA-Mathematiktests notwendig ist: Rechnerische und begriffliche Modellierungsaufgaben erfordern das Lösen von Problemen. Die sehr hohen Korrelationen von technischen Fertigkeiten und den beiden Fähigkeiten zum mathematischen Modellieren können so interpretiert werden, dass technische Aufgaben für viele Schüler nicht nur den Abruf einer automatisierten Fertigkeit, sondern auch Problemlöseprozesse erforderten. Angesichts der vorliegenden Ergebnisse wäre daher ein alternativer Begriff für technische Aufgaben „Routineprobleme“ (siehe Mayer & Hegarty, 1996, S. 32). Dies zusammen mit der Tatsache, dass im PISA-Mathematiktest problemorientierte Aufgaben dominieren (von 117 Mathematikaufgaben erfassten nur 23 Aufgaben technische Fertigkeiten), legt den Schluss nahe, dass die Fähigkeit zum mathematischen Problemlösen am Zustandekommen dieser Interkorrelationen bedeutsam beteiligt ist. Vor dem Hintergrund der Ergebnisse aus Abschnitt 7.2 kann diese Interpretation in Abschnitt 7.3 noch weiter gestützt und theoretisch geschärft werden.
  4. (d) Es stellt sich aber auch die Frage, ob die latenten Interkorrelationen zwischen den mathematischen Fähigkeiten nur durch eine (generelle) mathematische Fähigkeit oder auch noch zusätzlich durch andere kognitive Fähigkeiten erklärt werden können. Diese Frage ist Gegenstand des nächsten Kapitels.

7.2 Mathematische Fähigkeiten und (nicht mathematische) kognitive
Fähigkeiten

7.2.1  Empirische Befundlage und zu prüfende Strukturmodelle

▼ 118 

Dieser Abschnitt befasst sich mit der Frage, welche kognitiven Fähigkeiten interindividuelle Unterschiede bei (aggregierten) Maßen mathematischer Schülerleistung erklären können. Nachfolgend werden hierzu einige Studien vorgestellt, die nicht mehr wie im Abschnitt 7.1 auf der Ebene von Einzelitems ansetzen, sondern auf der Ebene spezifischer mathematischer Fähigkeiten.

Treumanns Literaturübersicht. In einem Gutachten für die Bildungskommission des deutschen Bildungsrats zeigte Treumann (1974) in einer Literaturübersicht, welche kognitiven Fähigkeiten interindividuellen Unterschieden bei Maßen mathematischer Schülerleistung zu Grunde liegen. Er begutachtete hierfür fast alle relevanten Studien, die bis zum Jahr 1974 durchgeführt wurden. Von Interesse für die vorliegende Arbeit sind die Faktorladungen, die angeben, wie stark eine bestimmte kognitive Fähigkeit die Leistung bei Maßen mathematischer Schülerleistung beeinflusst. Treumann fasste die Ladungen über alle von ihm begutachteten Studien zusammen und teilte dabei die Studien danach auf, welche faktoranalytische Methode verwendet wurde. In Tabelle 9 sind die von Treumann berichteten Mediane der standardisierten Ladungen für Indikatoren stoffgebietsspezifischer Fähigkeiten eingetragen.

Das wichtigste Ergebnis aus Treumanns Literaturübersicht lässt erkennen (siehe Tab. 9), dass unabhängig von der verwendeten faktoranalytischen Technik interindividuelle Unterschiede bei stoffgebietsspezifischen Fähigkeiten durch eine globalere mathematische Fähigkeit (M oder QR19) und durch die allgemeine kognitive Fähigkeit erklärt werden konnten. Die Erklärungskraft (gemessen an den Faktorladungen) von Rechenfertigkeit, verbaler Fähigkeit, visuell-räumlicher Fähigkeit war deutlich geringer und schien zudem von der gewählten faktoranalytischen Technik abzuhängen.

▼ 119 

Letzteres war insbesondere auch der Fall bei quantitativem Reasoning. Hierfür dokumentierte Treumann bei der hierarchischen Gruppenfaktorentechnik keine Faktorladungen. Ein möglicher Grund ist, dass der Varianzanteil von schlussfolgerndem Denken bereits von allgemeiner kognitiver Fähigkeit repräsentiert wurde (vgl. Gustafsson, 1984). Somit würde der Faktor M, der bei der hierarchischen Gruppenfaktorentechnik mathematisches Wissen repräsentierte, den mathematikspezifischen Varianzanteil von quantitativem Reasoning (wie es in einem Modell mit interkorrelierten Gruppenfaktoren konzeptionalisiert wird) darstellen.

Tabelle 9:Mediane der Faktorladungen von Schülerleistungstests in 30 Studien
(nach Treumann, 1974, S. 351, Tab. IV)

Stoffgebiet

N

V

V-R

M

QR

g

     

Interkorrelierte Gruppenfakt o ren

           

Arithmetik

.29

 

.26

.11

 

.46

.48

 

.56a

   

Algebra

.15

 

.21

.23

 

.67

.38

 

.62a

   

Geometrie

.05

 

.08

.18

 

.50

.37

 

.55a

   
             

Hierarchische Gruppenfakt o rentechnik

           

Arithmetik

.11

 

.00

–.01

 

.24

x

 

.73

   

Algebra

.05

 

.09

.02

 

.19

x

 

.76

   

Geometrie

–.10

 

.12

.18

 

.20

x

 

.68

   

N = Rechenfertigkeit, V = verbale Fähigkeit, V-R = visuell-räumliche Fähigkeit, M = mathematisches Wissen, QR = quantitatives Reasoning, g = allgemeine kognitive Fähigkeit, x = keine Angabe in Treumann (1974).

a Von Treumann geschätzte Faktorladung (Wurzel aus der Summe der quadrierten Faktorladungen über alle als Reasoning identifizierte Faktoren hinweg).

            
             
             

Aktuellere Einzelstudien. Treumann fasste die bis 1974 publizierten Befunde bündig zusammen. Es stellt sich damit die Frage, ob seine Ergebnisse auch in jüngerer Zeit repliziert werden konnten. Nachfolgend werden aktuellere Einzelstudien aufgelistet, die Maße mathematischer Schülerleistung oder mathematische Fähigkeiten und (nicht genuin mathematische) Fähigkeiten analysierten.

▼ 120 

Gustafsson konnte mittels konfirmatorischer Faktorenanalysen unter Verwendung von hierarchischen Faktormodellen (Gustafsson, 1984) und Nested-Faktormodellen (Gustafsson & Balke, 1993; Gustafsson, 1994) zeigen, dass mehrere kognitive Fähigkeiten interindividuelle Unterschiede bei Maßen mathematischer Schülerleistung erklären können. Studienübergreifend erklärte die fluide Fähigkeit, die Gustafsson als äquivalent zu allgemeiner kognitiver Fähigkeit betrachtet, den größten Anteil der Varianz bei den Maßen mathematischer Schülerleistung. Zusätzlich erklärten in allen drei Studien eine generelle mathematische Fähigkeit und in den Studien aus den Jahren 1984 und 1993 eine verbale Fähigkeit (markiert durch Schülerleistungstests für Schwedisch und Englisch) kleinere Varianzanteile.

Im Rahmen von zwei Studienanalysierte McGrew den Zusammenhang von quantitativem Reasoning und kognitiven Fähigkeiten. Bei 15- bis 16-jährigen amerikanischen Jugendlichen gehörten zu den bedeutsamsten Prädiktoren mathematischer Fähigkeiten die Informationsverarbeitungsgeschwindigkeit, eine verbale Fähigkeit und die fluide Fähigkeit (McGrew & Hessler, 1995, S. 27). In einer weiteren Studie analysierte McGrew eine altersgruppenübergreifende, amerikanische Stichprobe. Das Maß für quantitatives Reasoning wurde bei einer konfirmatorischen Faktorenanalyse bedeutsam von einer generellen mathematischen Fähigkeit, einer verbalen Fähigkeit und einer visuell-räumlichen Fähigkeit beeinflusst (McGrew, 1997, S. 178).

Bickley, Keith und Wolfle (1995) untersuchten mittels konfirmatorischer Faktorenanalysen den Zusammenhang von Maßen mathematischer Fähigkeiten mit weiteren Maßen kognitiver Fähigkeiten. Drei Ergebnisse sind für die vorliegende Arbeit von Bedeutung. Erstens konnte eine generelle mathematische Fähigkeit von anderen Fähigkeiten faktoriell unterschieden werden. Zweitens hatte diese generelle mathematische Fähigkeit sehr hohe Ladungen auf einem Faktor, der die allgemeine kognitive Fähigkeit repräsentierte. Drittens konnte dieser Befund altersgruppenübergreifend für die Altersspanne von 6 bis 79 Jahre repliziert werden.

▼ 121 

Bei der deutschen PISA-2000-Stichprobe der 15-jährige Jugendlicher erklärten die fluide Fähigkeit, eine generelle verbale Fähigkeit (gemessen durch den PISA-Lesetest) bedeutsam interindividuelle Unterschiede in der mathematischen Schülerleistung (Klieme, Neubrand u.a., 2001). Dieser Befund konnte bei PISA 2003 für die Stichprobe der 15-jährigen Jugendlichen repliziert werden (Leutner, Klieme, Meyer & Wirth, 2004).

Mittels konfirmatorischer Faktorenanalysen analysierten Brunner und Süß (2005) Daten von deutschsprachigen Personen, die den Berliner Intelligenzstrukturtest bearbeitet hatten. Das wichtigste Ergebnis für die vorliegende Arbeit war, dass interindividuelle Unterschiede bei mathematischen Aufgaben durch die jeweilige operative Facette, eine generelle mathematische Fähigkeit (dies entspricht im BIS-Modell numerischer Fähigkeit) und vor allem durch die allgemeine kognitive Fähigkeit erklärt wurden.

Zusammenfassung. Zusammenfassend kann man festhalten, dass Treumanns Literaturübersicht und die referierten Befunde aktuellerer Studien ein recht eindeutiges Bild ergeben, welche kognitiven Fähigkeiten interindividuelle Unterschiede bei Maßen mathematischer Schülerleistung erklären können. Studienübergreifend waren das die allgemeine kognitive Fähigkeit und eine generelle mathematische Fähigkeit. In einigen weiteren Arbeiten hatte auch die verbale Fähigkeit einen positiven Einfluss auf die Leistung. Die Zusammenhänge zwischen spezifischen mathematischen Fähigkeitsmaßen und Informationsverarbeitungsgeschwindigkeit (McGrew & Hessler, 1995), Visualisierung (McGrew, 1997) und operativen Fähigkeiten (Brunner & Süß, 2005) waren studienübergreifend nicht replizierbar. Gründe hierfür sind im komplexen Zusammenspiel der verwendeten Aufgabenbatterie, der statistischen Analysemethode (Regression, interkorrelierte Gruppenfaktoren, hierarchische Gruppenfaktorentechnik oder Nested-Faktormodelle) und der Stichprobenzusammensetzung zu suchen.

▼ 122 

Diese Schlussfolgerung deckt sich auch gut mit den Ableitungen, die anhand der Strukturmodelle kognitiver Fähigkeiten gemacht wurden: Vernon (1964), Carroll (1993) und Jäger und Kollegen (1997) gehen von einer globaleren mathematischen Fähigkeit aus und nehmen an, dass die Leistungen bei Maßen kognitiver Fähigkeiten multipel bedingt sind. Folgt man dieser Annahme, erklären die allgemeine kognitive Fähigkeit und eine globalere mathematische Fähigkeit zusätzlich zu spezifischen mathematischen Fähigkeiten interindividuelle Unterschiede bei Maßen mathematischer Schülerleistung. Weiterhin geht Vernon davon aus, dass interindividuelle Unterschiede bei verbaler und numerischer Fähigkeit durch einen verbal-numerischen Bildungsfaktor erklärt werden können. Dies korrespondiert gut mit dem empirischen Befund, dass Maße mathematischer Schülerleistung zusätzlich durch eine verbale Fähigkeit beeinflusst werden (siehe auch Carroll, 1996).

Im Unterschied zu den obigen drei Autoren gibt es nach Horn und Noll (1997) keine allgemeine kognitive Fähigkeit. Die (reliable) Varianz bei Maßen mathematischer Schülerleistung setzt sich somit nur aus einer generellen mathematischen Fähigkeit und spezifischen mathematischen Fähigkeiten zusammen.

Zu prüfende Strukturmodelle. Nachfolgend wird der Frage nachgegangen, welche kognitiven Fähigkeiten interindividuelle Unterschiede bei Maßen mathematischer Schülerleistung erklären können. Vor dem referierten empirischen und theoretischen Hintergrund (vgl. Abschnitt 4.2) wird dabei besonderes Augenmerk auf eine globalere mathematische Fähigkeit, die allgemeine kognitive Fähigkeit und die verbale Fähigkeit gelegt. Da in der psychometrisch-orientierten Forschung kognitive Fähigkeiten in der Regel faktoranalytisch abgeleitet werden, wird diese Frage mit Hilfe von Strukturmodellen untersucht (siehe Abb. 16). Auf Grundlage der Ergebnisse zu den spezifischen mathematischen Fähigkeiten in Abschnitt 7.1, werden nachfolgend nur stoffgebietsspezifische Fähigkeiten betrachtet. Die Modelle werden dabei fortlaufend durchnummeriert, um die Modelle aus Abschnitt 7.1 klar von den Modellen aus Abschnitt 7.2 zu trennen.

▼ 123 

Modell 4: Allgemeine kognitive Fähigkeit. Mit Spearman kann man davon ausgehen, dass die allgemeine kognitive Fähigkeit (g) und stoffgebietsspezifische Fähigkeiten die interindividuellen Unterschiede bei den Maßen mathematischer Schülerleistung erklären können. Stoffgebietsspezifische Fähigkeiten werden durch die Residualterme der manifesten Variablen dargestellt. Mit diesem einfaktoriellen Modell wird die Annahme getestet, dass die Interkorrelationen zwischen den stoffgebietsspezifischen Fähigkeiten nur durch die allgemeine kognitive Fähigkeit erklärt werden.

Gleichzeitig stellt der Vergleich zu Modell 4 einen empirischen Bezugspunkt dafür dar, ob die nachfolgend dargestellten Modelle die empirischen Relationen zwischen den Maßen mathematischer Schülerleistung besser als Modell 4 approximieren können.

Modell 5a: Standardmodell (fluide und kristalline Fähigkeiten). Modell 5a folgt den Annahmen der Theorie fluider und kristalliner Fähigkeiten (Horn & Noll, 1997). Nicht zuletzt aufgrund der Popularität des Gf-Gc-Modells (Gustafsson & Undheim, 1996) ist meines Wissens Modell 5a das am weitesten gebräuchliche Modell im pädagogisch-psychologischen Forschungskontext (siehe z.B. die Untersuchungen von Renkl & Stern, 1994; Weinert & Helmke, 1995a, 1998) und wird daher nachfolgend als Standardmodell bezeichnet.

▼ 124 

Die fluide Fähigkeit (Gf), eine generelle verbale Fähigkeit (V) und eine generelle mathematische Fähigkeit (M) werden konzeptuell voneinander unterschieden. Die manifesten Maße mathematischer Schülerleistung werden in diesem Modell als eine Funktion stoffgebietsspezifischer Fähigkeiten (repräsentiert durch die Residualterme) und der generellen mathematischen Fähigkeit betrachtet.

Wie sind die latenten Korrelationen zu interpretieren? Horn und Noll sagen explizit, dass die latenten Korrelationen nicht den Einfluss der allgemeinen kognitiven Fähigkeit widerspiegeln (1997, S. 68), machen aber keine Aussage, wie die latenten Interkorrelationen sonst interpretiert werden können. Eine mögliche Deutung kann durch die Investmenttheorie (vgl. Abschnitt 5.2; Cattell, 1987) gegeben werden. Die latenten Korrelationen repräsentieren somit die Varianzanteile, die auf die investierte fluide Fähigkeit zurückgehen.

Abbildung 16: Modelle zur Überprüfung des Zusammenhangs von mathematischen Fähigkeiten und (nicht genuin mathematischen) kognitiven Fähigkeiten

▼ 125 

Modell 5b: Standardmodell-verbal. Dieses Modell ist konzeptuell identisch mit dem Standardmodell. Einziger Unterschied ist, dass interindividuelle Unterschiede bei den Maßen mathematischer Schülerleistung zusätzlich durch eine generelle verbale Fähigkeit erklärt werden.

Modell 6a: „Higher-Order“-Faktorenmodell. Wie im Standardmodell werden die manifesten Maße mathematischer Schülerleistung in diesem Modell als eine Funktion stoffgebietsspezifischer Fähigkeiten und der generellen mathematischen Fähigkeit (M) betrachtet. Im Gegensatz zum Standardmodell wird im Higher-Order-Modell explizit angenommen, dass die allgemeine kognitive Fähigkeit (gHO) die latenten Interkorrelationen zwischen den kognitiven Fähigkeiten erklärt. Die Spezifikation allgemeiner kognitiver Fähigkeit als Faktor 2. Ordnung impliziert, dass die allgemeine kognitive Fähigkeit die stoffgebietsspezifischen Maße zusätzlich zu einer spezifischen mathematischen Fähigkeit (repräsentiert durch den Residualterm „M´HO“) indirekt beeinflusst.

Gustafsson (1984) betrachtet die allgemeine kognitive Fähigkeit und die fluide Fähigkeit als äquivalent. Diese Annahme kann mit Modell 6a getestet werden, indem die Residualvarianz der fluiden Fähigkeit auf Null gesetzt wird. Dies impliziert, dass die Kovariation von den Maßen fluider Fähigkeit nur durch die allgemeine kognitive Fähigkeit erklärt wird.

▼ 126 

Modell 6b: „Higher-Order“-Faktorenmodell-verbal. Als einziger Unterschied zu Modell 6a, wird in diesem Modell angenommen, dass die stoffgebietsspezifischen Fähigkeiten auch von einer generellen verbalen Fähigkeit (V) abhängig sind.

Modell 7a: Nested-Faktormodell. Dieses Modell folgt dem Strukturmodell von Vernon, dem BIS-Modell, Carrolls Drei-Stratum-Theorie und den späteren Arbeiten von Gustafsson (1994; Gustafsson & Balke, 1993). Interindividuelle Unterschiede bei Maßen mathematischer Schülerleistung werden (multipel bedingt) direkt durch drei Fähigkeiten erklärt: allgemeine kognitive Fähigkeit (g), eine mathematikspezifische Fähigkeit (M´) und stoffgebietsspezifische Fähigkeiten (Residualterme).

Modell 7b: Nested-Faktormodell-verbal. Alle Annahmen in diesem Modell sind analog zum Modell 7a. Einziger Unterschied ist, dass in diesem Modell geprüft wird, ob interindividuelle Unterschiede bei den Maßen mathematischer Schülerleistung zusätzlich durch eine spezifische verbale Fähigkeit (V´) erklärt werden können.

▼ 127 

Abschließend sollen die Gemeinsamkeit aller Modelle und die zentralen Unterschiede zusammenfasst werden. Gemein ist allen Modellen die Annahme, dass stoffgebietsspezifische Fähigkeiten einen Teil der interindividuellen Unterschiede in den Modellen erklären. Ein wesentlicher Unterschied besteht darin, ob darüber hinaus nur die allgemeine kognitive Fähigkeit (Modell 4), nur eine generelle mathematische Fähigkeit (Modell 5a) oder die allgemeine kognitive Fähigkeit und eine spezifische mathematische Fähigkeit (M´HO in Modell 6a, bzw. M´ in Modell 7a) die Maße mathematischer Schülerleistung beeinflussen. Ein weiterer Unterschied ist, ob eine verbale Fähigkeit darüber hinaus keinen Einfluss (Modell 4, Modell 5a, Modell 6a, Modell 7a) oder bedeutsamen Einfluss (Modell 5b, Modell 6b, Modell 7b) auf die interindividuellen Unterschiede bei Maßen mathematischer Schülerleistung hat.

7.2.2 Methode

Stichprobe. Als Stichprobe wurde die Analysestichprobe mit Daten von 29.386 Schülern verwendet (für die Beschreibung siehe Abschnitt 7.1.2).

Messinstrumente und manifeste Variablen. Da Modell 3 den besten Modell-Fit hatte, wurden als manifeste Maße mathematischer Schülerleistung Indikatoren stoffgebietsspezifischer Fähigkeiten (Ari = Arithmetik, Alg = Algebra, Geo = Geometrie, Sto = Stochastik) verwendet. Für jeden Schüler wurden als beste Punktschätzer (vgl. Rost, 2004a, S. 316) seiner stoffgebietsspezifischen Fähigkeit jeweils Weighted-Likelihood-Estimates (WLE, Warm, 1989) mit dem Programm ConQuest (Wu u.a., 1998) geschätzt.20 Die WLE-Scores wurden nachträglich für unterschiedliche Schwierigkeiten der Stoffgebiete korrigiert, die in Abhängigkeit der bearbeiteten internationalen Testhefte entstanden (siehe Anhang; vgl. Adams & Wu, 2002).

▼ 128 

Als Indikatoren für die fluide Fähigkeit werden im Allgemeinen Aufgaben betrachtet, die schlussfolgerndes Denken erfordern (Carroll, 1993; Horn & Noll, 1997). In der vorliegenden Arbeit wurden Figurenanalogien (FA) und Wortanalogien (WA) aus dem Kognitiven Fähi g keitstest (KFT, Heller & Perleth, 2000) verwendet, die bei PISA 2000 eingesetzt wurden. Bei Items aus der Skala Figure n analogien werden Figurenanordnungen vorgegeben. Dabei verhält sich die erste Figur zu einer zweiten wie die dritte zu einer von fünf Alternativen. Die richtige Alternative ist herauszufinden. Items aus der Skala Wortanalogien erfordern eine Ergänzung von Wortanalogien der Art A : B = C : ?. Aus fünf Alternativen ist die korrekte Antwort auszuwählen. Bei beiden Aufgaben wurden richtige Antworten mit 1, falsche Antworten und fehlende Antworten mit 0 gewertet. Ausgehend von den Antworten bei den Einzelitems wurden mit dem Programm Parscale (Muraki & Bock, 1996) jeweils für beide Aufgaben WLE-Scores auf Grundlage eines zwei-parametrischen Birnbaummodells geschätzt21 , 22 (siehe Tab. 10 für einen Vergleich der Modell-Fit-Indizes zwischen einem eindimensionalen Raschmodell und einem eindimensionalen, zweiparametrischen Birnbaummodell). Diese WLE-Scores gingen als manifeste Variablen in die Analysen ein.

Maße der verbalen Fähigkeiten waren in Anlehnung an die bei Horn und Noll (1997) und Carroll (1993) aufgelisteten Markiervariablen die Subskalen der Leseleistung, die im Rahmen von PISA unterschieden wurden. Aufgaben zur Messung der Informationsentnahme (Info) erfordern das Ermitteln von Informationen aus kontinuierlichen oder diskontinuierlichen (das sind z.B. Tabellen) Texten. Bei Aufgaben zum textbezogenen Interpretieren (Int) müssen Schüler Schlussfolgerungen aus einem oder mehreren Teilen des Textes ziehen und Textteile dahingehend beurteilen, ob sie mit bestimmten Interpretationen vereinbar sind. Wenn Aufgaben die Fähigkeit zum Reflektieren und Bewerten (Ref) messen, erfordert dies von den Schülern, den Aufgabentext mit eigenen Erfahrungen und ihrem Vorwissen und Ideen in Beziehung zu setzen (Artelt, Stanat, Schneider & Schiefele, 2001). Als manifeste Variablen der drei Subskalen wurden die bei PISA 2000 geschätzten WLE-Scores verwendet, die sich auf der PISA-Metrik befanden (M = 500, SD = 100). Um deren Varianzen an die Varianzen der Indikatoren für stoffgebietsspezifische Fähigkeiten und für die fluide Fähigkeit anzugleichen, wurden die WLE-Scores der Leseleistung wieder auf die Logit-Metrik retransformiert. Damit wurde vorgebeugt, dass zu große Varianzunterschiede zu verzerrten Schätzungen der Modellparameter führten.

Tabelle 10:Fluide Fähigkeit: Vergleich der Modll-Fit-Indizes für ein eindimensionales Rasch-Modell (1p) und ein eindimensionales, zweiparametrisches Birnbaum-Modell (2p)

Skala (Parametrisierung)

χ2

df

AIC

BIC

CAIC

    

Figurenanalogien (1p)

17.460

 

637

 

17.512

 

17.576

 

17.602

 

Figurenanalogien (2p)

12.210

 

1.522

 

12.310

 

12.434

 

12.484

 

Wortanalogien (1p)

8.821

 

354

 

8.861

 

8.910

 

8.930

 

Wortanalogien (2p)

7.603

 

1.184

 

7.679

 

7.773

 

7.811

 

df = Freiheitsgrade. Die kleinsten Werte von AIC = Aikaikes Information Criterion, BIC = Bayes Information Criterion und CAIC = Consistend AIC sind fett gedruckt. Für ein dreiparametrisches Birnbaummodell wurden keine Fit-Indizes ausgegeben, was die Robustheit der geschätzten Modellparameter infrage stellte. Daher wurde es nicht weiter berücksichtigt.

          
           
           

▼ 129 

Reliabilitätsberechnung für die WLE-Scores. Reliabilitäten für die WLE-Scores wurden geschätzt, indem Maße der „wahren“ Varianz durch die gesamte Varianz der WLE-Scores geteilt wurden. Bei den stoffgebietsspezifischen Fähigkeiten wurde die „wahre“ Varianz direkt als die Varianz der stoffgebietsspezifischen Faktoren in Modell 3 bestimmt (siehe Tab. 8). Zur Schätzung der Reliabilität wurde diese latente Varianz durch die Varianz der WLE-Scores geteilt (siehe Rost, 2004a, Formel 6, S. 381). Diese Methode war bei den anderen WLE-Scores nicht anwendbar, da keine Schätzungen der latenten Varianzen für die verwendete Analysestichprobe vorlagen (in Parscale wurde diese für die fluiden Fähigkeitsmaße nicht angegeben; die latenten Varianzen der Lesesubskalen von PISA 2000 lagen zwar vor, bezogen sich aber nicht auf die Analysestichprobe dieser Arbeit). Daher wurde die „wahre“ Varianz indirekt bestimmt (Rost, 2004a, Formel 5, S. 380). Als „wahre“ Varianz wurde die Differenz zwischen der Gesamtvarianz der WLE-Scores und der mittleren Varianz der Standardschätzfehler der WLE-Scores (als Maß der Fehlervarianz) berechnet. Teilt man diese Differenz durch die Gesamtvarianz der WLE-Scores, erhält man eine Schätzung der Reliabilität.

Konfirmatorische Faktorenanalyse. Alle Modelle wurden mit konfirmatorischen Faktorenanalysen analysiert. Zur Identifikation wurde bei allen Faktoren die unstandardisierte Ladung eines Indikators auf 1,0 fixiert. Zusätzlich wurde in den Modellen 5a/b und 6a/b zur Identifikation von Gf jeweils die Ladung von FA auf Gf und von WA auf Gf auf 1,0 fixiert. Alle anderen Modellparameter wurden frei mit dem Programm Mplus 3.01 (Muthén & Muthén, 1998–2004b) geschätzt. Bei der Schätzung der Modellparameter und der korrespondierenden Standardfehler mussten zwei Besonderheiten der Daten beachtet werden:

▼ 130 

Aus diesen beiden Gründen wurden die individuellen Schülerrohdaten mit dem Modul „complex“ und dem Schätzalgorithmus MLR analysiert, da damit gleichzeitig die genestete Datenstruktur und die fehlenden Werte berücksichtigt wurden.23

Zur Evaluation des Modell-Fits wurden mehrere Kriterien herangezogen:

(a) Beim χ2-Goodness-of-Fit-Test wird die Null-Hypothese getestet, dass das spezifizierte Modell das „wahre“ Populationsmodell ist. Ein nicht signifikanter χ2-Test bedeutet, dass – unter der Annahme, dass das spezifizierte Modell das „wahre“ Populationsmodell ist – die beobachtete Varianz-Kovarianzmatrix nicht signifikant von der modell-implizierten Varianz-Kovarianzmatrix abweicht. Jedoch ist – wie auch bei den IRT-Analysen – einer der größten Nachteile dieses Tests, dass selbst marginale Abweichungen zwischen empirischer und modell-implizierter Varianz-Kovarianzmatrix signifikant werden, wenn große Stichproben verwendet werden (z.B. Kaplan, 1990).

▼ 131 

(b) Aufgrund der Sensitivität des χ2-Goodness-of-Fit-Tests wurden zusätzlich deskriptive Maße zur Evaluierung der Modelle herangezogen. Der Comparative Fit Index (CFI, Bentler, 1990) vergleicht den inkrementellen Zuwachs an Modell-Fit im Vergleich zu einem Modell, in dem die Kovarianzen der manifesten Variablen auf Null fixiert und nur die Varianzen frei geschätzt werden. Ein Vertreter absoluter Fit-Indizes ist der Standardized Root Mean Square of R e s i duals (SRMR) Index (z.B. Bentler, 1995). Der SRMR gibt an, wie genau das spezifizierte Modell die Daten reproduziert. Ein Problem bei alleiniger Verwendung des SRMR ist, dass das komplexeste Modell immer den besten Fit haben wird, wenn die Anzahl frei geschätzter Parameter und damit die Modellkomplexität zunimmt. Die Sparsamkeit eines Modells (pa r s i mony) wird somit beim SRMR nicht berücksichtigt. Ein Fit-Index, der den absoluten Modell-Fit, die parsimony des Modells und die Stichprobengröße gleichzeitig berücksichtigt, ist der Root Mean Square Error of Approximation (RMSEA, z.B. Steiger, 1990).

Für die deskriptiven Fit-Indizes werden eine Reihe von so genannten Cut-off-Werten vorgeschlagen, wann ein Modell als gute Approximation zu betrachten ist. Hu und Bentler (1998) geben als Cut-off-Werte für den CFI .95, für den SRMR .08 und für den RMSEA .06 an. In einer vielzitierten Arbeit bewerten Browne und Cudeck (1993, S. 144) Werte des RMSEA kleiner .05 als „a close fit of the model in relation to the degrees of freedom“, Werte kleiner .08 als „reasonable error of approx i mation“ und sagen, dass sie kein Modell verwenden würden „with a RMSEA greater than 0.1“.

(c) Die alleinige Verwendung von Cut-off-Werten wird aber auch sehr kritisch betrachtet (z.B. Marsh, Hau & Wen, 2004). McDonald (1999) und Rindskopf (2000) empfehlen zur Evaluierung von Modellen, rivalisierende Modelle miteinander zu vergleichen. McDonald schlägt vor, das Modell zu favorisieren, das den besten Modell-Fit aufweist und gleichzeitig aus theoretischer Sicht interpretiert werden kann. Ein Indikator der theoretischen Interpretierbarkeit ist die Substanz der Faktorladungen, die nach Carroll (1993) und McDonald (1999) mit Werten der standardisierten Faktorladungen größer oder gleich .30 gegeben ist.

▼ 132 

Bei allen inferenzstatistischen Analysen wurde ein Signifikanzniveau von p < .05 gesetzt.

7.2.3 Ergebnisse

Deskriptive Statistiken. Die deskriptiven Statistiken der verwendeten manifesten Variablen sind in Tabelle 11 eingetragen. Daraus ist ersichtlich, dass alle manifesten Variablen positiv interkorrelierten, was die Annahme einer allgemeinen kognitiven Fähigkeit stützte. Interessant war dabei, dass der WLE-Score für Stochastik deutlich geringer mit den anderen kognitiven Fähigkeitsmaßen korrelierte. Dies ist kein Reliabilitätsproblem des Stochastik-WLE-Scores, da deren Reliabilität in ähnlicher Höhe lag wie die von Geometrie oder Arithmetik.24 Die geringeren Interkorrelationen sprachen vielmehr dafür, dass – im Vergleich zu den anderen Stoffgebieten – die Leistung bei Stochastikaufgaben deutlich stärker von der Fähigkeit zur Anwendung stochastikspezifischen Wissens war.

Tabelle 11:Deskriptive Statistiken der WLE-Scores zur Messung kognitiver Fähigkeiten

 

1.

2.

3.

4.

5.

6.

7.

8.

9.

1. Algebra

0,84

        

2. Arithmetik

0,58

0,71

       

3. Geometrie

0,52

0,53

0,61

      

4. Stochastik

0,40

0,39

0,33

0,66

     

5. Figurenanalogien

0,51

0,48

0,47

0,32

0,91

    

6. Wortanalogien

0,52

0,48

0,44

0,33

0,55

0,85

   

7. Information

0,52

0,50

0,44

0,37

0,48

0,53

0,57

  

8. Interpretation

0,54

0,52

0,45

0,39

0,50

0,57

0,71

0,73

 

9. Reflektion

0,47

0,44

0,38

0,32

0,43

0,49

0,59

0,67

0,53

          

M

0,09

0,01

–0,03

0,24

0,03

0,04

–0,08

–0,06

–0,17

SD

1,41

1,36

1,41

1,18

1,08

1,27

1,09

1,05

1,20

          

#fehlend

3

3

3

3

146

146

1

8

8

Korrelationen, Mittelwerte (M) und Standardabweichungen (SD) beziehen sich auf die mit dem FIML-Schätzer ermittelten Stichprobenkennwerte. In der Diagonale sind die Reliabilitäten der WLE-Scores eingetragen (für ihre Berechnung siehe Abschnitt 7.2.2). #fehlend = absolute Anzahl fehlender Werte.

         

▼ 133 

Evaluation des Modell-Fits. Bei der Schätzung der Parameter für die Modelle 5b und 6b gab es Schwierigkeiten. Bei Modell 5b wurden keine Standardfehler berechnet, bei Modell 6b war die standardisierte Faktorladung von Gf auf g größer 1,0. Diese Schätzprobleme sind nicht identifikationsbedingt, sondern wahrscheinlich modellinhärent: Die Modelle 5b und 6b sind Modellen zur Analyse von Multitrait-Multimethod-Matrizen sehr ähnlich. Insbesondere bei Letzteren sind Probleme bei der Parameterschätzung hinlänglich bekannt (z.B. Marsh, 1989). Da keine gültigen Parameterschätzungen für die Modelle 5b und 6b vorlagen, wurden diese beiden Modelle nicht weiter betrachtet.

Inspizierte man die globalen Modell-Fit-Indizes (Tab. 12) der anderen Modelle, so war bei allen Modellen der χ2-Wert signifikant. Jedoch konnten, gemessen an den Cut-off-Werten, die Modelle 5a, 6a, 7a und 7b als gute bis sehr gute Approximationen der empirischen Daten betrachtet werden. Verglich man die deskriptiven Fit-Indizes (CFI, RMSEA, SRMR) dieser Modelle miteinander, so deuteten alle Indizes darauf hin, dass Modell 7b die empirischen Relationen zwischen den manifesten Variablen am besten erklären konnte.

Wie die großen Unterschiede zwischen den χ2-Werten bereits augenscheinlich nahe legten, waren die Differenzen (Δχ2), die entsprechend der Korrekturformel aus dem technischen Anhang von Mplus (Muthén & Muthén, 1998–2004a, S. 22) berechnet wurden, zwischen den genesteten Modellen 4 und 5a (Δχ2 = 19.597, df = 2), Modellen 4 und 6a (Δχ2 = 19.597, df = 2) sowie Modellen 4 und 7a (Δχ2 = 8.941, df = 7) statistisch signifikant. Dies bedeutete, dass die Modelle 5a, 6a und 7a die empirischen Relationen zwischen den manifesten Variablen besser erklären konnten als Modell 4, in dem nur ein Faktor für allgemeine kognitive Fähigkeit spezifiziert wurde. Auch die χ2-Differenz der Modelle 7a und 7b (Δχ2 = 232, df = 4) war statistisch signifikant. Dies stützte zunächst die Hypothese, dass eine spezifische verbale Fähigkeit zusätzlich zur allgemeinen kognitiven Fähigkeit und der mathematikspezifischen Fähigkeit interindividuelle Unterschiede bei Maßen mathematischer Schülerleistung erklären konnte.

▼ 134 

Tabelle 12:Globale Modell-Fit-Indizes

Modell

χ2

df

SF

CFI

RMSEA

SRMR

Modell 4: Allgemeine kognitive Fähigkeit

8.406

 

27

0,989

0,93

0,10

0,04

Modell 5a: Standardmodell (Gf-Gc-Modell)

1.370

 

25

1,040

0,99

0,04

0,03

Modell 6a: Higher-Order-Faktorenmodell

1.370

 

25

1,040

0,99

0,04

0,03

Modell 7a: Nested-Faktormodell

672

 

20

1,037

1,00

0,03

0,01

Modell 7b: Nested-Faktormodell-verbal

430

 

16

1,015

1,00

0,03

0,01

SF = Skalierungsfaktor, CFI = Comparative Fit Index, RMSEA = Root Mean Square Error of Approximation, SRMR = Standardized Root Mean Square of Residuals. Die Modelle 5b und 6b waren empirisch unteridentifiziert. Daher sind für diese Modelle keine Fitstatistiken eingetragen.

 
 

Modellparameter. Zog man allerdings noch als weiteres Kriterium der Modellevaluation die Substanz der standardisierten Faktorladungen hinzu (Tab. 13), dann wurde offensichtlich, dass die Ladungen der stoffgebietsspezifischen WLE-Scores auf V´ in Modell 7b nicht substanziell waren. Drei der vier Faktorladungen waren zwar statistisch signifikant von Null verschieden, doch die Werte lagen nur zwischen .02 und .13. Der bessere Fit von Modell 7b ist also in erster Linie das Ergebnis einer Überparametrisierung (overfitting). Aus diesem Grund wurde Modell 7b nicht weiter betrachtet.

Tabelle 13:Standardisierte Faktorladungen (λ) der Modelle 4 bis 7b

 

Modell 4

Modell 5a

 

Modell 6a

 

Modell 7a

 

Modell 7b

                
 

λg

λM

λGf

λV

 

λM

λGf

λV

 

λ

λg

λ

 

λ

λg

λ

        

Alg

 

.72a

 

.77a

     

.77a

     

.25a

 

.72a

    

.29a

 

.70a

 

.08

Ari

 

.69

 

.75

     

.75

     

.39

 

.68

    

.41

 

.65

 

.09

Geo

 

.62

 

.68

     

.68

     

.30

 

.62

    

.31

 

.61

 

.02

Sto

 

.49

 

.52

     

.52

     

.17

 

.48

    

.23

 

.44

 

.13

FA

 

.66

  

.76a

     

.76a

      

.70

      

.72

  

WA

 

.71

  

.70a

     

.70a

      

.74

      

.76

  

Info

 

.78

    

.81a

     

.81a

    

.71

 

.35a

    

.69

 

.40a

Int

 

.82

    

.88

     

.88

    

.75

 

.49

    

.73

 

.52

Ref

 

.71

    

.75

     

.75

    

.64

 

.39

    

.62

 

.42

Alle Faktorladungen waren (mit Ausnahme von Geo auf V´ in Modell 7b) statistisch signifikant von Null verschieden. Alg = Algebra, Ari = Arithmetik, Geo = Geometrie, Sto = Stochastik, FA = Figurenanalogien, WA = Wortanalogien, Info = Informationen ermitteln, Int = textbezogenes Interpretieren, Ref = Reflektieren und Bewerten.

a Die unstandardisierte Fakorladung dieser manifesten Variable wurde im jeweiligen Modell auf 1,0 fixiert.

                           
                            
                            

▼ 135 

In den Modellen 4, 5a und 6a waren alle Faktorladungen substanziell und signifikant von Null verschieden. Bei Modell 7a, das gemessen an den deskriptiven Modell-Fit-Indizes den zweitbesten Fit hatte, waren alle Ladungen auf g und V´ größer .30. Die mathematikspezifische Fähigkeit hatte einen schwachen bis moderaten Einfluss auf die stoffgebietsspezifischen Fähigkeiten: Zwei von vier Ladungen auf M´ waren gleich oder größer .30, die beiden anderen waren zumindest statistisch signifikant von Null verschieden. Modell 7a wurde daher sowohl aufgrund des globalen Modell-Fits als auch der besseren theoretischen Interpretierbarkeit favorisiert.

In Modell 5a betrug die latente Korrelation zwischen Gf und M .89, zwischen Gf und V .83 sowie zwischen M und V .80. Diese hohen Korrelationen stützten die Annahme, dass die Interkorrelationen auf die investierte fluide Fähigkeit attribuiert werden können. Allerdings stützten diese Korrelationen auch die Interpretation, dass sie den Einfluss der allgemeinen kognitiven Fähigkeit repräsentierten.

Letzteres wurde auch direkt durch die hohen standardisierten Faktorladungen in Modell 6a bestätigt: Gf lud auf g mit .96, M lud auf g mit .92 und V lud auf g mit .86.

▼ 136 

Um zu prüfen, ob Gf und g in Modell 6a äquivalent waren, wurde die Residualvarianz von Gf auf Null fixiert. Der korrespondierende χ2-Differenzentest war signifikant (Δχ2 = 95, Δdf = 1). Das heißt, aus inferenzstatistischer Sicht konnte die Äquivalenzannahme nicht gestützt werden. Betrachtete man aber die Höhe der standardisierten Faktorladung von .96 und den Varianzanteil von 92,3 Prozent, den g an Gf erklärte, so konnte man zumindest aus deskriptiver Sicht nahezu von der Identität von Gf und g sprechen.

Varianzanteile. Abschließend wurde noch der Frage nachgegangen, wie stark der Einfluss der kognitiven Fähigkeiten auf die stoffgebietsspezifischen WLE-Scores war. Die Faktorladungen in Modell 7a konnten so interpretiert werden, dass interindividuelle Unterschiede in der allgemeinen kognitiven Fähigkeit, in der mathematikspezifischen Fähigkeit und in den stoffgebietsspezifischen Fähigkeiten die interindividuellen Unterschiede bei den stoffgebietsspezifischen WLE-Scores erklärten. Der Einfluss von g und M´ auf die Leistung bei den stoffgebietsspezifischen WLE-Scores konnte direkt über die Faktorladungen ermittelt werden: Je höher die Faktorladung, umso stärker war der Einfluss.

Welchen Anteil der Varianz erklärten die stoffgebietsspezifischen Fähigkeiten? Dieser Varianzanteil konnte nicht direkt anhand der Modellparameter berechnet werden, da sich die Residualvarianzen der manifesten WLE-Scores zusammensetzten aus stoffgebietsspezifischen Anteilen und durch Anteile, die durch Schätzfehler bedingt waren (vgl. Bollen, 1989). Jedoch konnte der Einfluss stoffgebietsspezifischer Fähigkeiten indirekt über die Reliabilität der WLE-Scores abg e schätzt werden. Zog man vom reliablen Varianzanteil eines WLE-Scores den Anteil ab, der durch die allgemeine kognitive Fähigkeit und die mathematikspezifische Fähigkeit erklärt wurde (dies ist die Summe der beiden quadrierten Faktorladungen, z.B. Bollen, 1989), erhielt man eine Schätzung des Varianzanteils, der auf die jeweilige stoffgebietsspezifische Fähigkeit zurückging.

▼ 137 

In Abbildung 17 sind die prozentualen Varianzanteile der jeweiligen Fähigkeit an der Gesamtvarianz eines WLE-Scores dargestellt. Es ist ersichtlich, dass die erklärten Varianzanteile stark abhängig von den jeweiligen Stoffgebieten waren. So erklärte die allgemeine kognitive Fähigkeit (hellgrauer Balken) 51 Prozent der Varianz des Algebra-WLE-Scores, aber nur 23 Prozent der Varianz des Stochastik-WLE-Scores. Die mathematikspezifische Fähigkeit (weißer Balken) erklärte 15 Prozent der Varianz des Arithmetik-WLE-Scores, aber nur 3 Prozent des Stochastik-WLE-Scores. Hingegen erklärten stoffgebietsspezifische Fähigkeiten (dunkelgrauer Balken) 40 Prozent des Stochastik-WLE-Scores, aber nur 10 Prozent des Arithmetik-WLE-Scores.

Abbildung 17: Modell 7a – Varianzzusammensetzung der stoffgebietsspezifischen WLE-Scores

7.2.4 Diskussion

Die beiden wichtigsten Ergebnisse der vorangegangenen Analysen können wie folgt zusammengefasst werden:

▼ 138 

Nachfolgend werden zunächst Überlegungen zum ersten Ergebnis dargestellt, das aus theoretischer Sicht in mehrerlei Hinsicht interessant ist. Das zweite Ergebnis wird im Rahmen der Gesamtdiskussion in Abschnitt 7.3 behandelt.

Im Rahmen der Modelltests wurden aus Strukturtheorien kognitiver Fähigkeiten Annahmen abgeleitet und überprüft, welche kognitiven Fähigkeiten interindividuelle Unterschiede bei Maßen mathematischer Schülerleistung erklären können. Die alleinige Annahme einer allgemeinen kognitiven Fähigkeit (Modell 4) konnte empirisch nicht bestätigt werden. Das Standardmodell (Modell 5a), das die Theorie fluider und kristalliner Fähigkeiten (Horn & Noll, 1997) abbildete, wies eine gute Modellpassung auf. Es erklärte aber die empirischen Relationen – auch unter Berücksichtigung der Sparsamkeit des Modells (z.B. gemessen am RMSEA) – schlechter als das rivalisierende Nested-Faktormodell (Modell 7a). Dies sprach gegen die Annahme in der Theorie fluider und kristalliner Fähigkeiten, dass keine allgemeine kognitive Fähigkeit existiert (siehe auch Carroll, 2003).

▼ 139 

Im Nested-Faktormodell wurde die multiple Bedingtheit der stoffgebietsspezifischen Maße mathematischer Schülerleistung aus den Annahmen des Modells von Vernon (1964), dem BIS-Modell (Jäger u.a., 1997) und Carrolls (1993) Drei-Stratum-Theorie abgeleitet. Die empirischen Ergebnisse stützten diese Modellannahmen: Interindividuelle Unterschiede in stoffgebietsspezifischen Maßen mathematischer Schülerleistung werden durch das Zusammenwirken von drei verschiedenen kognitiven Fähigkeiten (allgemeine kognitive Fähigkeit, mathematikspezifische Fähigkeit und stoffgebietsspezifische Fähigkeiten) erklärt. Somit werden auch zwei der Erklärungen für die latenten Interkorrelationen zwischen den stoffgebietsspezifischen Fähigkeiten empirisch gestützt (vgl. Abschnitt 7.1.4). Die latenten Korrelationen spiegeln sowohl den Einfluss der allgemeinen kognitiven Fähigkeit als auch den Einfluss der mathematikspezifischen Fähigkeit wider.

Weiterhin unterfüttern die Ergebnisse (vgl. Modell 6a) die Annahme von Gustafsson (1984), dass die fluide Fähigkeit und die allgemeine kognitive Fähigkeit weitestgehend äquivalent sind. Die allgemeine kognitive Fähigkeit (gHO) erklärte nahezu vollständig die Varianz der fluiden Fähigkeit. Hinsichtlich der 7,7 Prozent nicht erklärter Varianz ist auch zu bedenken, dass im Gegensatz zu der Studie von Gustafsson in PISA 2000 (unter anderem aufgrund der begrenzten Testzeit von 30 Minuten) nur zwei Markieraufgaben der fluiden Fähigkeit verwendet wurden und somit das Konstrukt „fluide Fähigkeit“ nicht optimal repräsentiert war (z.B. wurde keine Markieraufgabe zum schlussfolgernden Denken mit numerischem Inhalt in PISA eingesetzt).

Diese Überlegung ist umso wichtiger vor dem Hintergrund der oftmaligen Trennung der Konstrukte und Theorien aus der Strukturforschung kognitiver Fähigkeit einerseits und Schülerleistungen andererseits (vgl. Abschnitt 4.1). Nur wenn alle Konstrukte bestmöglich operationalisiert werden, kann man ein unverzerrtes Bild über deren Zusammenwirken zeichnen: Das Nested-Faktormodell (Modell 7a) ist hierfür ein gutes Beispiel und belegt die Tragfähigkeit eines „coordinate measurement of developed cognitive abilities along with subject-matter achievement“, wie es Messick (1984, S. 226) anregte. Mithilfe des Nested-Faktormodells konnte ein differenzierter Einblick gewonnen werden, wie sich die Varianz bei Maßen mathematischer Schülerleistung zusammensetzt. Das wichtigste Ergebnis dabei war (vgl. Abb. 17), dass – entgegen bisheriger Annahmen (Klieme, Neubrand u.a., 2001, S. 156) – die allgemeine kognitive Fähigkeit, die mathematischspezifische Fähigkeit und stoffgebietsspezifische Fähigkeiten nicht gleichermaßen Einfluss auf die Varianzzusammensetzung von Maßen mathematischer Schülerleistung nahmen.

▼ 140 

In diesem Zusammenhang ist eine wichtige Frage, wie die deutlich unterschiedlichen Zusammenhänge zwischen allgemeiner kognitiver Fähigkeit sowie der mathematikspezifischen Fähigkeit und den Maßen mathematischer Schülerleistung erklärt werden können (vgl. Abb. 17). Hierbei sollten drei miteinander verquickte Aspekte beachtet werden: Selbstselektionsprozesse in höhere Schulformen, schulformspezifische Unterschiede des Mathematikunterrichts und der Prozessablauf beim mathematischen Problemlösen.

  1. (a) Schüler mit stärker ausgeprägter allgemeiner kognitiver Fähigkeit besuchen meist höhere Schulformen. Hierbei ist bekannt, dass an höheren Schulformen mathematische Fähigkeiten besser gefördert werden als an niedrigeren Schulformen (vgl. Abschnitt 5.4). Der enge Zusammenhang zwischen der allgemeinen kognitiven Fähigkeit und Maßen mathematischer Schülerleistung ist daher auch durch diesen Selektionseffekt bedingt.
  2. (b) Weiterhin muss man auch Spezifika des deutschen Mathematikunterrichts und die Tatsache beachten, dass differenzielle Unterschiede der Lernumwelten Einfluss auf die Faktorstruktur mathematischer Schülerleistung nehmen können (vgl. Abschnitt 4.3.1). Beobachtungen des deutschen Mathematikunterrichts zeigten, dass schulformübergreifend an Deutschlands Schulen generell verstärkt technische Aufgaben und mit deutlich geringeren Anteilen problemorientierte rechnerische oder begriffliche Modellierungsaufgaben eingesetzt werden (Klieme, Schümer u.a., 2001; Kunter, 2005). Diese Tendenz zur Einheitlichkeit des deutschen Mathematikunterrichts impliziert, dass sich die Lernumwelten hinsichtlich der Förderung einer problemorientierten mathematischen Fähigkeit (wie sie z.B. in Form der mathematikspezifischen Fähigkeit konzeptualisiert werden kann, vgl. Abschnitt 7.3) nicht so stark voneinander unterscheiden. Aufgrund dieser Varianzrestriktion ist es nicht so überraschend, dass nur relativ geringe Anteile der interindividuellen Unterschiede durch die mathematikspezifische Fähigkeit erklärt werden.
  3. (c) Der verstärkte Einsatz technischer Aufgaben im deutschen Mathematikunterricht bedeutet auch, dass Schüler in Deutschland tendenziell weniger mit Aufgaben zum rechnerischen und begrifflichen Modellieren vertraut sind (siehe auch Klieme & Baumert, 2001). Diese Überlegung ist wichtig vor dem Hintergrund des Phasenmodells des Fertigkeitserwerbs, da sich Schüler aller Schulformen hinsichtlich dieser Aufgaben tendenziell ganz zu Beginn der kognitiven Phase sensu Ackerman (1989; siehe auch Abschnitt 5.2.1), bzw. im Problemlöseprozess sensu Anderson (1993) befinden. Unter der Annahme, dass sich Schüler zu Beginn der kognitiven Phase befinden, erklären interindividuelle Unterschiede in der allgemeinen kognitiven Fähigkeit einen Großteil der interindividuellen Unterschiede zumindest bei den rechnerischen und begrifflichen Modellierungsaufgaben aus dem PISA-Test.

Unabhängig vom genauen Wirkmechanismus kann anhand der Befunde zur ersten Forschungsfrage ein differenzierteres Bild gezeichnet werden, welche Rolle mathematikspezifische und (nicht genuin mathematische) kognitive Fähigkeiten für die Lösung von Mathematikaufgaben aus dem jeweiligen Stoffgebiet spielen. Eine Interpretation der Varianzanteile der jeweiligen Fähigkeiten ergibt, dass mit zunehmendem Varianzanteil die Relevanz der jeweiligen Fähigkeit am Zustandekommen der stoffgebietsspezifischen Leistung (in der untersuchten Stichprobe) zunimmt. Für ein besseres Verständnis dieses Ergebnisses ist es hilfreich, diese Fähigkeiten an Konstrukte der Informationsverarbeitung und der Problemlöseforschung anzubinden. Dies wird im Rahmen der Gesamtdiskussion der ersten Forschungsfrage versucht. Vor diesem Hintergrund wird auch das zweite Teilergebnis „verbale Fähigkeit hat keinen Einfluss auf die Leistung bei Maßen mathematischer Schülerleistung“ erklärt.

7.3 Zusammenfassende Diskussion zur Struktur mathematischer
Schülerleistung

▼ 141 

Angesichts des Hauptziels der vorliegenden Arbeit, mathematische Schülerleistung als psychologisches Konstrukt zu spezifizieren und es aus dieser Perspektive besser zu verstehen, ist mit den Ergebnissen zur ersten Forschungsfrage ein wichtiger Schritt getan: Interindividuelle Unterschiede in Maßen mathematischer Schülerleistung spiegeln bei einer Konzeptionalisierung in Form des Nested-Faktormodells interindividuelle Unterschiede in der allgemeinen kognitiven Fähigkeit, der mathematikspezifischen Fähigkeit und in den stoffgebietsspezifischen Fähigkeiten wider.

Um mathematische Schülerleistung noch fundierter im Raum psychologischer Konstrukte zu verorten, ist es interessant zu fragen, mit welchen Konstrukten aus der Forschung zur Informationsverarbeitung und der Problemlöseforschung die mathematikspezifische Fähigkeit und die allgemeine kognitive Fähigkeit korrespondiert. Zunächst wird auf die mathematikspezifische Fähigkeit eingegangen. Diese kann, wie in Abschnitt 7.1.4 ausgeführt wurde, als die stoffgebietsunabhängige Fähigkeit zum mathematischen Problemlösen interpretiert werden. Diese Interpretation wird nachfolgend durch Verweise auf die Literatur gestützt und weiter elaboriert. Mit dieser theoretischen Explikation wird auch der methodischen Kritik am Nested-Faktormodell begegnet, dass die spezifischen Faktoren theoretisch erklärt werden sollen (Schulze, 2005, S. 253).

Interpretation der mathematikspezifischen Fähigkeit. Geary (1994, S. 146) zieht zusätzlich zu stoffgebietsspezifischen Fähigkeiten zwei generellere Fähigkeiten zur Erklärung interindividueller Unterschiede bei Maßen mathematischer Schülerleistung heran. Dies sind die Fähigkeit zum Aufbau einer mathematischen Problemrepräsentation sensu Mayer (1985) und die Arbeitsgedächtniskapazität als die Fähigkeit zum simultanen Speichern und Verarbeiten von Informationen.

▼ 142 

Der Aufbau einer mathematischen Problemrepräsentation erfordert nach Mayer (1985), den Problemtext und gegebenenfalls vorhandene Abbildungen und Grafiken in eine mentale Repräsentation zu übersetzen, problemrelevante Informationen der mentalen Repräsentation zu entnehmen und mithilfe des schematischen Mathematikwissens in eine kohärente mentale Struktur (mathematisches Problemmodell) zu integrieren. Hierzu ist mathematisches Wissen (schematisches, strategisches und prozedurales Wissen) notwendig, wovon vor allem das schematische und prozedurale Wissen vornehmlich stoffgebietsspezifisch sind. Unter dieser Annahme repräsentieren die Residualterme der WLE-Scores (zusätzlich zur Schätzfehlervarianz) interindividuelle Unterschiede in der Verfügbarkeit und der Fähigkeit zur Anwendung des stoffgebietsspezifischen Wissens.

Im Gegensatz hierzu sind die kognitiven Prozesse zum Aufbau eines (mental repräsentierten) mathematischen Problemmodells wie auch ein bedeutsamer Teil der Planungs- und Überwachungsprozesse nicht spezifisch für ein mathematisches Stoffgebiet. Schüler, die die Teilprozesse besser ausführen können als andere Schüler, sollten damit (unabhängig von der allgemeinen kognitiven Fähigkeit oder stoffgebietsspezifischen Fähigkeiten) bessere Leistungen bei allen problemorientierten Maßen mathematischer Schülerleistung erzielen. Folgt man dieser Argumentation, dann repräsentiert die Varianz der mathematikspezifischen Fähigkeit ein Varianzamalgam, das sich aus den interindividuellen Unterschieden bei den zu Grunde liegenden Teilprozessen des mathematischen Problemlösens zusammensetzt.

Interpretation der allgemeinen kognitiven Fähigkeit. Als weitere Quelle interindividueller Unterschiede nennt Geary (1994) die Arbeitsgedächtniskapazität. Von der Arbeitsgedächtniskapazität ist bekannt, dass sie als leistungslimitierende Ressource die Performanz bei Indikatoren der fluiden Fähigkeit und der allgemeinen kognitiven Fähigkeit (Colom, Rebollo, Palacios, Juan-Espinosa & Kyllonen, 2004; Engle, Tuholski, Laughlin & Conway, 1999; Kyllonen, 1994; Kyllonen & Christal, 1990; Oberauer, Schulze, Wilhlem & Süß, 2005; Süß, Oberauer, Wittmann, Wilhelm & Schulze, 2002) und auch die Performanz bei mathematischen Fähigkeitsmaßen (Geary & Widaman, 1992; Tirre & Pena, 1993) stark beeinflusst. Daher wird in dieser Arbeit die Position vertreten, dass die Varianz der allgemeinen kognitiven Fähigkeit in Modell 7a in erster Linie interindividuelle Unterschiede in der Arbeitsgedächtniskapazität repräsentiert.

▼ 143 

Zusammengenommen können damit die kognitiven Fähigkeiten im Nested-Faktormodell wie folgt interpretiert werden: Die (reliablen Anteile der) stoffgebietsspezifischen Residualterme repräsentieren die Verfügbarkeit und Fähigkeit zur Anwendung stoffgebietsspezifischen Wissens. Die mathematikspezifische Fähigkeit repräsentiert die stoffgebietsunabhängige Fähigkeit zum mathematischen Problemlösen, und die allgemeine kognitive Fähigkeit repräsentiert die Arbeitsgedächtniskapazität.

Diese Interpretation der generellen mathematischen Fähigkeit und der allgemeinen kognitiven Fähigkeit (in Modell 7a) hilft auch das Ergebnis zu verstehen, dass verbale Fähigkeit keinen Einfluss auf die interindividuellen Unterschiede der stoffgebietsspezifischen Fähigkeiten hatte. In der Varianz der mathematikspezifischen Fähigkeit sind die miteinander verwobenen und simultan ablaufenden (siehe hierzu z.B. Hegarty, Mayer & Green, 1992; Hegarty, Mayer & Monk, 1995) Teilprozesse des Textverstehens und des Aufbaus eines mathematischen Problemmodells enthalten. Akzeptiert man diese Interpretation, ist es nicht unmittelbar einleuchtend, weshalb die spezifische verbale Fähigkeit darüber und über die allgemeine kognitive Fähigkeit (als Indikator der Arbeitsgedächtniskapazität) hinaus noch positiven Einfluss auf die Leistung bei Mathematikaufgaben haben sollte.

Zusätzlich zum Verständnis des Zusammenhangs verschiedener psychologischer Konstrukte ist es natürlich mindestens ebenso wichtig, die Institution „Schule“ zu beleuchten, in der Schüler primär ihr mathematisches Wissen und ihre mathematischen Fähigkeiten erwerben (vgl. Geary, 1995; Köller & Baumert, 2002; Köller, Baumert & Schnabel, 2003). Angesichts des zweiten Hauptziels der vorliegenden Arbeit, mathematische Schülerleistung aus der Perspektive eines psychologischen Konstruktes besser zu verstehen, befasst sich das nächste Kapitel mit Schulformunterschieden hinsichtlich der kognitiven Fähigkeiten mathematischer Schülerleistung.


Fußnoten und Endnoten

14  Die im Vergleich zu den anderen Studien deutlich niedrigeren Interkorrelationen sind darauf zurückzuführen, dass Köller bei seinen Analysen Personenparameter verwendete. Diese stellen nur eine Schätzung der latenten Personenfähigkeit dar und führen somit aufgrund der nicht perfekten Reliabilität der Personenparameter (siehe z.B. Rost, 2004a) zu verminderten (attenuierten) Schätzungen der Interkorrelationen zwischen den mathematischen Stoffgebieten.

15  In dieser Arbeit werden latente Variablen durch Kreise, manifeste Variablen durch Rechtecke und Residualterme durch Pfeile auf manifeste bzw. latente Variablen dargestellt. Korrelationen werden durch Doppelpfeile und Regressionen durch gerichtete Pfeile repräsentiert.

16  Für die freundliche Überlassung des Datensatzes mit dieser Klassifikation danke ich Alexander Jordan.

17  Bei der Berechnung von BIC und CAIC wurde als Stichprobengröße ein N von 29.386 verwendet und kein für den Designeffekt, der aus der mehrstufigen Stichprobenziehung resultierte, korrigiertes N (vgl. Snijders & Bosker, 1999). Hierfür sprach in erster Linie, dass der Designeffekt sich bei den spezifizierten latenten Variablen unterscheiden konnte, aber bei allen Modellen dasselbe N eingehen sollte.

18  Diese Frage kann jedoch auf der Grundlage des PISA-Mathematiktests aus dem Jahr 2000 nicht befriedigend beantwortet werden, wie in Abschnitt 7.1.1 bereits erörtert wurde.

19  Diesen Faktor bezeichnet Treumann (1974) als allgemeines Denken. Markieraufgaben wie auch Faktordefinition sind dabei nahezu identisch mit dem Faktor quantitatives Reasoning im Modell von Carroll (1993). Zur Vereinheitlichung des Sprachgebrauchs wird dieser Faktor daher als quantitatives Reasoning bezeichnet.

20  WLE-Parameter, die nur auf Basis von Mathematikitems mit Infit-Werten zwischen 0,8 und 1,2 geschätzt wurden (vgl. Abschnitt 7.1.3), korrelierten zwischen 0,991 und 1,0 mit WLE-Parametern, die auf Grundlage aller Mathematikitems geschätzt wurden. Eine Verwendung aller Mathematikitems „schadete“ also nicht (vgl. Köller, 1998, S. 75).

21  Eines von 20 Items der Skala WA wurde bei der Berechnung der WLE-Scores ausgeschlossen, da es eine Trennschärfe von nahezu Null hatte.

22  Der Versuch scheiterte, die Daten des PISA-Mathematiktests mit Parscale zu analysieren: Für einige Modellparameter resultierten unrealistische Werte (z.B. Diskriminationsparameter von Null, trotz Trennschärfeparameter der klassischen Testtheorie, die ungleich Null waren), extreme Itemschwierigkeiten oder sehr große Standardfehler der Modellparameter. Es ist anzunehmen, dass die Anzahl zufälliger fehlender Werte, die durch das Multimatrixdesign resultierten, zu groß war, um mit Parscale verlässliche Modellparameter zu schätzen.

23  Der Schätzalgorithmus MLR gehört zur Familie der Full Information Maximum Likelihood Verfahren (FIML). Diese können Populationsstatistiken (z.B. Mittelwerte, Varianzen und Kovarianzen) auf Grundlage unvollständiger Daten schätzen. Bei Verwendung der FIML-Verfahren wird angenommen, dass das Fehlen eines Werts eine Funktion der anderen analysierten Variablen ist (Missing at Random [MAR], Rubin, 1987). Die zentrale Idee der FIML-Verfahren bei der Parameterschätzung ist, dass (unter der Annahme von MAR) auf Grundlage der tatsächlich beobachteten Daten die Likelihood für die unbekannten Populationsparameter maximiert wird (Schafer & Graham, 2002).

24  Teilweise waren die Interkorrelationen der Indikatoren der verbalen Fähigkeit größer, als dies ihre Reliabilität theoretisch zuließ (Lord & Novick, 1968; Schmitt, 1996). Ein Grund hierfür war möglicherweise, dass die Reliabilitäten durch das verwendete Berechnungsverfahren unterschätzt wurden, weil die Fehlervarianzen überschätzt wurden (siehe hierzu Rost, 2004b).



© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
XDiML DTD Version 4.0Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML-Version erstellt am:
02.08.2006