Campus Files zum IQB-Ländervergleich 2011
Skalenhandbuch zur Dokumentation der Variablen
An-Institute und nicht zur HU gehörige Einrichtungen
Campus Files (CFs) sind anonymisierte Datensätze, die für den Einsatz in der universitären Lehre konzipiert sind. Sie eignen sich besonders für die Lehre im Bereich der Statistik und der empirischen Forschungsmethoden, z. B. zur Vermittlung von Auswertungsmethoden, die bei Large-Scale-Assessments mit komplexer Datenstruktur (u. a. stratifizierte Stichprobenziehung, hierarchische Datenstruktur) zum Einsatz kommen (z. B. Mehrebenenmodelle, Item-Response-Modelle, Verwendung von Populationsgewichten).
Auch lassen sich anhand von CFs zentrale Schritte des Datenmanagements und der Datenaufbereitung illustrieren. Darüber hinaus können die Datensätze für Seminararbeiten o. Ä. eingesetzt und zur Vorbereitung von Auswertungssyntaxen für korrespondierende Scientific Use Files (SUFs) genutzt werden. Allerdings ist das Analysepotenzial der Datensätze reduziert. So können Analysen auf Basis der CFs bei der Beantwortung inhaltlicher Fragestellungen zu abweichenden Ergebnissen im Vergleich zu korrespondierenden SUFs führen.
Grundlage für die Datensatzerstellung der CFs waren die korrespondierenden SUFs zum IQBLändervergleich 2011, die am FDZ des IQB beantragt werden können. Der querschnittlich angelegte IQBLändervergleich 2011 (Stanat et al., 2012; Stanat et al., 2014) überprüfte, inwieweit Kinder am Ende der vierten Jahrgangsstufe die Bildungsstandards in den Fächern Deutsch und Mathematik erreichen. Dazu wurde eine auf Bundes- und Länderebene repräsentative Stichprobe von insgesamt 27.081 Kindern aus 1.349 Schulen im Zeitraum von Mai bis Juli 2011 getestet. Begleitend wurden Hintergrundmerkmale, lern- und leistungsrelevante Merkmale und Angaben zum Unterricht über Fragebögen für Schüler*innen, Eltern, Lehrkräfte und Schulleitungen erhoben.
Die Erstellung der CFs erfolgte in mehreren Schritten. Ziel der Aufbereitung war, eine stärkere Anonymisierung der Daten zu erreichen als in den SUFs. In einem ersten Schritt wurde aus den SUFs die Mehrzahl der Variablen entfernt. Beispielsweise wurden im Schüler*innen- und Elterndatensatz nur 55 Variablen von insgesamt 828 Variablen aus dem korrespondierenden SUF beibehalten. Insbesondere beinhalten die CFs keine Regionalinformationen (z. B. Bundesland). Außerdem wurden Förderschulen
und Schüler*innen mit sonderpädagogischem Förderbedarf aus den Datensätzen ausgeschlossen. In einem zweiten Schritt wurden Merkmalsausprägungen in den verbliebenen Variablen zu gröberen Kategorien zusammengefasst. Beispielsweise wurden Angaben zur zu Hause gesprochenen Sprache in eine dichotome Variable rekodiert und kontinuierliche Variablen zum Alter zu Altersgruppen zusammengefasst.
Die Variablennamen wurden weitgehend beibehalten, so dass Syntaxen auf Basis der CFs auch für die korrespondierenden SUFs genutzt werden können.
Im dritten Schritt wurden aus den reduzierten und vergröberten SUFs synthetische Daten für alle Hintergrundmerkmale (z. B. Alter, Geschlecht, Zuwanderungshintergrund, sozialer Hintergrund, kultureller Hintergrund, Schulnoten) erstellt. Dabei wurden Merkmalsausprägungen auf diesen Variablen nach einem Zufallsverfahren auf die Personen in den Datensätzen verteilt. Somit ist in den CFs keine eindeutige Zuordnung von Merkmalsausprägungen zu einzelnen Merkmalsträgern in den korrespondierenden SUFs
möglich. Die synthetische Datengenerierung der CFs wurde so durchgeführt, dass Zusammenhänge zwischen den Variablen im Vergleich zu den korrespondierenden SUFs weitgehend bestehen bleiben. Die Datenerstellung erfolgte mit Hilfe des R-Pakets synthpop (Nowok, Raab & Dibben, 2016). Eine Limitation dieses R-Pakets besteht darin, dass die hierarchische Struktur der Daten (Schüler*innen in Schulklassen)
nicht berücksichtigt werden kann. Deshalb wurden die Variablen zum akademischen Selbstkonzept im Vergleich zu den SUFs nicht verändert, damit Mehrebenenanalysen (z. B. Big-Fish-Little-Pond-Effekt) zu vergleichbaren Ergebnissen wie auf Grundlage der korrespondierenden SUFs kommen. Aus demselben Grund wurden auch die Kompetenzschätzer (PVs & WLEs) und Populationsgewichte über ein anderes Verfahren verändert (die dazugehörige R-Syntax stammt von Sebastian Weirich): Für diese
Variablen wurde ein zufälliger Fehlerterm hinzugefügt, so dass sie nicht mehr mit den Variablen im SUF übereinstimmen. Der Testitems-Datensatz wurde komplett synthetisch erstellt (unter Verwendung einer Syntax von Benjamin Becker). Dabei wurden auf Basis der individuellen Kompetenzschätzer (WLEs) für jedes Kind pro Kompetenzbereich bzw. Fach je 20 dichotomen Testitems ( extit0 = falsch, 1 = richtig) erzeugt. Die Korrelation zwischen dem Anteil richtiger Antworten und den WLE-Schätzern liegt bei r = .89 im Fach Mathematik, r = .90 im Kompetenzbereich Lesen und r = .89 im Kompetenzbereich Zuhören.
Im vierten Schritt wurde aus dem vollständigen synthetischen Datensatz der Schüler*innen und Eltern ein Teildatensatz gebildet, in dem Klassenverbände ausgewählt wurden, zu denen Angaben von n = 5, 10, 15 oder 20 Schüler*innen vorlagen. In den Teildatensätzen der Lehrkräfte und Schulleitungen sowie im Testitems-Datensatz wurden die Stichproben entsprechend reduziert. Abschließend wurden die ID-Variablen (idstud_FDZ, idteach_FDZ und idsch_FDZ) so verändert, dass keine Verknüpfung mit den korrespondierenden SUF-Datensätzen mehr möglich ist. Die finalen Stichprobenumfänge der CFs
betragen:
• Datensatz Schüler*innen und Eltern: n = 3.005 Kinder aus 201 Schulen bzw. Klassen (pro
Schule wurde eine Klasse in die Stichprobe gezogen)
• Datensatz Lehrkräfte und Schulleitungen: n = 221 Lehrkräfte
• Datensatz Testitems: n = 3.005 Kinder aus 201 Schulen bzw. Klassen
Die CFs werden im R-, SPSS- und Stata-Format bereitgestellt.
Files in this item
References