Krusche, Stefan: Visualisierung und Analyse multivariater Daten in der gartenbaulichen Beratung - Methodik, Einsatz und Vergleich datenanalytischer Verfahren

8

Kapitel 2. Erläuterung des Methodenspektrums

Da die Darstellung der verwendeten Methoden nicht ohne mathematische Formeln auskommt, ist an dieser Stelle auf einige Konventionen hinzuweisen. In Formeln stehen fettgedruckte Großbuchstaben für Matrizen, fettgedruckte Kleinbuchstaben für Zeilenvektoren. Zeilen- und Spaltenanzahl einer Matrix werden in Klammern nach dem Muster: (Anzahl Zeilen x Anzahl Spalten) angegeben. Das „ “-Zeichen steht für die Transposition einer Matrix beziehungsweise eines Vektors. Die Benennungen in den verwendeten Formeln sind so gewählt, daß eine größtmögliche Eindeutigkeit besteht, obwohl bisweilen Überschneidungen vorkommen, die aber dann im entsprechenden Kontext erklärt werden. Nach STEVENS, 1951, wird in dieser Arbeit die Einteilung von Variablen in nominal, ordinal-, intervall- und verhältnisskalierte Variablen verwendet.

2.1. Verfahren der Dimensionserniedrigung

2.1.1. Hauptkomponentenanalyse

Die Hauptkomponentenanalyse ist eine Analysetechnik, mit deren Hilfe p korrelierte Variablen, die an n Objekten (i = 1 ... n) bestimmt werden, in p (j = 1 ... p) neue, nicht korrelierte Variablen, die sogenannten Hauptkomponenten, transformiert werden. Die Transformation ist so gewählt, daß die erste Hauptkomponente den größten Anteil der Gesamtvariabilität der Ausgangsvariablen repräsentiert, die zweite Hauptkomponente den zweitgrößten Anteil, die dritte Hauptkomponente den drittgrößten Anteil und so weiter. Im günstigsten Fall reichen für die Beschreibung der Variabilitätsstruktur der Ausgangsvariablen einige wenige Hauptkomponenten aus, so daß durch die Hauptkomponentenanalyse eine wesentliche Dimensionserniedrigung möglich ist.

Die Hauptkomponentenanalyse ist eine variablenbezogene Methode und zählt zu den R-Techniken, das heißt Ausgangspunkt der Analyse ist eine (p x p) Kovarianz- oder Korrelationsmatrix. Sie wird für die Analyse intervall- beziehungsweise verhältnisskalierter und ordinalskalierter Variablen eingesetzt. Die Verwendung von zum Beispiel dichotomisierten, nominalskalierten Variablen ist nach KRZANOWSKI, 1988a, möglich, kann aber zu stark ausgeweiteten Datensätzen und zu erheblichen Schwierigkeiten bei der Interpretation der Ergebnisse führen.

Ihre wesentliche Bedeutung hat die Hauptkomponentenanalyse als parameterfreie, deskriptive Methode, obwohl auch Elemente der schließenden Statistik eingebracht werden können, sofern die Annahme getroffen werden kann, daß die untersuchten Objekte eine Stichprobe aus einer multinormalverteilten Grundgesamtheit darstellen<7>. Da aber


9

  1. die Annahme der Multinormalverteilung relativ häufig nicht zutrifft,
  2. Stichprobe und Grundgesamtheit bisweilen identisch sind, und
  3. viele der für die Hauptkomponentenanalyse entwickelten schließenden Verfahren nur asymptotisch gelten (CHATFIELD & COLLINS, 1980),

ist die Bedeutung der Hauptkomponentenanalyse als beschreibende Methode ohne ein der Analyse zugrunde liegendes, statistisches Modell größer als ihre Bedeutung im Bereich der konfirmatorischen Statistik. In der vorliegenden Untersuchung steht - beim Einsatz der Hauptkomponentenanalyse - die durch sie zu erzielende Dimensionserniedrigung und Erklärung der Variablenstruktur im Vordergrund. Darüber hinaus spielt auch die Verwendung (ausgewählter) Hauptkomponenten an Stelle der Ausgangsvariablen in Folgeanalysen, vor allem in der graphischen Repräsentation der Objekte, eine Rolle. Ausführlich wird die Hauptkomponentenanalyse in einer Vielzahl von Standardwerken zur multivariaten Statistik behandelt (siehe unter anderem MORRISON, 1990, oder JACKSON, 1991, und die darin genannten Quellen).

Ausgangspunkt für die Berechnung der Hauptkomponenten ist die (p x p) Kovarianzmatrix S der (n x p) Datenmatrix X. Im Sinne der Skalierung entspricht die Verwendung der Kovarianzmatrix einer Mittelwertszentrierung der Ausgangsvariablen. Ein wesentlicher Vorteil der Verwendung der Kovarianzmatrix in der Hauptkomponentenanalyse ist die Tatsache, daß die schließenden Verfahren hier relativ gut entwickelt sind. Nachteilig ist es aber, daß, wenn die Variablen in voneinander abweichenden Einheiten bestimmt werden, beziehungsweise stark voneinander abweichende Varianzen aufweisen - eine Situation wie sie im Bereich der gartenbaulichen Daten eher die Regel als die Ausnahme ist - die Variablen mit der größeren Varianz einen ungleich stärkeren Einfluß auf die erste Hauptkomponente ausüben, als die Variablen mit der kleineren Varianz. Um allen Variablen unter solchen Umständen das gleiche Gewicht zu verleihen, werden die Ausgangsvariablen standardisiert, womit an die Stelle von S die Korrelationsmatrix R tritt. Die Ausgangsvariablen werden also so skaliert, daß ihr Mittelwert = 0 und ihre Varianz = 1 sind. Bei Verwendung von S kommt man in der Regel zu anderen Ergebnissen als bei Verwendung von R, und keine einfache Transformation kann die Ergebnisse einer auf S basierenden Hauptkomponentenanalyse in eine auf R basierende Hauptkomponentenanalyse umwandeln. Die Hauptkomponenten sind also kein einzigartiges Merkmal der Ausgangsmatrix, sondern abhängig von der Skalierung der Variablen (KRZANOWSKI, 1988a).

Wenn es gelingt die Datenmatrix X statt durch p Ausgangsvariablen mit q (q < p) Hauptkomponenten zu beschreiben, ohne daß damit ein nennenswerter Informationsverlust einhergeht, wird durch die Hauptkomponentenanalyse eine (wünschenswerte) Dimensionserniedrigung von X erreicht. Besonders vorteilhaft ist es, wenn q = 2 ist, da dann zweidimensionale Graphiken, in denen zum Beispiel die Hauptkomponentenwerte der zweiten Hauptkomponente gegen die Hauptkomponentenwerte der ersten Hauptkomponente geplottet


10

werden, einen guten Einblick in die Struktur und die Beziehungen der Objekte untereinander ermöglichen. Vorhandene Gruppierungen der Objekte können so möglicherweise erkannt werden.

Der Frage, welche Hauptkomponenten näher betrachtet werden sollten, welche Hauptkomponenten also 'wichtige' oder 'wesentliche' Hauptkomponenten darstellen, sind zahlreiche Arbeiten nachgegangen. Es geht ihnen allen darum, ein Kriterium festzulegen, das die Entscheidung unterstützt, welche Hauptkomponenten berücksichtigt werden sollen, welche Hauptkomponenten also ins reduzierte Modell zur Beschreibung von X aufgenommen werden sollen, und welche Hauptkomponenten verworfen werden können. In Tabelle 1 sind aus diesen Arbeiten einige der gebräuchlichsten Kriterien zur Identifikation 'wesentlicher' Hauptkomponenten zusammengefaßt.

Zusätzlich ist noch auf zwei weitere Verfahren, die in Kapitel 3 verschiedentlich eingesetzt werden, hinzuweisen, und zwar auf die partielle Korrelations-Prozedur nach VELICER, 1976, und die Variante der Kreuzvalidierung nach EASTMENT & KRZANOWSKI, 1982. Für beide liegt der entsprechende Genstat Code im Anhang Teil III vor.

Die 1976 von VELICER vorgeschlagene Methode zur Identifikation 'wesentlicher' Hauptkomponenten verwendet als Entscheidungskriterium die partielle Korrelation zwischen den Ausgangsvariablen, für den Fall, daß q Hauptkomponenten (q = 0, ... , p - 1) aus dem Modell entfernt werden (das heißt keine Hauptkomponente, die erste Hauptkomponente, die erste und die zweite Hauptkomponente, die erste, die zweite und die dritte Hauptkomponente und so weiter). Der zu errechnende Wert bei Entfernung von q Hauptkomponenten, der im wesentlichen durch die die Quadratsumme der partiellen Korrelationen bestimmt wird, hat ein Minimum im Bereich von

0 < q< p - 1. Der Wert von q, bei dem das Minimum von erreicht wird, gibt die Anzahl der q 'wesentlichen' Hauptkomponenten an. Solange abnimmt, nehmen die partiellen Korrelationen stärker ab als die Restvarianzen, das heißt die Varianzen der nicht im Modell berücksichtigten Hauptkomponenten.

Die Anwendung der Kreuzvalidierung zur Identifikation 'wesentlicher' Hauptkomponenten geht zurück auf die Arbeit von EASTMENT & KRZANOWSKI, 1982. Kreuzvalidierung ist sowohl bei Verwendung der Kovarianz- als auch der Korrelationsmatrix in der Hauptkomponentenanalyse möglich. Im Prinzip geht es um folgendes: von einer Anzahl m von Modellen mit den Parametern , soll eines ausgewählt werden. Die Datenmatrix X mit n Objekten soll die Modellwahl bestimmen. Wenn nun das i-te Objekt von X gelöscht wird, können auf Grundlage der n - 1 Objekte von X die Parameter , und mit die Werte des gelöschten Objekts als geschätzt werden. Aus der Abweichung der beobachteten Werte von den geschätzten Werten , läßt sich ein Diskrepanzmaß bestimmen, allgemein f(<b>,</b> ). Wenn dieser Vorgang für alle Objekte von X wiederholt wird, ergibt sich ein Diskrepanzmaß E(m) für Modell m mit Korrekturfaktor k. Ein Vergleich der Diskrepanzmaße, von m Modellen gibt Aufschluß darüber,


11

mit welchem Modell die kleinste Abweichung von geschätzten und beobachteten Werten erreicht wird. Das Diskrepanzmaß im Verfahren von EASTMENT & KRZANOWSKI, 1982, ist die sogenannte PRESS (Prediction Sum of Squares)-Statistik: . Der Vergleich der Diskrepanzmaße errechnet sich durch , wobei m für die Anzahl der im Modell betrachteten Hauptkomponenten steht. Der W-Wert, kleiner 1, der dem Modell mit der geringsten Anzahl an Hauptkomponenten entspricht, dient als Hinweis auf die Anzahl ‘wesentlicher’ Hauptkomponenten.

Unterschiedliche Kriterien zur Bestimmung der Anzahl der ‘wesentlichen’ Hauptkomponenten führen in der Regel auch zu unterschiedlichen Schlußfolgerungen. Insofern sind die genannten Verfahren nur als Anhaltspunkte für die Anzahl der im Modell zu berücksichtigenden Hauptkomponenten zu verstehen. Neben dem Skalierungsproblem ist die Tatsache, daß unterschiedliche Kriterien häufig zu unterschiedlichen Schlußfolgerungen bezüglich der Auswahl 'wesentlicher' Hauptkomponenten führen, für Kritiker der Hauptkomponentenanalyse wie CHATFIELD & COLLINS, 1980, eines der stärksten Argumente, mit der sie die Hauptkomponentenanalyse kritisieren.

Unter den Residuen der Hauptkomponentenanalyse werden in dieser Arbeit die Abweichungen der durch das Hauptkomponentenmodell reproduzierten Werte der Ausgangsvariablen von den tatsächlichen Beobachtungs- oder Meßwerten verstanden. Eine Analyse der Residuen kann zeigen, in wie weit das gewählte, erniedrigte Modell zu den Beobachtungswerten paßt. Objekte mit einem sehr großen Residuum werden durch das gewählte Modell schlecht repräsentiert. Große Residuen können die Folge von tatsächlich stark von den übrigen Objekten abweichenden Beobachtungen oder aber auch von Aufzeichnungs- und Übertragungsfehlern sein. Teststatistiken für die Residuen und kritische Werte geben zum Beispiel HAWKINS, 1974 und 1980, sowie JACKSON, 1991. Nach JACKSON, 1991, ist ein kritischer Wert, mit , , , , als dem Eigenwert der j-ten Hauptkomponente und als dem Wert der Funktion der Standardnormalverteilung bei Irrtumswahrscheinlichkeit alpha mit demselben Vorzeichen wie . Wird dieser vom Residuum eines Objekts überschritten, so ist dies ein Indiz dafür, daß das Objekt mit dem entsprechend hohen Residuum nicht adäquat durch die gewählte Dimensionserniedrigung repräsentiert wird. Genstat Codes zur Erzeugung von Residuenplots und der Berechnung der entsprechenden Statistiken sind im Anhang Teil III zu finden.

Bisweilen wird der Versuch unternommen, den Hauptkomponenten eine bestimmte Interpretation zu geben. Diese Interpretation orientiert sich am Vorzeichen und der Größe der Koeffizienten der


12

Eigenvektoren. Im günstigsten Fall ermöglicht die Koeffizienteninterpretation eine zusammenfassende Beschreibung mehrerer Variablen mit einem Begriff, so daß, bei Auswahl von wenigen, gut interpretierbaren Hauptkomponenten, die Variablen- und Variabilitätsstruktur umfangreicher Datensätze knapp und prägnant benannt werden kann. Beispiele solcher Interpretationsansätze, sind zum Beispiel bei MANLY, 1986, oder MORRISON, 1990, zu finden. Allerdings ist die Interpretation der Hauptkomponenten häufig mit großen Schwierigkeiten verbunden. CHATFIELD & COLLINS, 1980, warnen vor einer Überinterpretation der Hauptkomponenten. Auch KRZANOWSKI, 1988a, betont, daß in der praktischen Anwendung der Hauptkomponentenanalyse nur selten der Fall gegeben ist, daß eine klare und eindeutige Interpretation der Koeffizienten möglich ist, und es letztlich von der jeweiligen subjektiven Beurteilung des Anwenders abhängt, welche Koeffizienten als groß oder klein genug angesehen werden, um die Interpretation und Beurteilung der Hauptkomponenten wesentlich mitzubestimmen. In noch stärkerem Umfang als bei der Identifikation der ‘wesentlichen’ Hauptkomponenten ist in der Interpretation der Hauptkomponenten ein willkürliches Element enthalten, das zu einer gewissen Beliebigkeit der Ergebnisse beiträgt. MARRIOTT, 1974, kommt gar zu dem Schluß, daß eine gut interpretierbare und mit einer echten inhaltlichen Bedeutung ausgestattete Hauptkomponente nicht mehr als ein glücklicher Zufall sein kann, da kein Rechenverfahren an sich in der Lage ist, ein im jeweiligen Kontext des Anwendungsgebietes bedeutungsvolles Ergebnis zu produzieren. Da auch relativ geringe Veränderungen bei den Werten der Ausgangsvariablen einen relativ starken Einfluß auf die Koeffizienten der Eigenvektoren und damit auf die Interpretation der Hauptkomponenten haben können, ist die Interpretation mit einem weiteren Unsicherheitsfaktor belastet. Dennoch wird es angebracht sein - im Bewußtsein um die Schwierigkeiten und Begrenzungen der Interpretation - den Versuch zu unternehmen, die die Hauptkomponenten dominierenden Variablen zu bennenen und mögliche Unterschiede und Beziehungen der Koeffizienten und Hauptkomponenten untereinander zu verdeutlichen und somit ansatzweise eine Interpretation durchzuführen. Ein Hilfsmittel, das die Hauptkomponenten besser interpretierbar machen kann, ist die Rotation der Hauptkomponenten. Die Rotation soll eine Vereinfachung der Koeffizientenstruktur herbeiführen. Nicht immer kann eine Rotation eine nennenswerte Vereinfachung der Koeffizientenstruktur bewirken und nicht in jedem Fall ist eine Rotation der Hauptkomponenten sinnvoll. Ein zu beachtendes Merkmal der Rotation ist zudem die Tatsache, daß die Koeffizienten der rotierten Hauptkomponenten nicht unabhängig von der Anzahl der im Modell berücksichtigten Hauptkomponenten sind, das heißt wenn q von p Hauptkomponenten rotiert werden, ergeben sich andere Koeffizienten, als wenn q + 1 derselben p Hauptkomponenten rotiert werden.

Die Rotation kann als orthogonale oder schiefwinklige (oblique) Rotation erfolgen. Bei einer orthogonalen Rotation der Eigenvektoren bleibt die Orthogonalität der Koeffizienten der Eigenvektoren der Hauptkomponenten vor und nach der Rotation erhalten. Die neuen, rotierten Hauptkomponentenwerte sind aber nicht mehr in jedem Fall, wie die ursprünglichen Hauptkomponentenwerte, unkorreliert. Bei der schiefwinkligen Rotation kann ebenfalls die


13

Unkorreliertheit der Hauptkomponentenwerte und darüber hinaus auch die Orthogonalität der Koeffizienten verloren gehen. Diesen negativen Veränderungen steht (hoffentlich) ein erkennbarer Gewinn in Form einer vereinfachten Koeffizientenstruktur gegenüber. Statistische Software bietet im Rahmen der Hauptkomponentenanalyse oder Faktoranalyse eine Vielzahl orthogonaler und schiefwinkliger Rotationsverfahren an, die auf iterativem Weg ein bestimmtes Optimalitätskriterium zu erreichen suchen und so die neuen, rotierten Komponenten erzeugen (CARROL, 1953, HARMAN, 1974, KAISER, 1959). In dieser Arbeit wird jedoch aufgrund der genannten Schwierigkeiten gänzlich auf den Einsatz von Rotationen im Bereich der Hauptkomponentenanalyse verzichtet.

14

Tabelle 1: Kriterien zur Identifikation 'wesentlicher' Hauptkomponenten

Kriterium

Vorgehen, Anmerkungen

Literatur

Anteil der durch die Hauptkom-ponenten 'erklärten' Varianz

Hauptkomponenten werden solange ins Modell aufgenommen, bis ein bestimmter Schwellenwert für die 'erklärte' Varianz überschritten wird, häufig 95 % der Gesamtvariabilität. Die Festlegung des Schwellenwertes ist in der Regel willkürlich und daher nicht unproblematisch.

JACKSON, 1991

Gebrochener Stab

Hauptkomponenten werden solange ins Modell aufgenommen bis der Anteil (in Teilen von 1) ‘erklärter’ Varianz der jeweiligen Hauptkomponente kleiner ist als . Grundgedanke ist hier, daß Hauptkomponenten solange ins Modell aufgenommen werden, solange die durch sie 'erklärte' Varianz größer ist als die 'erklärte' Varianz ist, die man auch bei rein zufälliger Aufteilung der Gesamtvarianz mit der q-ten Einteilung erklären könnte, das heißt als .

JOLIFFE, 1986

Mittlerer Eigenwert

Hauptkomponenten werden solange ins Modell aufgenommen, solange der Eigenwert der jeweiligen Hauptkomponente größer als der mittlere Eigenwert ist. Ein häufig bei der Verwendung der Korrelationsmatrix eingesetztes Kriterium, da mittlerer Eigenwert von R gleich 1, und Varianz der Ausgangsvariablen ebenfalls gleich 1. Liegt der Eigenwert der Hauptkomponente unter 1, so wird durch diese Hauptkomponente weniger Variabilität repräsentiert als durch eine Ausgangsvariable.

GUTTMANN, 1954

JOLIFFE, 1972,

JOLIFFE, 1973

Scree-Diagramm

Diagramm mit Eigenwerten (eventuell den Logarithmen der Eigenwerte) auf der y-Achse, der laufenden Nummer des Eigenwertes auf der x-Achse. Hauptkomponenten werden bis zu dem Punkt ins Modell aufgenommen, an dem ein Bruch im Diagramm auftaucht, und die Eigenwerte beginnen, sich sehr ähnlich zu sein. Aufgenommen werden alle Hauptkomponenten bis zur Bruchstelle (inklusive der ersten Hauptkomponente im Verflachungsbereich des Diagramms).

Mögliche Probleme: keine deutliche Bruchstelle oder mehrere Bruchstellen. HORN, 1965, schlägt zur Verbesserung bei der Entscheidungsfindung in der Modellauswahl, Generation von Zufallsdaten und Vergleich der Eigenwerte der Zufallsdaten mit den Eigenwerten der Untersuchungsdaten, vor.

CATTEL, 1966

Signifikanztests

Häufig werden durch Signifikanztests sehr viele Hauptkomponenten ins Modell aufgenommen. Grundsätzlich ist die Frage zu klären, ob die Voraussetzungen für die Anwendung der Tests gegeben sind. Nicht alle signifikanten Hauptkomponenten müssen notwendigerweise ins Modell aufgenommen werden. Allerdings sollten - bei Vorliegen der Testvoraussetzungen - nicht Hauptkomponenten aufgenommen werden, die nicht signifikant sind (JACKSON, 1991).

ANDERSON, 1963,

LAWLEY, 1956

Tolerierte Restvarianz

Hauptkomponenten werden ins Modell aufgenommen, bis der, vor Beginn der Analyse festgelegte Schwellenwert für die zu tolerierende Restvarianz, noch nicht erreicht ist. Vor allem dort ein sinnvolles Kriterium, wo a priori eine Kenntnis über die inhärente Variabilität der Variablen vorhanden ist.

BOX et al., 1973


15

2.1.2. Mehrdimensionale Skalierung

Im Vordergrund der mehrdimensionalen Skalierung steht - ähnlich wie bei der Hauptkomponentenanlyse - die Dimensionserniedrigung. Sie wird im wesentlichen deskriptiv eingesetzt und beinhaltet nur wenige konfirmatorische Ansätze<8>. Es handelt sich um eine Q-Technik, das heißt Ausgangspunkt der Analyse ist eine (n x n) Proximitätsmatrix, wobei Proximität sowohl für Ähnlichkeit als auch Unähnlichkeit steht. Die Proximitätsmatrizen können entweder direkt ermittelt oder mit Hilfe eines geeigneten Verfahrens aus nominal-, ordinal- und intervall- oder verhältnisskalierten Variablen hergeleitet werden. Da Proximitätsmatrizen auch für nominalskalierte Variablen erstellt werden können, bieten die Q-Techniken gegenüber den R-Techniken den Vorteil der Handhabbarkeit derartiger Variablen beziehungsweise gemischter Datensätze (GORDON, 1981).

Wichtigstes Ziel der mehrdimensionalen Skalierung ist die graphische Repräsentation der Objekte aufgrund ihrer Proximität, das heißt, daß die Ähnlichkeiten beziehungsweise Unähnlichkeiten zwischen den Objekten, in möglichst wenig Dimensionen und mit möglichst geringem Informationsverlust, so graphisch abgebildet werden sollen, daß die (euklidischen) Distanzen zwischen den Objekten in einer Graphik in etwa den tatsächlichen Proximitäten der Objekte entsprechen (YOUNG, 1987).

Ähnliche Fragestellungen wie bei der Hauptkomponentenanalyse treten auch bei der mehrdimensionalen Skalierung auf; so zum Beispiel im Bereich der Skalierung (Mittelwertszentrierung, Standardisierung der Ausgangsvariablen vor Berechnung von Proximitätsmatrizen), bei der Bestimmung der angemessenen Zahl der zu betrachtenden Dimensionen und der Frage nach ihrer Interpretierbarkeit. Auch das weitgehende Fehlen schließender Verfahren ist zu beachten.

Ausgangspunkt einer Analyse durch mehrdimensionale Skalierung sind eine oder mehrere Proximitätsmatrizen. Die Umwandlung eines Ähnlichkeitsmaßes in ein Unähnlichkeitsmaß (und umgekehrt) ist auf verschiedenen Wegen möglich, zum Beispiel durch: Unähnlichkeitsmaß in Teilen von 1 = 1 - Ähnlichkeitsmaß in Teilen von 1.

Proximitätsmatrizen können entweder direkt ermittelt werden - dies ist für gartenbauliche Daten jedoch die Ausnahme - oder, und das ist der Normalfall, durch ein gewähltes Proximitätsmaß aus den Variablen, die an den jeweiligen Objekten bestimmt werden, hergeleitet werden<9>. Je nachdem,


16

ob es sich bei dem Proximitätsmaß um ein Ähnlichkeits- oder Unähnlichkeitsmaß handelt, beziehungsweise die Variablen als nominal-, ordinal- oder intervall- beziehungsweise verhältnisskaliert betrachtet werden können, gibt es eine Vielzahl von Maßen; einen umfassenden Überblick geben zum Beispiel BACHER, 1994 oder SCHUBÖ et al., 1991. Einige Proximitätsmaße sind in Tabelle 2 aufgeführt.

Die Entscheidung für die Verwendung eines bestimmten Proximitätsmaßes wird einerseits durch das Skalenniveau der Variablen bestimmt. Darüber hinaus soll das Proximitätsmaß aber auch die Beziehung zweier Objekte wiederspiegeln können. Ist zum Beispiel das Fehlen eines Merkmals beim Vergleich zweier Objekte unerheblich, die Übereinstimmung aber wichtig, so ist bei binären Variablen dem Jaccard-Ähnlichkeitsmaß der Vorzug vor dem Simple Matching-Ähnlichkeitsmaß zu geben, da in einem solchen Fall das Simple Matching-Ähnlichkeitsmaß die Ähnlichkeit überschätzen würde (durch Überbewertung eines im Grunde irrelevanten Sachverhaltes). Schließlich kann durch die Wahl des Proximitätsmaßes auch Einfluß darauf genommen werden, ob größere oder kleinere Proximitäten mehr Gewicht bekommen sollen, zum Beispiel durch entsprechende Wahl des Exponenten in der Minkowski Metrik. Je höher der Exponent ist, desto größer wird der Unterschied zwischen Objekten mit größerer Unähnlichkeit im Vergleich zu Objekten mit geringerer Unähnlichkeit.

Proximitätsmaße sind in der Regel nicht skalenunabhängig. Insofern ist eine Skalierung in Form einer Mittelwertszentrierung, Standardisierung oder ähnlichem, in Betracht zu ziehen, wenn die gegebenen Daten dies erforderlich erscheinen lassen (KRZANOWSKI, 1988a). Die durch eine Standardisierung erzielte Gleichgewichtung aller Variablen ist in der anfänglichen Phase der Datenanalyse wohl empfehlenswert, keinesfalls aber zwingend (GORDON, 1981). Auch stark korrelierte Variablen können auf das Proximitätsmaß einen (unerwünscht) hohen Einfluß haben. Bisweilen empfohlen, aber nicht unproblematisch, ist dann die Verwendung eines an die Mahalanobis Distanz angelehnten Proximitätsmaßes (DEICHSEL & TRAMPISCH, 1985)<10>.

In vielen Fällen liegen Datensätze vor, in denen sich sowohl intervall- beziehungsweise verhältnis-skalierte, als auch nominal- und/oder ordinalskalierte Variablen befinden. Eine Möglichkeit ist dann die Ermittlung separater Proximitätsmatrizen entsprechend des jeweiligen Skalenniveaus und die getrennte Analyse. Eine Alternative ist die Ermittlung einer, aus verschiedenen Proximitätsmaßen gebildeten, mittleren (gewichteten) Proximitätsmatrix. Letzterer Gedanke wird durch den allgemeinen Ähnlichkeitskoeffizienten formalisiert (GOWER, 1971, GOWER & LEGENDRE, 1986).


17

Das Ähnlichkeitsmaß ist , wobei für intervall- beziehungsweise verhältnisskalierte Variablen und äquidistante, ordinalskalierte Variablen die Gleichung

gilt; bei nominal- und nicht äquidistanten, ordinalskalierten Variablen nimmt den Wert 1 an, wenn die Objekte r und t den gleichen Wert besitzen und den Wert 0 in allen anderen Fällen; bei binären Variablen nimmt den Wert 1 an, wenn die Objekte r und t den Wert 1 besitzen und den Wert 0 in allen anderen Fällen. Während ein Maß für die Ähnlichkeit von zwei Objekten ist, repräsentiert , ob überhaupt ein Vergleich zwischen den Objekten möglich ist. Können r und t bei Variable j miteinander verglichen werden, so nimmt den Wert 1 an, können sie nicht miteinander verglichen werden (zum Beispiel aufgrund fehlender Werte), wird normalerweise gleich Null gesetzt. Für binäre Variablen ist gleich Null, wenn bei Variable j sowohl bei r als auch bei t der Wert gleich Null ist. In allen anderen Fällen ist = 1. Einen GOWER, 1971, vergleichbaren Ansatz haben KAUFMANN & ROUSSEEUW, 1990.

Im Bereich der mehrdimensionalen Skalierung werden in dieser Arbeit nur zwei Verfahren näher betrachtet und zwar die Hauptkoordinatenanalyse und die ordinale mehrdimensionale Skalierung.

Die Hauptkoordinatenanalyse, die bisweilen auch als klassische oder metrische mehrdimensionale Skalierung bezeichnet wird, geht zurück auf Arbeiten von TORGERSON, 1958, und GOWER, 1966. Wenn hier die Bezeichnung Hauptkoordinatenanalyse gewählt wird, so vor allem, um die, wie es GOWER, 1966, nennt, Dualität von Hauptkomponentenanlyse und Hauptkoordinatenanalyse, auszudrücken (siehe unten). Einige wichtige Gesichtspunkte der Hauptkoordinatenanalyse lassen sich wie folgt zusammenfassen:

  1. Die gefundenen Achsen sind, wie in der Hauptkomponentenanlyse, rotierbar. Die Orientierung der gefundenen Konfiguration ist also nicht die einzig mögliche Lösung, und eine orthogonale Transformation oder auch eine Spiegelung, bei der Distanzen und Winkel erhalten bleiben, führen zu weiteren gültigen Darstellungen der (n x n) Proximitätsmatrix D (MORRISON, 1990).
  2. Wie in der Hauptkomponentenanlyse werden die 'wichtigsten' Dimensionen durch die größten Eigenwerte repräsentiert und analog zur Hauptkomponentenanlyse läßt sich mit als Eigenwert von Dimension i ( i = 1 ... n) als Maß der Anpassungsgüte des reduzierten Modells in q Dimensionen ( ) berechnen (KRZANOWSKI, 1988a).

    18

  3. Solange positiv semidefinit ist, ist G ein guter Anhaltspunkt für die Anpassungsgüte. B ist immer dann positiv semidefinit, wenn das Proximitätsmaß die metrische Ungleichung erfüllt<11>. Sie wird von einer Reihe von Proximitätsmaßen, zum Beispiel der euklidischen Distanz, aber auch zum Beispiel dem Simple Matching-Ähnlichkeitsmaß erfüllt (GOWER, 1971).
  4. Ist die metrische Ungleichung nicht erfüllt, wird B in der Regel nicht positiv semidefinit sein, und einer oder mehrere negative Eigenwerte vorliegen, das heißt, mindestens eine Dimension der Konfiguration ist imaginär, die Anpassungsgüte ist unbefriedigend und G wird überschätzt (SIBSON, 1979).
  5. Eine weitere Möglichkeit die Anpassungsgüte zu beurteilen, ist ein Plot (der sogenannte Shepard Plot) der Proximitätswerte der Ausgangsmatrix gegen die euklidischen Distanzen der Objekte, der durch die Hauptkoordinatenanalyse in q Dimensionen (q n) ermittelten Konfiguration. Eine gute Übereinstimmung wird durch einen linearen, durch den Ursprung gehenden Verlauf gekennzeichnet. Ein weiteres Hilfsmittel zur Überprüfung der Anpassungsgüte einer durch Dimensionserniedrigung erzielten Konfiguration ist die Überlagerung der dimensionserniedrigten Darstellung der Objekte durch einen Minimum Spanning Tree<12> (CHATFIELD & COLLINS, 1980).
  6. Zwischen Hauptkoordinatenanalyse und Hauptkomponentenanalyse besteht eine Dualität, das heißt, die Hauptkoordinatenanalyse ergibt für die Objekte exakt dieselben Koordinaten aus D wie die Hauptkomponentenanlyse in Form der Hauptkomponentenwerte aus X, wenn die Proximitätsmatrix D die Matrix der euklidischen Distanzen der Objektmatrix X ist (GOWER, 1966). Die Hauptkoordinatenanalyse ist daher vor allem dann sinnvoll, wenn eine Proximitätsmatrix als Ausgangsmatrix vorliegt, oder die aus der Ausgangsmatrix X abgeleitete Proximitätsmatrix nicht durch die Bildung euklidischer Distanzen der Objekte von X gewonnen wird, sondern durch Anwendung eines anderen - der metrischen Ungleichung entsprechenden - Proximitätsmaßes, zum Beispiel bei Verwendung des allgemeinen Ähnlichkeitskoeffizienten aufgrund des Vorliegens von Variablen mit unterschiedlichen Skalenniveaus.

Während die Hauptkoordinatenanalyse bestrebt ist, die Unähnlichkeiten zwischen den Objekten der Ausgangsmatrix numerisch so exakt wie möglich abzubilden, wird in der ordinalen mehrdimensionalen Skalierung, die bisweilen auch als nicht-metrische mehrdimensionale


19

Skalierung bezeichnet wird, lediglich gefordert, daß die Rangfolge der Unähnlichkeiten der Ausgangsmatrix, der Rangfolge der Unähnlichkeiten, die durch die ordinale mehrdimensionale Skalierung erzielt wird, entspricht. Ein weiterer wichtiger Unterschied zwischen Hauptkoordinatenanalyse und ordinaler mehrdimensionaler Skalierung ist darüber hinaus, daß die Überprüfung der Anpassungsgüte ein integrierter Bestandteil der ordinalen mehrdimensionalen Skalierung ist; auf iterativem Weg wird in der ordinalen mehrdimensionalen Skalierung ein gewähltes Kriterium, und damit die Anpassungsgüte, optimiert. Neben den bereits im vorangegangenen Kapitel genannten Einsatzgebieten, spielt die ordinale mehrdimensionale Skalierung zusätzlich vor allem dort eine Rolle, wo die Daten in Form von Rängen vorliegen, oder zwar numerische Proximitäten vorliegen, diese aber mit viel Ungenauigkeit behaftet sind und/oder davon ausgegangen wird, daß letztlich auch die Rangfolge der Proximitäten ausreichend Informationen für die zu beantwortenden Fragestellungen beinhaltet.

Die ordinale mehrdimensionale Skalierung geht zurück auf die Veröffentlichungen von SHEPARD, 1962a und 1962b und KRUSKAL, 1964a und 1964b. Einen ausführlichen Überblick zur Methodik sowie Diskussionen liefern unter anderem SCHIFFMAN et al., 1981, SHEPARD et al., 1972, oder YOUNG, 1987.

Zur Methodik der einfachen, ordinalen mehrdimensionale Skalierung, einige einleitende Definitionen:

  1. Als Dissimilaritäten werden die Unähnlichkeiten der Ausgangsproximitätsmatrix bezeichnet;
  2. als Distanzen werden die euklidischen Distanzen der Objekte in der durch die mehrdimensionale Skalierung erzielten Konfiguration in q Dimensionen bezeichnet;
  3. als Disparität wird der Schätzwert bezeichnet, der durch die dem mehrdimensionalen Skalierungsmodell zugrunde gelegte Beziehung von und geschätzt wird.

Bei der Durchführung einer ordinalen mehrdimensionalen Skalierung sind zu beachten:

  1. Wahl der Anzahl der zu betrachtenden Dimensionen q; zu beachten ist, daß die Objektkoordinaten der ersten und zweiten Dimension einer Lösung in zwei Dimensionen nicht den Koordinaten der ersten und zweiten Dimension einer Lösung in drei Dimensionen entsprechen müssen; das heißt, die Anzahl der Dimensionen, in denen die Anpassungsgüte optimiert wird hat einen Einfluß auf die Koordinaten der zu betrachtenden Dimensionen. Vor allem q = 2 ist natürlich mit Hinblick auf die graphische Darstellung der Lösung vorteilhaft.
  2. Festlegung der Ausgangskonfiguration in q Dimensionen; häufig wird als Ausgangskonfiguration das Ergebnis einer Hauptkoordinatenanalyse gewählt. Der

    20

    Beginn mit mehreren (zufälligen) Ausgangskonfigurationen wird ebenfalls empfohlen, um die Gefahr zu verringern, den Iterationsprozeß an einem lokalen, statt an dem globalen Minimum des Optimierungskriteriums zu beenden (GENSTAT COMMITTEE, 1993).
  3. Wahl des Kriteriums, das optimiert werden soll; zum Beispiel , , oder (EVERITT, 1978, GENSTAT COMMITTEE, 1993).
  4. Wiederholen der Schritte 1. bis 3. für mehrere Werte von q, in der Regel 1 q 5. Beginn üblicherweise mit . Möglich ist dann Verwendung dieser Konfiguration (in Dimensionen) als Ausgangskonfiguration für die Analyse in der nächst niedrigen Dimensionszahl und entsprechend für alle weiteren Werte von q.

Einige zusätzliche Anmerkungen:

  1. Die Festlegung der Anzahl der zu betrachtenden Dimensionen ist ähnlich problematisch wie in der Hauptkomponentenanalyse.
  2. Je mehr Dimensionen betrachtet werden, desto geringer ist der Wert des stress-Kriteriums am Ende des Iterationsprozesses. Ab welchem Punkt jedoch ein ausreichend niedriger Wert erreicht ist, ist letztlich eine subjektive Entscheidung. Einige grobe Faustzahlen gibt KRUSKAL, 1964b, die jedoch nicht mehr als (ungenaue) Anhaltspunkte sein können<13>.
  3. Neben dem stress-Wert ist auch der Wert des quadrierten Korrelationskoeffizienten zwischen Distanzen und Disparitäten ein guter, oft sogar besserer, Anhaltspunkt für die Anpassungsgüte des Modells und die Festlegung der Anzahl der zu betrachtenden Dimensionen (SCHIFFMAN et al., 1981).
  4. Da die Reproduktion der Ränge mehr Spielräume als die exakte, numerische Reproduktion läßt, ist mit der ordinalen mehrdimensionalen Skalierung häufig eine befriedigende Lösung in weniger Dimensionen zu finden als mit der Hauptkoordinatenanalyse. Allerdings sind sehr extreme Objekte in der Regel wenig stabil, das heißt sie können praktisch an einer beliebig fernen Stelle der Konfiguration plaziert werden (KRZANOWSKI, 1988a).

    21

  5. Vergleiche zwischen Hauptkoordinatenanalyse und ordinaler mehrdimensionaler Skalierung liefern zum Beispiel CHATFIELD & COLLINS, 1980; einen kurzen Überblick gibt GORDON, 1981. Verallgemeinernd läßt sich festhalten, daß in der Regel die ordinale mehrdimensionale Skalierung vergleichbare oder bessere und nur selten schlechtere Ergebnisse als die Hauptkoordinatenanalyse erbringt<14>.

Als Kriterien für die Anzahl der zu betrachtenden Dimensionen nennt SHEPARD, 1972,

SCHIFFMAN et al., 1981, betonen daneben den Wert der quadrierten Korrelationen als gute Richtlinie, und RAMSAY, 1982, schlägt einen Signifikanztest vor. Darüber hinaus sind in diesem Zusammenhang die Arbeiten von KLAHR, 1969, LEVINE, 1978, und SPENCE, 1979, zu nennen. Als Hilfsmittel für die Entscheidung der zu betrachtenden Dimensionalität werden hier stress-Werte zufällig generierter Proximitätsmatrizen herangezogen. Liegen die stress-Werte einer aktuellen Untersuchung deutlich (30 - 50 %) unter den stress-Werten von Zufalls-Proximitätsmatrizen, so kann nach SPENCE, 1979, von nicht nur auf Zufallsvariabilität beruhenden Daten ausgegangen werden. Als Ergebnis der Untersuchungen von KLAHR, 1969 und LEVINE, 1978, ist festzuhalten:

  1. je größer die Anzahl der Objekte ist, desto unwahrscheinlicher ist es, bei Zufalls-Proximitätsmatrizen geringe (das heißt unter 0.1) stress-Werte zu bekommen;
  2. je größer die Anzahl der Objekte ist, desto ähnlicher werden sich die stress-Werte der Zufalls-Proximitätsmatrizen in einer zunehmenden Anzahl von Dimensionen (geprüft bis q = 5) und desto geringer wird die Abnahme des stress-Wertes bei Hinzunahme einer weiteren Dimension. Als Faustzahl werden 10 Objekte genannt. Sie sollten einer mehrdimensionalen Skalierung mindestens zur Verfügung stehen. Bei weniger als 10 Objekten ist die Gefahr groß, auch bei Daten ohne Struktur eine Struktur aufgrund eines niedrigen stress-Wertes zu vermuten.

Eine Approximation an den stress-Wert von Zufalls-Proximitätsmatrizen gibt SPENCE, 1979.

Abschließend soll kurz auf die Diskussion eingegangen werden, welche Ausgangskonfiguration bei einer ordinalen mehrdimensionalen Skalierung verwendet werden sollte. SPENCE, 1972, argumentiert für eine geplante (rationale) Startkonfiguration, vor allem mit dem Hinweis auf zu


22

sparende Rechenzeit. Als mögliche rationale Startkonfiguration erwähnen SPENCE & YOUNG, 1978, zum Beispiel die Konfiguration, die durch eine Hauptkoordinatenanalyse erzielt wird. Die Gefahr an einem lokalen Minimum 'gefangen' zu werden schätzen sie bei dieser Strategie als relativ gering ein. Die rationale Ausgangskonfiguration wird vor allem als vorteilhaft gegenüber des Analysebeginns mit einer einzigen Zufalls-Ausgangskonfiguration angesehen. ARABIE, 1973, 1978a und 1978b, dagegen begründet die Vorteilhaftigkeit der Verwendung einer Zufallskonfiguration wie folgt:

  1. es ist nicht klar, welche der möglichen rationalen Startkonfigurationen die beste ist im Hinblick auf die Vermeidung von Lösungen an lokalen Minima beziehungsweise dem Erzielen von Lösungen mit minimalen stress-Werten;
  2. wenn demnach mehrere rationale Ausgangskonfigurationen verwendet werden sollen, sind größerer Rechenaufwand und größere Programmresourcen notwendig, als wenn eine beliebige Anzahl (ARABIE, 1978a empfiehlt 20) von Zufalls-Ausgangskonfigurationen erzeugt und analysiert wird, und die Lösung derjenigen Zufalls-Ausgangskonfiguration verwendet wird, die den geringsten stress-Wert erreicht.

23

Tabelle 2: Überblick über einige Proximitätsmaße

Skalenniveau der Variablen

Bezeichnung und Formel

(Quellen: BACHER, 1994, EVERITT, 1980, GOWER & HAND, 1996, SCHUBÖ et al., 1991)

intervall- beziehungsweise verhältnisskaliert

Minkowski

(wenn R = 1 enspricht dies der City-Block-Distanz, wenn R = 2 der euklidischen Distanz)

Czekanowski

Canberra

Mahalanobis

(j1 und j2 sind zwei von p Variablen und das Element der j1-ten Zeile und der j2-ten Spalte der Inversen der Kovarianzmatrix der p Variablen)

ordinalskaliert

bei äquidistanter Ordinalskala ist Verwendung der für intervall- beziehungsweise verhältnisskalierten Variablen entwickelten Proximitätsmaße möglich; wegen seiner sinnvollen ordinalen Interpretation ist vor allem das City-Block-Distanzmaß geeignet (siehe BACHER, 1994); bei nicht äquidistanter Ordinalskala werden für nominalskalierte Variablen entwickelten Proximitätsmaße verwendet.

nominalskaliert

Sneath Matching

( ist gleich der Anzahl der Übereinstimmungen bei r und t, geteilt durch p)

binäre Variablen

Simple Matching

Jaccard

Roger & Tanimoto

im Fall binärer Variablen gilt die folgende 2-Wege Tafel

Objekt r

Objekt t 1 0

1 a b

0 c d a+b+c+d = p, das heißt die Kontingenztafel zeigt auf, bei wieviel Variablen zwischen r und t Übereinstimmung (bei a und d) beziehungsweise nicht Übereinstimmung (bei b und c) besteht.

Bezeichnungen und Indices: d steht für ein Unähnlichkeits-, s für ein Ähnlichkeitsmaß; j steht für eine Variable, die Indices r und t kennzeichnen zwei Objekte; ist somit der Wert von Variable j bei Objekt r.


24

2.1.3. Korrespondenzanalyse

Die Korrespondenzanalyse ist eine weitere, überwiegend deskriptiv eingesetzte Methode zur graphischen Abbildung von Datenmatrizen, aufbauend auf der Eigenwertzerlegung (singular value decomposition) der Datenmatrix (GOOD, 1969). Die Korrespondenzanalyse ist vor allem von der französischen Statistik begründet und entwickelt worden (zum Beispiel BENZECRÍ, 1973). Ursprünglich stand die Analyse von Häufigkeitsdaten nominalskalierter Variablen in Form einer bivariaten Korrespondenzanalyse im Vordergrund. Entsprechende Kodierung ermöglicht aber auch die Analyse intervall-, beziehungsweise verhältnisskalierter Variablen, ordinalskalierter Variablen und gemischter Variablensätze. Einführende Darstellungen liefern zum Beispiel GREENACRE, 1981, HILL, 1974, oder JAMBU, 1991, zusammenfassende Gesamtdarstellungen GREENACRE, 1984 und 1993. Auf die enge Verbindung von Korrespondenzanalyse und die Analyse von Kontingenztafeln mit Hilfe log-linearer Modelle sei hingewiesen (siehe zum Beispiel VAN DER HEIJDEN & DE LEEUWS, 1985 oder VAN DER HEIJDEN et al., 1989).

Die bivariate Korrespondenzanalyse dient zur Analyse einer (k x p) Datenmatrix Z, einer Kontingenztafel mit i = 1 ... k Zeilen (k Ausprägungen der nominalskalierten Zeilenvariablen ) und j = 1 ... p Spalten (p Ausprägungen der nominalskalierten Spaltenvariablen ). Die Vektoren der Zeilen- und Spaltensummen von Z sind der (k x 1) Spaltenvektor z beziehungsweise der (1 x p) Zeilenvektor s. ist die Diagonalmatrix der Zeilen-, die Diagonalmatrix der Spaltensummen von Z.

Ziel der Korrespondenzanalyse ist die Darstellung der Zeilen- und/oder Spaltenprofile im - wenn sinnvoll und ohne großen Informationsverlust möglich - zweidimensionalen Raum beziehungsweise allgemein im q-dimensionalen Raum (q < min(k,p)). Zu den Koordinaten für die Darstellung der Zeilen- und Spaltenprofile gelangt man über die Eigenwertzerlegung der doppelt gewichteten Matrix Z, also durch die Eigenwertzerlegung von , wobei U die (k x p) Matrix der linken singulären Vektoren, V die (p x p) Matrix der rechten singulären Vektoren und die p-dimensionale Diagonalmatrix der singulären Werte von sind. Die Koordinaten für die Zeilenprofile errechnen sich dann als die Elemente der (k x p) Matrix , die Koordinaten für die Spaltenprofile als die Elemente der (p x p) Matrix , mit als Diagonalmatrix der Zeilen- und als Diagonalmatrix der Spaltensummen von , mit N als der Gesamthäufigkeit (GENSTAT COMMITTEE, 1993).

Eine Besonderheit der Korrespondenzanalyse als Folge der doppelten Wichtung von Z ist das Auftreten einer Lösung, die immer mit dem größten singulären Wert ( = 1) korrespondiert und dessen Zeilen- und Spaltenkoordinaten ebenfalls gleich 1 sind. Der erste singuläre Wert und die mit ihm korrespondierenden singulären Vektoren werden daher in der Regel verworfen.

Die Koordinaten sind so skaliert, daß gelten und . Andere


25

Skalierungen sind natürlich denkbar. Häufig verwendet wird eine Tranformation zu einer Standardisierung zur Einheitshauptachse durch mit und mit , wobei I eine (k x k) beziehungsweise (p x p) Einheitsmatrix ist. Diese Koordinaten werden dann auch als Standardkoordinaten bezeichnet.

In gewissen Fällen kann es informativ sein, die Zeilenprofile in Normal- und die Spaltenprofile in Standardkoordinaten darzustellen und umgekehrt. So führt zum Beispiel eine Darstellung der Zeilenprofile in Normal- und der Spaltenprofile in Standardkoordinaten zu einer Abbildung, in der der Zeilenprofilpunkt exakt am Zentroid der Spaltenprofilpunkte liegt, die das Zeilenprofil definieren. Eine Abbildung der Zeilenprofilpunkte in Standard- und der Spaltenprofilpunkte in Normalkoordinaten hingegen führt zu einer Abbildung, in der jeweilige Spaltenprofilpunkt am Zentroid der Zeilenprofilpunkte liegt, die der Kategorie des betrachteten Spaltenprofils zugerechnet werden können.

Zur Interpretation der Ergebnisse einer (bivariaten) Korrespondenzanalyse ist die graphische Abbildung der Profile der wichtigste Ausgangspunkt. Es ist zu beachten, daß die durch die Korrespondenzanalyse abgebildeten Chi-Quadrat Distanzen, die durch die euklidischen Distanzen in der dimensionserniedrigten Darstellung approximiert werden, nur innerhalb der Zeilenprofile, beziehungsweise nur innerhalb der Spaltenprofile als solche interpretiert werden dürfen. Die Distanz zwischen einem Zeilenprofilpunkt und einem Spaltenprofilpunkt ist dagegen nicht durch eine entsprechende Chi-Quadrat Distanz definiert. Neben der graphischen Abbildung der Zeilen- und Spaltenprofile sind folgende Kennwerte hervorzuheben:

  1. Die singulären Werte beziehungsweise die Eigenwerte jeder Dimension (in der Sprache der Korrespondenzanalyse die Inertia jeder Dimension) sowie der Anteil der Inertia der betrachteten Dimensionen an der Gesamtinertia der Ausgangsmatrix.
  2. Der absolute Beitrag eines Profilpunktes zur Definition der jeweiligen Dimension. Der absolute Beitrag gibt Auskunft darüber, in wie weit der jeweilige Profilpunkt an der Ausrichtung der jeweiligen Achse beteiligt ist und ist daher - vergleichbar mit den Koeffizienten (den Eigenvektoren) in der Hauptkomponentenanlyse - ein Anhaltspunkt für die Beschreibung und Interpretation der jeweils betrachteten Dimension.

Der relative Beitrag einer Dimension zur Inertia eines bestimmten Profilpunktes. Der relative Beitrag ist ein Maß für die Güte der Repräsentation eines Profils bei der gewählte Dimensionalität. Es ist durchaus denkbar, daß ein Profilpunkt zwar einen geringen absoluten Beitrag zur Ausrichtung der jeweiligen Dimension liefert, dennoch aber gut durch die gewählte Darstellung repräsentiert wird, das heißt


26

einen hohen relativen Beitrag besitzt. Der relative Beitrag kann auch als der Winkel

  1. zwischen den jeweiligen Achsen und einer den Ursprung und den Profilpunkt verbindenden Linie betrachtet werden.
  2. Die Summe der relativen Beiträge, die auch als Qualität bezeichnet wird und deren Maximum 1 ist. Sie gibt Aufschluß über die Gesamtanpassung der Profile bei der gewählten Dimensionalität.

GREENACRE, 1993, schlägt darüber hinaus vor, für die Zeilen beziehungsweise Spalten Achsen zu berechnen und diese mit entsprechenden Markern zu versehen, die für die relativen Häufigkeiten stehen. GREENACRE, 1993, bezeichnet dieses Vorgehen als Kalibrierung. Eine orthogonale Projektion, zum Beispiel eines Zeilenprofilpunktes auf die so gebildete Achse einer Spaltenvariablen, ermöglicht das Abschätzen der relativen Häufigkeit der entsprechenden Zeilen-Spalten-Kombination. Voraussetzung ist natürlich eine gute Qualität der graphischen Repräsentation. In Zusammenhang mit den noch zu besprechenden Biplots (Kapitel 2.2) wird auf ähnliche Verfahrensweisen, im Bereich der multiplen Korrespondenzanalyse, näher eingegangen.

Die Kontingenztafel Z kann in die Indikatormatrix umgewandelt werden, indem für jedes Objekt eine Zeile gebildet wird, und die Ausprägungen der Variablen in die Spalten geschrieben werden. Für Variable 1 (zum Beispiel die Spaltenvariable von Z) ergeben sich = 1 ... Spalten, für die Variable 2 (zum Beispiel die Zeilenvariable von Z) ergeben sich = 1 ... Spalten. Bei Zutreffen der jeweiligen Ausprägung einer Variablen bei Objekt i (i = 1 ... n) wird die Spalte, die dieser Ausprägung entspricht, mit einer 1, bei Nichtzutreffen mit einer 0 gekennzeichnet. Die so entstandene Indikatormatrix wird der Korrespondenzanalyse unterzogen und liefert in Bezug auf die relative Lage der Variablenkoordinaten dieselbe Darstellung wie die Korrespondenzanalyse der Häufigkeitsmatrix. Die Werte der Gesamtinertia der Achsen sind bei Analyse von jedoch in der Regel größer als bei Analyse von Z, die Achsen sind im Vergleich gestaucht oder gestreckt. Für die Zeilen (Objekte) können wie für die Spaltenvariablen Koordinaten errechnet werden, wobei die Objekte mit identischen Werten auf einem Punkt zusammenfallen.

An Stelle von lediglich zwei Variablen kann eine Vielzahl von Variablen betrachtet werden und es wird folglich von einer multivariaten Indikatormatrix und entsprechend von einer multivariaten oder auch häufig von einer multiplen Korrespondenzanalyse gesprochen. Wie in der bivariaten Korrespondenzanalyse spielen die graphische Darstellung der Variablen und der Objekte, sowie Aussagen zu absolutem und relativem Beitrag, zur Qualität und zur Inertia der einzelnen Dimensionen und Profilpunkte, eine wichtige Rolle. Die relativen Werte der Inertia der ersten (zwei) Dimensionen sind in der Regel gering. Als Hauptursache führt GREENACRE, 1991, die künstliche Schaffung zusätzlicher Dimensionen durch die oben beschriebene Kodierung an.

Die Bildung einer Indikatormatrix ermöglicht die Verrechnung von Variablen mit beliebigen Skalenniveaus und gemischter Variablensätze. Notwendig ist allerdings die Diskretisierung nicht nominalskalierter Variablen, das heißt ordinal-, intervall- und verhältnisskalierte Variablen müssen so kodiert werden, daß entsprechende Kategorien oder Klassen gebildet werden. Kodierungen


27

haben in der Regel einen Informationsverlust zur Folge und unterliegen subjektiven Entscheidungen. Es kann daher angebracht sein zu überprüfen, ob und wie stark unterschiedliche Klassenbildungen beziehungsweise Kodierungsverfahren die Analyseergebnisse beeinflussen.

Alternativen zur multiplen Korrespondenzanalyse der Indikatormatrix sind die multiple Korrespondenzanalyse der Burt-Matrix beziehungsweise die gemeinsame Korrespondenzanalyse (joint correspondence analysis). Die Burt-Matrix (BURT, 1950) berechnet sich als . Bei Verwendung von Standardkoordinaten ergibt die Analyse von Spaltenkoordinaten, die den (Standard-) Spaltenkoordinaten der Analyse von entsprechen. Unterschiede bei den Normalkoordinaten sind bedingt durch Unterschiede bei den Inertias ( ) der Dimensionen, die wie folgt in Beziehung stehen: . Informationen zu den Objekten gehen bei Verwendung der Burt-Matrix natürlich verloren. Wo diese von besonderem Interesse sind, wie in der vorliegenden Arbeit, ist die Korrespondenzanalyse der Burt-Matrix daher nur eingeschränkt sinnvoll.

Die gemeinsame Korrespondenzanalyse (joint correspondence analysis) kann als Analyse der Elemente außerhalb der Diagonalen der Burt-Matrix verstanden werden (GREENACRE, 1988, 1991 & 1993, GOWER & HAND, 1996). Ihre Lösung erfolgt auf iterativem Weg. Durch die gemeinsame Korrespondenzanalyse wird eine gegenüber der multiplen Korrespondenzanalyse der Indikatormatrix verbesserte graphische Repräsentation der Beziehungen der Variablen untereinander erzielt. Zur Interpretation wird die Darstellung einer Variablen in Standardkoordinaten und die Darstellung der übrigen Variablen in Normalkoordinaten empfohlen. Die Standardkoordinaten der Kategorien der ausgewählten Variablen dienen dann als Referenzpunkte für die Interpretation der Beziehungen der übrigen Variablen zu der in Standardkoordinaten abgebildeten Variablen. Steht der iterative Algorithmus zur Durchführung einer gemeinsamen Korrespondenzanalyse nicht zur Verfügung, kann durch ein Reskalierungsverfahren das Ergebnis einer multiplen Korrespondenzanalyse der Burt-Matrix den Ergebnissen einer gemeinsamen Korrespondenzanalyse angenähert werden. Die Objekte betreffend gilt für die gemeinsame Korrespondenzanalyse dieselbe Einschränkung wie für die Korrespondenzanalyse der Burt-Matrix (siehe oben).

Häufig treten in gartenbaulichen Untersuchungen ordinalskalierte Variablen zum Beispiel in Form von Boniturwerten auf. Diese ordinalskalierten Variablen besitzen eine obere und eine untere Grenze und werden daher auch als bipolare Daten bezeichnet. Die Korrespondenzanalyse bipolarer Daten erfolgt durch Analyse der 'verdoppelten' Matrix (GREENACRE, 1984). Eine Matrix ordinalskalierter Variablen wird 'verdoppelt', indem für jede Variable eine Plus- und eine Minusspalte gebildet wird. Sind p ordinalskalierte Variablen gegeben (j = 1 ... p), und wird als die obere Grenze der Boniturskala von Variable j, und als der Boniturwert von Objekt i bei Variable j definiert


28

(i = 1 ... n), so errechnet sich die Plusspalte j+ als und die Minusspalte j- als . Die so 'verdoppelte' Matrix wird der Korrespondenzanalyse unterzogen. Im Korrespondenzanalyseplot fallen Ursprung und Zentroid der Koordinatenmatrix zusammen. Eine gedachte Linie vom Plus- zum Minuspol jeder Variablen führt durch den Ursprung. Die Distanz vom Ursprung zu den jeweiligen Koordinaten eines Plus- oder eines Minuspols ( oder ) ist in der vollen Dimensionalität gleich dem Variationskoeffizient der Plus- oder Minusspalte. Wird eine reduzierte Dimensionalität betrachtet, bieten und natürlich nur Approximationen an die Variationskoeffizienten.

Zwei weitere Kennwerte in der Interpretation der Korrespondenzanalyse bipolarer Daten sind die Polarisation des Mittels und die Polarisation der Objekte. Wenn , mit als dem mittleren Boniturwert von Variable j definiert wird und andererseits ist, so ist das Produkt von und , also umgekehrt proportional zur sogenannten Polarisation des Mittels ( ). Die geringste Polarisation des Mittels ergibt sich, wenn (und damit ) ist. wird definiert als und ist immer . Je größer die Polarisation des Mittels ist, desto mehr Bedeutung kommt einem der beiden Extremwerte der Boniturskala zu.

Eine hohe Polarisation der Objekte hingegen deutet auf die Lage der Objekte nahe den Pole, das heißt auf extreme Boniturwerte hin, während eine geringe Polarisation der Objekte auf dem Mittel nahe liegende Bonituren hinweist. Wenn mit als Wert von Objekt i (i = 1 ... n) bei Variable j (1 ... p) ist, so drückt ein hoher -Wert die Nähe des Objekts i zum Pluspol von Variable j und Ferne zum Minuspol derselben Variablen aus. Die Polarisation der Objekte berrechnet sich dann durch . Wie die Polarisation des Mittels hat sie Minimum von 4.

Die durch den Ursprung gehende (gedachte) Linie vom Punkt des positiven, zum Punkt des negativen Pols jeder Variablen - die der Summe von und entspricht - kann wie folgt interpretiert werden.

  1. Ist das Verhältnis der größeren zu der kleineren Distanz und für die Variablen (annähernd) gleich, so ist auch die Polarisation des Mittels annähernd gleich, so daß die Gesamtlänge der Linie proportional zu , das heißt proportional zur mit der oberen Grenze der Boniturskala gewichteten Standardabweichung ( ) dieser Variablen, ist.
  2. Ist die Summe und (annähernd) gleich, aber das Verhältnis von größerer zu kleiner Distanz unterschiedlich, liegt also unterschiedliche Polarisation des Mittels vor, so heißt das, daß die am geringsten polarisierte Variable die größte Standardabweichung besitzt.

    29

  3. Sind sowohl die Gesamtlänge als auch das Verhältnis der Distanzen unterschiedlich, so ist die Gesamtlänge das Ergebnis einer Wechselwirkung von Standardabweichung und Polarisation des Mittels und nimmt mit steigender Standardabweichung und steigender Polarisation des Mittels zu.

Der Kosinus des Winkels zwischen zwei Linien zweier Spalten approximiert die Korrelation zwischen diesen Spalten.

Die Koordinaten der Zeilen (Objekte) der 'verdoppelten' Matrix sind äquivalent der Hauptkomponentenwerte dieser Objekte, bei Durchführung einer Hauptkomponentenanlyse der einfachen, nicht 'verdoppelten' Matrix, wenn die Variablen derart tranformiert werden, daß gilt mit dem Faktor als . Diese Transformation führt im Vergleich zur häufig in der Hauptkomponentenanlyse durchgeführten Standardisierung (siehe 2.1.1) zu einer stärkeren Hervorhebung stark polarisierter Objekte. Je größer die Polarisation eines Objekts ist, desto stärker geht sie in die Berechnung der Distanzen zweier Objekte ein. Ein Genstat Code für die Korrespondenzanalyse bipolarer Daten ist im Anhang Teil III zu finden.

Ist durch die Korrespondenzanalyse einer Matrix eine Abbildung der Häufigkeits-, Indikator-oder 'verdoppelten' Matrix erstellt, kann es informativ sein, in die vorhandene Darstellung zusätzliche Punkte, sei es Zeilen- oder Spaltenprofile, miteinzubeziehen. Solche zusätzlichen Punkte können, zum Beispiel in der gruppenweisen Analyse, die Ergebnisse anderer Objekte, oder auch externe Variablen sein. Die Koordinaten der zusätzlichen Punkte erhält man durch Anwendung geeigneter Transitionsformeln. Auf graphischem Weg ist diese Interpolation ebenfalls möglich (siehe Kapitel 2.2).

Abschließend einige Anmerkungen zur Beurteilung der Stabilität von Korrespondenzanalyse-Lösungen<15>. GREENACRE, 1984, unterscheidet zwischen interner und externer Stabilität. Der Begriff interne Stabilität bezieht sich auf die Ausgangsmatrix an sich, das heißt die interne Stabilität beurteilt, wie stark die Repräsentation der Matrix in der Korrespondenzanalyse von einzelnen Objekten beeinflußt wird. Sind Ausreißer oder Objekte mit sehr großer Leverage vorhanden, so kann die Entfernung dieser Objekte aus der Ausgangsmatrix die Repräsentation der Matrix erheblich verändern, die Lösung ist also intern instabil. Auch die Bedeutung einzelner Variablen wird als Merkmal interner Stabilität verstanden.<16>


30

Der Begriff externe Stabilität bezieht sich auf die Beziehung der Ausgangsmatrix zu der multivariaten Grundgesamtheit, aus der sie als Stichprobe ermittelt wurde. Werden weitere Stichproben gezogen, die zu stark abweichenden Lösungen führen, so ist die Lösung als extern instabil anzusehen.

Zur Beurteilung der internen Stabilität empfiehlt GREENACRE, 1984, Jackknifing, zur Beurteilung der externen Stabilität, Bootstrapping. Beide Verfahren werden in Kapitel 5 kurz angesprochen. Eine interne Stabilitätsbeurteilung wird in Kapitel 3 eingesetzt und liegt als Genstat Code im Anhang Teil III vor.


31

2.1.4. Faktoranalyse

Bei der Faktoranalyse handelt es sich wie bei der Hauptkomponentenanlyse um eine variablenorientierte R-Technik für intervall- beziehungsweise verhältnisskalierte und ordinalskalierte Variablen, die zu einer Dimensionserniedrigung genutzt werden kann. Sie wird ausführlich zum Beispiel von HARMAN, 1976, dargestellt. BARTHOLOMEW 1984 und 1985, unternimmt den Versuch, ein allgemeines Faktoranalysemodell zu definieren, das bei Variablen aller Skalenarten und bei gemischten Variablensätzen zu entsprechenden Lösungen führt. Ob überhaupt, und inwieweit, sich diese Ansätze gegenüber der ‘klassischen’ Faktoranalyse durchsetzen werden, ist noch unklar (siehe die Diskussion zu BARTHOLOMEW, 1985, zum Beispiel McDONALD, 1985). Obwohl eine gewisse Ähnlichkeit zur Hauptkomponentenanlyse vorhanden ist, gibt es auch wichtige Unterschiede. Im Gegensatz zur Hauptkomponentenanlyse liegt der Faktoranalyse ein gedankliches Konzept zugrunde und zwar das der latenten Variablen (beziehungsweise Faktoren). Dieses Konzept kann wie folgt erläutert werden. Die Korrelation zwischen zwei Variablen und kann das Resultat ihrer gemeinsamen starken Korrelation mit einer weiteren Variablen sein. Wenn dies zutrifft, ist die partielle Korrelation sehr gering, das heißt die Residualkorrelation zwischen und ist gering, nach Berücksichtigung des linearen Effekts von auf sowohl als auch . Im Konzept der Faktoranalyse wird nun davon ausgegangen, daß es für die beobachteten Variablen, die in der Faktoranalyse auch als manifeste Variablen bezeichnet werden, eine (sehr viel geringere) Anzahl solcher latenter Variablen gibt, die zu eben diesem Effekt der Reduktion der partiellen Korrelation führen. Da diese Variablen aber nicht meß- oder beobachtbar sind, werden sie als latente Variablen bezeichnet. Sie können zwar nicht gemessen, wohl aber mit Hilfe des Faktoranalysemodells geschätzt werden. Daneben gibt eine Vielzahl weiterer, vor allem methodischer, Unterscheidungen, auf die hier nicht eingegangen wird. Eine Zusammenfassung wichtiger Gemeinsamkeiten und Unterschiede von Hauptkomponenten- und Faktoranalyse gibt Tabelle 3.

Kontrovers wird nach wie vor über die Vorzüglichkeit der einen gegenüber der anderen Methode diskutiert. VELICER & JACKSON, 1990a und 1990b geben einen Überblick über diese Diskussion. Als Hauptpunkte lassen sich festhalten:

  1. Häufig sind die Lösungen sowohl im Bereich der Ladungen beziehungsweise Koeffizienten als auch im Bereich der geschätzten Faktorwerte beziehungsweise Hauptkomponentenwerte hoch korreliert.
  2. Wo Ergebnisse stark unterschiedlich sind, liegt in der Regel eine Überextraktion von Faktoren beziehungsweise Hauptkomponenten und/oder ein schlecht definiertes Modell vor.
  3. Impropere Lösungen (negative Schätzer für Elemente der Residuen (in der

    32

    Sprache der Faktoranalyse der spezifischen Varianzen oder spezifischen Faktoren)) stellen in der Faktoranalyse ein Problem dar. Sie müssen aber nicht nur als negativ angesehen werden, da sie als Diagnoseinstrument dienen können, um die Angemessenheit des Faktoranalysemodells zu überprüfen. Ausschalten improperer Lösungen durch einfache Manipulationen wie Begrenzung der Fehlerterme auf größer 0 nutzen diese Möglichkeit natürlich nicht und sind daher abzulehnen.
  4. Die Lösung der Hauptkomponentenanlyse ist einfacher und schneller als die der Faktoranalyse. Zwar nimmt die Fähigkeit der Rechner zu, gleichzeitig steigt aber auch die Komplexität und Dimensionalität der zu verarbeitenden Daten. Der Geschwindigkeitsunterschied wird daher im wesentlichen erhalten bleiben.
  5. Die Faktor-Unbestimmtheit - nicht zu verwechseln mit der Rotations-Unbestimmtheit, die ja auch für die Hauptkomponentenanlyse gilt - stellt ein besonderes, nach wie vor ungelöstes Problem in der Faktoranalyse dar. Sie ist die Konsequenz der Tatsache, daß im Faktoranalysemodell mehr Parameter geschätzt werden als Ausgangsvariablen, und damit Freiheitsgrade, vorhanden sind; aus p Variablen sind Parameter für q gemeinsame Faktoren und p spezifische Varianzen zu schätzen. Faktor-Bestimmtheit ist nur gegeben, wenn gilt. Werden mehr als Faktoren extrahiert, hat dies eine unbestimmte, und schon vor Rotation, uneindeutige Lösung zur Folge.
  6. Eine Trennung in rein deskriptive Hauptkomponentenanalyse und modellbegründetete, schließende Faktoranalyse, ist irreführend, da auch die Hauptkomponentenanlyse konfirmatorische Aspekte beinhaltet, wenn bestimmte Modellannahmen zutreffen.

Die Schlußfolgerung von VELICER & JACKSON, 1990a, ist, daß in vielen Fällen die Hauptkomponentenanlyse der Faktoranalyse vorzuziehen ist. Zu ähnlichen, bisweilen weit radikaleren Schlußfolgerungen, kommen auch HILLS, 1977, SCHÖNEMANN, 1990 und STEIGER, 1990. Die Anhänger der Faktoranalyse finden zum Beispiel in McARDLE, 1990, oder MULAIK, 1990, ihre Fürsprecher.

In dieser Arbeit wird auf die Anwendung der Faktoranalyse oder verwandter Methoden, die auf der Vorstellung von latenten Variablen beruhen verzichtet<17>. Das Zutreffen insbesondere der konzeptionellen Grundlagen der Faktoranalyse wird unter Berücksichtigung der noch zu


33

besprechenden Daten bezweifelt; die statistischen Modellannahmen der Faktoranalyse werden durch die vorliegenden Daten nicht gedeckt; angesichts der darüber hinaus nicht zu übersehenden theoretischen Probleme der Faktoranalyse (impropere Lösungen, Faktor-Unbestimmtheit, Schätzung der Faktorwerte) ist ein Rückgriff auf diese Methodik bei der expolorativen Zielsetzung dieser Arbeit nicht erforderlich.

Tabelle 3: Gemeinsamkeiten und Unterschiede von Faktoranalyse und Hauptkomponenten-analyse

 

 

 

 

Faktoranalyse

Hauptkomponentenanlyse

 

 

 

Gemeinsamkeiten

 

 

 

Technik

R-Technik

Orientierung

variablenorientiert

Rotation

Rotation der Ergebnisse zulässig

Variablenarten

in erster Linie für intervall- und verhältnisskalierte Variablen

Interpretation

Interpretation der Ladungen beziehungsweise Koeffizienten´wichtig, aber nicht unproblematisch

Unterschiede

 

 

Konzept

Konzept latenter Variablen

kein zugrundeliegendes gedankliches Konzept

Zielrichtung

Erklärung der Kovarianzstruktur

Beschreibung der Varianzstruktur

statistische Modellannahmen

Vielzahl von Annahmen für Lösung der MLFA<18> notwendig

Lösung ohne statistische Mo-dellannahmen möglich

Skalierung der Ausgangsvariablen

Lösung unverändert bis auf konstanten Faktor

Skalierung beeinflußt Lösung

Werte der Objekte

Berechnung der geschätzten Faktorwerte nach verschiedenen Verfahren und nicht eindeutig möglich

Berechnung der Hauptkompo-nentenwerte unproblematisch

Anzahl der Faktoren

Koeffizienten (Ladungen) verändern sich mit Anzahl betrachteter Faktoren

ohne Einfluß auf Hauptkompo-nenten und Koeffizienten


34

2.2. Biplots

Biplots sind graphische Darstellungen von Datenmatrizen, die gleichzeitig Objekte und Variablen in einer Graphik abbilden (daher auch 'Bi'plots). Biplots stellen demnach nicht eine eigene Analysemethode dar, sondern bieten die Möglichkeit der Visualisierung der Zeilen und Spalten einer Datenmatrix, aufbauend auf verschiedenen dimensionserniedrigenden Verfahren (zum Beispiel der Hauptkomponentenanalyse, der mehrdimensionalen Skalierung und der Korrespondenzanalyse).

Die in dieser Arbeit gewählte Erläuterung und Darstellung der Biplots basiert auf GOWER & HAND, 1996. Die Visualisierung der Datenmatrix in Biplots dieses Typus ermöglicht sowohl die graphische Interpolation neuer (das heißt nicht an der Konstruktion des Biplots beteiligter) Objekte, als auch die graphische Prediktion der Variablenwerte der vorhandenen Objekte. Sind also die Variablenwerte eines neuen Objekts bekannt, so läßt sich die Position des Objekts im Biplot abschätzen (Interpolation); ist auf der anderen Seite die Lage eines Objekts im Biplot bekannt, so lassen sich die Werte der Variablen für dieses Objekt vorhersagen (Prediktion).

Die Konstruktion eines Biplots erfolgt in der Art, daß zunächst durch ein geeignetes Verfahren der Dimensionserniedrigung die Koordinaten der Objekte im dimensionserniedrigten, vorzugsweise zweidimensionalen, Raum gefunden werden, und dann entsprechend der Zielrichtung (Interpolation oder Prediktion) in das neue Achsensystem, das als Referenzsystem dient, die Biplotachsen als (nicht orthogonale) Achsen der Variablen eingezeichnet werden. Die graphische, deskriptive Interpretation der Daten steht dann im Vordergund der Arbeit mit Biplots.

2.2.1. Hauptkomponentenanalyse-Biplots

Die Hauptkomponentenanalyse der (n x p) Datenmatrix X führt zur (p x p) Matrix der Eigenvektoren A und zur (n x p) Matrix der Hauptkomponentenwerte Y. Die Hauptkomponentenwerte liefern die Koordinaten der Objekte im q-dimensionalen Unterraum L des p-dimensionalen Ausgangsraumes R als orthogonale, also unkorrelierte, Projektionen in der Art, daß die quadrierten Abweichungen der Distanzen der Objekte in der q-dimensionalen Projektion von den Distanzen der Objekte im p-dimensionalen Raum, minimiert werden, das heißt es gilt: , wobei die Indizes r und t für zwei von n (i = 1 ... n) Objekten stehen, , die aus der Datenmatrix X abgeleitete euklidische Distanz der Objekte r und t ist, und die im q-dimensionalen Unterraum definierte euklidische Distanz zwischen r und t darstellt. schließlich ist die Abweichung zwischen und , um deren Minimierung es letztlich geht.

Zusätzlich zu den Positionen der Objekte sind nun in Biplots die Variablenachsen, die auch als Biplotachsen bezeichnet werden, zu ermitteln. Diese Achsen weisen die folgenden Merkmale auf:


35

  1. Jede Variablenachse ist mit Markern versehen, die die Werte der Variablen in den Orginaleinheiten der Variablen wiedergeben;
  2. die Positionen der Marker sind so gewählt, daß je nach Zielsetzung der Analyse, eine Interpolation oder eine Prediktion möglich ist;
  3. die Länge der Biplotachsen vom kleinsten zum größten Marker ist ein Maß für die Güte der Repräsentation der Variablen im Biplot. Je länger die Biplotachse im Interpolations-Biplot, desto besser ist die Repräsentation der betreffenden Variablen;
  4. der Kosinus des Winkels zwischen zwei Biplotachsen approximiert die Korrelation zwischen den Variablen;
  5. die Richtung der Biplotachsen ist ein Indiz für die Korrelation der Variablen mit den Hauptkomponenten.

Bei der Erstellung eines Biplots beziehungsweise von auf Skalierungsverfahren wie der Hauptkomponentenanalyse, mehrdimensionalen Skalierung und Korrespondenzanalyse beruhenden graphischen Abbildungen, die der Visualisierung von Distanzen dienen, ist zu beachten, daß auf den Achsen der Hauptkomponenten gleiche Maßstäbe verwendet werden, da sich nur dann eine realistische Interpretation der Objektdistanzen ergibt.

2.2.1.1. Berechnung der Biplotachsen und Marker

Ausgehend von einem geeigneten Wert für jede Ausgangsvariable, zum Beispiel die dem Mittelwert einer Variablen am nächsten gelegene ganze Zahl<19>, kann berechnet werden (im ganzzahligen Beispiel gilt dann )<20>.

Die Koordinaten für den Marker von i ergeben sich dann für die Interpolationsmarker als und für die Prediktionsmarker als wobei der (1 x q) Zeilenvektor der Koordinaten von i in q Dimensionen bei Variable j, die (p x q) Matrix der Eigenvektoren mit q Dimensionen und eine (1 x p) Matrix mit einer 1 an der Stelle der Variablen j (j = 1 ... p) und ansonsten nur Nullen sind. Die Werte links und rechts vom Ausgangswert i sind durch Multiplikation mit einer, dem gewählten Markerabstand entsprechenden Konstanten bis zum Einschluß der kleinsten und größten Variablenwerte zu finden, also durch beziehungsweise , wobei die Werte ,... und so weiter annimmt, und der Index für den Marker beim entsprechenden Multiplikator steht.


36

2.2.1.2. Interpolation und Prediktion

Die rechnerische Interpolation und Prediktion kann durch entsprechende Formeln erfolgen (siehe zum Beispiel JACKSON, 1991). Möglich ist nun im Biplot eine graphische Interpolation beziehungsweise Prediktion. Die Interpolation erfolgt durch die sogenannte Vektorsummenmethode. Dabei sind die Variablenwerte auf den Biplotachsen des zu interpolierenden Objekts miteinander zu verbinden und der Zentroid des so gefundenen Polygons festzulegen. Die Entfernung vom Ursprung - im Hauptkomponentenanalyse-Biplot also vom gemeinsamen Schnittpunkt aller Biplotachsen - zum Zentroid dieses Polygons, ergibt, multipliziert mit der Anzahl der betrachteten Variablen in der, durch die Lage dieses Zentroids bestimmten Richtung, die interpolierte Position des neuen Objekts. Die Prediktion der Variablenwerte erfolgt durch orthogonale Projektion vom Objektpunkt auf die jeweiligen Variablenachsen. Es ist zu beachten, daß Interpolations- und Prediktionsmarker unterschiedliche Positionen auf den Biplotachsen einnehmen, und daher immer nur der für den jeweiligen Zweck bestimmte Biplot verwendet werden darf.

2.2.1.3. Güte der Variablenrepräsentation

Visuell läßt sich die Güte der Variablenrepräsentation bereits durch die Länge der Biplotachsen der einzelnen Variablen beurteilen. Aufbauend auf den Eigenvektorwerten der einzelnen Variablen, lassen sich auch sogenannte CUSUM Diagramme erstellen (ARNOLD & COLLINS, 1993). Es gilt: , wobei der Eigenwert der -ten Hauptkomponente ( ) und die Elemente der (p x q) Matrix der Eigenvektoren sind. Der Beitrag der ersten Variablen zum Eigenwert der ersten Hauptkomponente errechnet sich dann zum Beispiel nach . Die Aufaddierung der Beiträge der einzelnen Variablen ergibt die Eigenwerte der einzelnen Hauptkomponenten. Die Abbildung der Beiträge in Form kumulativer Balkendiagramme mit den Beiträgen auf der Ordinate und den Hauptkomponenten auf der Abszisse, ermöglicht einen gleichzeitigen Einblick in die Bedeutung der Dimensionen und die Beiträge der Variablen.

Es ist festzuhalten, daß die Hauptkomponentenanalyse-Biplots in erster Linie auf die der Hauptkomponentenanalyse der Kovarianzmatrix aufbauen. Natürlich ist auch die Analyse der Korrelationsmatrix möglich, jedoch verliert der Hauptkomponentenanalyse-Biplot dann das wünschenswerte Merkmal der direkten Ablesbarkeit der Variablen-Orginalwerte und verwendet an dessen Stelle die standardisierten Werte. Der Anhang enthält in Teil III Genstat Codes zur Erstellung von Hauptkomponentenanalyse-Biplots mit Interpolations- und Prediktionsmarkern, inklusive der Möglichkeit der interaktiven Prediktion bei Verwendung standardisierter Daten, sowie einen Code zur Erstellung von CUSUM-Diagrammen.


37

2.2.2. Mehrdimensionale Skalierungs- und Korrespondenzanalyse-Biplots

Mit Hilfe der Verfahren der ordinalen mehrdimensionalen Skalierung kann, wie durch die Hauptkomponentenanalyse eine Objektkonfiguration erzeugt werden. Ein fundamentaler Unterschied zwischen Hauptkomponentenanalyse und ordinaler mehrdimensionaler Skalierung ist jedoch die Tatsache, daß die ordinale mehrdimensionale Skalierung von einer (n x n) Distanzmatrix D - die allerdings auch aus einer (n x p) Ausgangsmatrix X gebildet werden kann - ausgeht und nicht von der Datenmatrix X direkt<21>. Das heißt der q-dimensionale, durch die aus D berechnete Koordinatenmatrix bestimmte Raum L, ist im Fall der mehrdimensionalen Skalierung kein Unterrraum des p-dimensionalen Raumes R der Matrix X. Von daher ist die ordinale mehrdimensionale Skalierung keine Projektions-, sondern eine Optimierungsmethode, die die, durch definierten Objektdistanzen - auf iterativem Wege - möglichst nah an die tatsächlichen Objektdistanzen annähert. Die rechnerische Interpolation kann daher auch nur auf iterativem Weg erfolgen. Eine einfache graphische Interpolation im Sinne der Vektorsummenmethode basierend auf ist aus diesem Grund ebenfalls nicht möglich. Vielmehr ist nach einer Transformation zu suchen, die einer Projektion von X in q Dimensionen so nahe wie möglich ist. Ähnlich ist bei der Ermittlung der Prediktionsmarker vorzugehen (zu den Einzelheiten siehe GOWER & HAND, 1996).

Die multiple Korrespondenzanalyse kann als Variante der Hauptkomponentenanalyse mit nominal- und ordinalskalierten Variablen (an Stelle der intervall- und verhältnisskalierten Variablen) beschrieben werden, wenn sie als Hauptkomponentenanalyse der doppelt gewichteten Indikatormatrix verstanden wird. Die bivariate Korrespondenzanalyse ist dann der Sonderfall für p = 2. Wie in der Hauptkomponentenanalyse führt die Eigenwertzerlegung auch in der Korrespondenzanalyse zur Minimierung der Abweichungen der im dimensionserniedrigten Raum gefundenen Distanzen von den Ausgangsdistanzen, nur daß es sich in der Korrespondenzanalyse um Chi-Quadrat Distanzen und nicht um euklidische Distanzen handelt<22>. Da es sich in der multiplen Korrespondenzanalyse der Indikatormatrix allerdings um dichotomisierte, in der Regel ursprünglich nominal- oder ordinalskalierte Variablen handelt, ist die Darstellung der Variablen in multiplen Korrespondenzanalyse-Biplots in Form kontinuierlicher Achsen weniger interessant. Vielmehr ergeben sich für die Kategorien der Variablen entsprechende Kategorien-Stufen-Punkte


38

(‘category level points’, CLPs), die jeweils eine Ausprägung einer Variablen charakterisieren.

Eine Darstellung der Objekte als Objekt-Punkte in Normalkoordinaten und der Variablen in Form von CLPs in Standardkoordinaten führt zur Biplot-Repräsentation der multiplen Korrespondenzanalyse. Die graphische Interpolation kann in diesem Fall nach der Vektorsummenmethode erfolgen. Die Verbindung der ein Objekt definierenden CLPs ergibt ein Polygon, dessen Zentroid der Lage des gesuchten Objekts entspricht. Die graphische Prediktion erfolgt nach Bildung von Prediktionsregionen. Die Prediktionsregion eines CLP ist diejenige Region, deren entfernteste Punkte dem, die Region definierenden CLP, näher sind als einem anderen CLP. Der Übersichtlichkeit halber ist es in der Regel sinnvoll für die Variablen separat Graphiken mit den Objekten und den jeweiligen Variablen und ihren Prediktionsregionen zu erstellen. Grundsätze zur Bildung derartiger Prediktionsregionen sind GOWER, 1993, zu entnehmen.


39

2.2.3. Nichtlineare und generalisierte Biplots

Hauptkomponentenanalyse-Biplots basieren auf der Annahme des Vorliegen der euklidischen Distanz. Daneben existieren auch nicht-euklidischer Proximitätsmaße. GOWER & LEGENDRE, 1986, zeigen aber, daß eine Vielzahl nicht-euklidischer Proximitätsmaße, euklidisch einbettbar ist<23>. Euklidisch einbettbar bedeutet, daß für das gewählte Proximitätsmaß eine Darstellung im euklidischen Raum in der Art möglich ist, daß die (euklidisch einbettbaren) Distanzen der Distanzmatrix D, aus den Distanzen zwischen den - durch die Koordinaten der Matrix im euklidischen Raum definierten - Punkten hergeleitet werden können.

Die Koordinatenmatrix ist hierbei definiert als die Lösung einer Hauptkoordinatenanlyse einer Distanzmatrix, deren Elemente euklidisch-einbettbare Distanzen sind. Handelt es sich um euklidische Distanzen, so entstehen die bereits besprochenen linearen Hauptkomponentenanalyse-Biplots. Werden euklidisch-einbettbare Distanzen verwendet und einer Hauptkoordinatenanalyse unterzogen, ergeben sich für intervall- und verhältnisskalierte sowie ordinalskalierte Variablen nichtlineare Biplots (GOWER & HARDING, 1988, MEULMAN & HEISER, 1993).

Jede Variable wird im nichtlinearen Biplot durch eine nichtlineare, mit Markern versehene Bahn (‘trajectory’) dargestellt. Diese Bahn entsteht durch die Berechnung sogenannter Pseudoobjekte. Diese Pseudoobjekte stehen für Objekte mit dem Wert für Variable j und 0 für alle anderen Variablen. Nimmt die Werte , an, entsteht durch die Pseudoobjekte die Variablenbahn für Variable j. Die Bahnen aller Variablen laufen in einem Punkt O zusammen, nämlich bei . Im linearen Biplot fallen der Zentroid der Ausgangsmatrix X und der Schnittpunkt der Biplotachsen O in einem Punkt zusammen, beim nichtlinearen Biplot ist dies nicht der Fall, sondern der Zentroid der Matrix , die die Koordinaten für die Projektion der Objekte liefert, und O unterscheiden sich in der Regel. Der Koordinatenvektor für ein Pseudoobjekt errechnet sich - bei Zutreffen der Additivitätsannahme<24> - durch , mit der Diagonalmatrix L der Eigenwerte von , der durch eine Hauptkoordinatenanlyse von D gewonnenen Koordinatenmatrix , der Einsermatrix 1 und dem (1 x n) Vektor der quadrierten Distanzen des gewählten Proximitätsmaßes des Pseudoobjekts zu den übrigen Objekten. Die Koordinaten sind für sich verändernde Werte von zu berechnen. Da jedes weitere Pseudoobjekt auch eine weitere


40

Dimension definiert, ergeben sich die entsprechenden Koordinaten jedes Pseudoobjekts auch in einer weiteren, der sogenannten Residualdimension. Die Interpretation wird jedoch durch diese Residualdimensionen nicht beeinträchtigt.

Die graphische Interpolation kann wie im linearen Fall durch die Vektorsummenmethode erfolgen, ausgehend vom Schnittpunkt der Biplotbahnen, nicht vom Zentroid der Objektdarstellung. Für die Erstellung nichtlinearer Biplots auf Grundlage eines beliebigen Distanzmaßes mit Interpolationsmarkern auf den Biplotbahnen liegt ein Genstat Code im Anhang Teil III vor.

Die Konstruktion von Prediktionsmarkern ist ebenfalls möglich (Einzelheiten siehe GOWER & HAND, 1996). Die graphische Prediktion erfolgt als sogenannte zirkuläre Prediktion und zwar in der Art, daß ein Kreis vom Zentroid zum Objektpunkt gebildet wird. Die Stelle an der der so entstandene Kreis die Biplotbahn schneidet, ergibt der vorhergesagten Variablenwert. Im linearen Fall ergeben zirkuläre und (bereits besprochene) orthogonale Prediktion denselben Markerwert auf der Biplotachse. Einige weitere Anmerkungen zu nichtlinearen Biplotbahnen:

  1. entspricht die Position eines Pseudoobjekts dem Wert eines Objekts der Ausgangsmatrix X, so wird dieser Punkt als Basispunkt bezeichnet (siehe unten);
  2. die nichtlinearen Biplotbahnen sind endlich, begrenzt durch den größten und den kleinsten Basispunkt;
  3. die Verläufe der Bahnen können ausgesprochen bizarr sein, bis hin zu einer Umkehrung der Richtung und des Schneidens eines unteren Abschnittes durch einen oberen Abschnitt. Überschneidungen sind allerdings ein durch die Dimensionserniedrigung hervorgerufener Artefakt und entstehen nicht bei Betrachtung der vollen Dimensionalität. Derartig verzerrte Biplotbahnen sind jedoch sowohl für die Prediktion als auch für die Interpolation unzuverlässig.

GOWER, 1995b und GOWER & HAND, 1996, formulieren eine allgemeine ‘Biplot-Theorie’, die die Biplot-Darstellung beliebiger, auch gemischter Datensätze berücksichtigt, das heißt lineare Biplotachsen, nichtlineare Biplotbahnen und CLPs in einer Darstellung vereinen. Vorstellbar ist zum Beispiel die Verwendung des allgemeinen Ähnlichkeitskoeffizienten, mit dessen Hilfe eine Proximitätsmatrix für Variablen beliebiger Skalenarten gebildet werden kann, die dann durch die Ergebnisse einer Hauptkoordinatenanlyse in wenigen Dimensionen visualisiert wird. Durch Anwendung entsprechender Formeln, auf die hier nicht im Einzelnen eingegangen werden soll, erhält man über den Weg der Pseudoobjekte die Koordinaten der Biplotachsen und -bahnen und die CLPs der qualitativen Variablen. Die bereits angesprochenen Basispunkte der qualitativen Variablen entsprechen den CLPs und sind daher in diesem Zusammenhang, anders als bei den nichtlinearen Biplots quantitativer Variablen, von besonderem Interesse.

Bis auf Parallelverschiebungen gleichen die Biplotachsen beziehungsweise die Biplotbahnen der quantitativen Variablen denen der linearen und nichtlinearen Biplots. Allerdings gibt es in der Regel


41

für die Bahnen keinen gemeinsamen Schnittpunkt .

Die Interpolation erfolgt nach der Vektorsummenmethode unter Verwendung aller Variablen, das heißt der Werte auf den Biplotachsen, den nichtlinearen Biplotbahnen und den einem Objekt entsprechenden CLPs, ausgehend vom Zentroid der Objektdarstellung, das heißt ausgehend vom Zentroid von . Die Prediktionen lassen sich als zirkuläre Prediktion durchführen. Für die qualitativen Variablen sind entsprechend Prediktionsregionen zu erstellen.


42

2.2.4. ‘Klassische’ Biplots

Biplots gehen ursprünglich zurück auf GABRIEL, 1971, und werden zum Beispiel von GABRIEL, 1981, GABRIEL & ODOROFF, 1986, oder auch GABRIEL, 1995a & 1995b, dargestellt und diskutiert. Die klassische Formulierung bedient sich der Eigenwertzerlegung der Datenmatrix X. Unterschieden wird zwischen dem CMP (column preserving), RMP (row preserving) und dem diagnostischen Biplot. Die Darstellung der ‘klassischen’ Biplots erfolgt vielfach als Punkt- und Pfeile-Plots, das heißt, die Zeilen (die Objekte) werden durch die Endpunkte der vom Ursprung ausgehenden Vektoren als Punkte, die Spalten (die Variablen) durch die vom Ursprung ausgehenden Vektoren in Form von Pfeilen dargestellt. Der diagnostische Biplot hat vor allem in der Modellwahl, zum Beispiel in der Regressionsanalyse eine Bedeutung (GABRIEL, 1981). Wichtige Merkmale der CMP- und RMP-Biplots als Repräsentation der Datenmatrix X sind (GABRIEL, 1995a):

  1. der CMP-Biplot approximiert die Mahalanobis-Distanz zwischen den Objekten, der RMP-Biplot die euklidische Distanz;
  2. die Länge der jeweiligen Variablenachsen im CMP-Biplot approximiert die Standardabweichnug der Variablen. Ist diese bekannt, so ist die Länge des Variablenvektors ein guter Anhaltspunkt für die Güte der Repräsentation dieser Variablen im Biplot. Besonders prägnant wird dies im Fall standardisierter Variablen mit Standardabweichung = 1, da dann ein vom Ursprung ausgehender Kreis mit Radius 1 das Maximum der Standardabweichnug der Variablen vorgibt und schnell sichtbar wird, wie gut oder wie schlecht eine Variable repräsentiert ist;
  3. der Kosinus des Winkels zwischen zwei Variablenachsen approximiert im CMP-Biplot die Korrelation zwischen zwei Variablen;
  4. die Elemente der Ausgangsmatrix X werden sowohl im CMP- als auch im RMP-Biplot durch das innere Produkt eines Spalten- und eines Zeilenvektors approximiert. Dies ermöglicht zum Beispiel Schlußfolgerungen über die Bedeutung bestimmter Variablen bei ausgewählten Objekte oder über die tatsächlichen Werte bestimmter Objekte bei bestimmten Variablen und damit also auch über die Unterschiede von Objekten bei den Variablen. Diese Eigenschaft liefert letztlich auch die Grundlage der bereits besprochenen Interpolations- und Prediktionseigenschaften der Biplots.

Bei Vorliegen qualitativer Daten in Form einer Kontingenztafel oder einer Indikatormatrix schlägt GABRIEL, 1995a und 1995b, als Alternative zu Abbildungen, die durch die Korrespondenzanalyse gewonnenen werden, die Verwendung separater Reihenprofil- beziehungsweise Spaltenprofil-Biplots vor. Ob und inwieweit die getrennte Darstellung als Reihenprofil- beziehungsweise Spaltenprofil-Biplot der traditionellen Darstellung der bivariaten Korrespondenzanalyse überlegen ist, soll an dieser Stelle nicht vertieft werden (siehe aber dazu zum Beispiel die Diskussionen bei


43

GABRIEL, 1995b oder GREENACRE, 1993).


44

2.3. Analyse gruppierter Daten

In vielen Fällen der Datenanalyse liegen die Daten in der einen oder anderen Art gruppiert vor. Im Kontext dieser Arbeit sind Faktoren, die diese Gruppen bestimmen zum Beispiel verschiedene Variablensets oder Erhebungsjahre. Gruppierte Daten können variablen- oder objektorientiert analysiert werden. Variablenorientiert heißt in diesem Zusammenhang, daß die Frage gestellt wird, ob die Variabilitätsstruktur in den Gruppen als gleich oder als unterschiedlich angesehen werden kann, ob also zum Beispiel die Ausrichtung der Achsen, das heißt der ersten, zweiten, dritten und so weiter Hauptkomponente, in etwa gleich ist oder nicht. Werden im gruppierten Fall Hauptkomponentenanalysen für die einzelnen Gruppen getrennt durchgeführt, stellt sich die Frage, in wie weit sich die für die jeweiligen Gruppen ermittelten Eigenwerte und Eigenvektoren ähnlich beziehungsweise unähnlich sind. Diese Fragestellung kann mit Hilfe gemeinsamer Hauptkomponentenmodelle untersucht werden (siehe 2.3.1). Objektorientierte Ansätze fragen demgegenüber danach, ob die Objekte in aus verschiedenen Analysen abgeleiteten Konfigurationen, an derselben Stelle liegen oder stark voneinander entfernt sind, ob also zum Beispiel zwischen der Konfiguration der Punkte der Objekte im Koordinatensystem einer ersten Gruppe eine gute oder schlechte Übereinstimmung mit der Konfiguration der Punkte der Objekte im Koordinatensystem einer zweiten Gruppe besteht. Dieser Fragestellung kann mit Hilfe der Prokrustes-Analyse nachgegangen werden (siehe 2.3.2). Alternative, objektorientierte Methoden sind die gewichtete mehrdimensionale Skalierung und die kanonische Variablenanalyse. Eine weitere variablenbezogene Methode ist die nichtlineare kanonische Analyse. Die genannten drei Verfahren werden in Kapitel 2.3.3, aufgrund ihres geringen Gewichts in der vorliegenden Arbeit allerdings nur kurz, angesprochen.

2.3.1. Gemeinsame Hauptkomponentenmodelle

2.3.1.1. Gemeinsame Hauptkomponenten

Wenn die Daten in Form getrennter Stichproben gruppenweise strukturiert vorliegen, ist die Frage zu stellen, ob sich die Hauptkomponentenanalysen in den einzelnen Gruppen einander ähneln oder stark von einander abweichen. Sind sie sich sehr ähnlich, kann die Beschreibung der Gruppen mit Hilfe des gemeinsamen Hauptkomponentenmodells erfolgen (FLURY, 1984 und 1988, FLURY & RIEDWYL, 1988). Ähnlichkeit ist im variablenorientierten Ansatz dieses Modells so zu verstehen, daß die Ausrichtung der Achsen (nicht notwendigerweise ihre relative Bedeutung und Größe), in allen Gruppen annähernd gleich ist, die einzelnen Gruppen sich demnach durch ein gemeinsames Achsensystem (eine gemeinsame Transformation) ohne einen erheblichen Informationsverlust beschreiben lassen.

Die Vorteile dieses Modells sind zum einen die Vereinfachung der Ergebnisdarstellung, wenn nur


45

eine gemeinsame Hauptkomponentenanalyse, an Stelle einer Vielzahl separater Hauptkomponentenanalysen, präsentiert werden muß. Darüber hinaus werden bei Verwendung nur einiger Hauptkomponenten im reduzierten, gemeinsamen Modell, für alle Gruppen die gleichen Hauptkomponenten verworfen, und somit die Gruppen im gleichen, reduzierten Variablenraum beschrieben.

Allerdings sind die gemeinsamen Hauptkomponenten in der Regel nicht wie die ursprünglichen Hauptkomponenten unkorreliert. Zudem ist die Anwendung des gemeinsamen Hauptkomponenten-Modells bislang nur bei Verwendung der Kovarianzmatrix ausreichend entwickelt. Abweichungen von der Multinormalverteilung sowie das Vorliegen von Ausreißern können die Schätzmethoden des gemeinsamen Hauptkomponentenmodells stark beeinflussen.

Das gemeinsame Hauptkomponentenmodell ist nur ein Modell in einer Hierarchie von Modellen zur Beschreibung der Beziehung der Kovarianzmatrizen gruppierter Daten. Folgende Modelle lassen sich voneinander abgrenzen:

  1. die Kovarianzmatrizen der Gruppen sind gleich;
  2. die Kovarianzmatrizen der Gruppen sind proportional zueinander;
  3. die Kovarianzmatrizen der Gruppen lassen sich durch das gemeinsame Hauptkomponenten-Modell beschreiben;
  4. die Kovarianzmatrizen der Gruppen lassen sich durch das partielle, gemeinsame Hauptkomponentenmodell beschreiben;
  5. die Kovarianzmatrizen der Gruppen sind voneinander verschieden und nicht proportional zueinander.

Die Fälle 1. und 5. können durch bekannte Testverfahren auf Gleichheit der Kovarianzmatrizen bearbeitet werden (MORRISON, 1990). Die Fälle 2., 3., und 4. werden von FLURY, 1984, und FLURY & RIEDWYL, 1988, behandelt. KRZANOWSKI, 1984, liefert dafür ein approximatives Vorgehen. Aufgrund der weitreichenden Modellannahmen und der Notwendigkeit der Verwendung der Kovarianzmatrix zur Berechnung der Maximum Likelihood Schätzer ist dieses gemeinsame Hauptkomponentenmodell für die vorliegende Arbeit nicht geeignet.

2.3.1.2. Gruppenanalysemodell

Das hier beschriebene Gruppenanalysemodell geht zurück auf KRZANOWSKI, 1979 und 1988a. Im Prinzip verfolgt es dieselben Ziele wie 2.3.1.1. Es geht also um die Frage, in wie weit die Variabilitätsstruktur verschiedener Gruppen durch ein gemeinsames Hauptkomponentenmodell dargestellt werden kann. Die Grundsätze lassen sich wie folgt skizzieren:

für zwei Gruppen A und B liegen die Koeffizienten der Hauptkomponentenanalysen (die Eigenvektoren) als und vor ( ), ( ), ( und ). L und M sind die ( x p) und ( x p) Matrizen der Eigenvektoren der Hauptkomponentenanalysen von


46

A und B. Wenn nun N = LM'ML' definiert wird, gilt:

  1. der kleinste Winkel zwischen einem beliebigen Vektor der ersten q Hauptkomponenten von A und dem am parallesten gelegenen Vektor der ersten q Hauptkomponenten von B, ist , wobei der größte Eigenwert von N ist.
  2. Wenn der j-größte Eigenwert von N, der zugehörige Eigenvektor und sind, dann sind ... orthogonale Vektoren im Raum von A und orthogonale Vektoren im Raum B, und der Winkel zwischen dem j-ten Paar und ist .

Die Summe der Eigenwerte von N ist gleich der Quadratsumme der Kosinen der Winkel der Hauptkomponenten zwischen A und B. Sind die Achsen der beiden Gruppen völlig übereinstimmend, so nimmt diese Summe den Wert g (= Anzahl der Gruppen), sind sie orthogonal, den Wert Null, an. Nun können also die Ähnlichkeiten zwischen A und B durch die Vektorpaare und dargestellt werden. repräsentiert dann den Beitrag des j-ten Paars zur Gesamtvariabilität. Die Linie im Raum A, die dem Raum B am nächsten liegt ist gegeben durch ; liegt am nächsten zu in B und der Winkel zwischen ihnen ist . Die Ebene im Raum A, die dem Raum B am nächsten liegt, ist definiert durch die Vektoren und , und entsprechend definieren die Paare ( , ) und ( , ) die sich von A und B am nächsten gelegenen Ebenen mit den 'kritischen' Winkeln und . Diese Aufteilung läßt sich nun fortführen für alle von A und B gemeinsam beschriebenen Dimensionen q. Die 'kritischen' Winkel geben Aufschluß darüber, wie gut oder wie schlecht die Übereinstimmung der Achsen im q-dimensionalen Raum ist. Eine völlige Übereinstimmung führt zu 'kritischen' Winkeln mit dem Wert Null; die Eigenwerte von N sind dementsprechend dann alle gleich 1. ... schließlich stellen in diesem Fall die Koeffizienten des gemeinsamen q-dimensionalen Raums von A und B dar. Entsprechen sich die Achsen nicht, so ist der mittlere Vektor von und definiert durch und die ... definieren die mittleren Komponenten der Dimensionen von A und B.

Wenn A und B durch eine unterschiedliche Anzahl von Hauptkomponenten charakterisiert sind, und die Anzahl der Hauptkomponenten von A und die Anzahl der Hauptkomponenten von B sind, ist q = min ( , ). N hat q von Null verschiedene Eigenwerte und der Vergleich von A und B erfolgt auf der Basis eben dieser von Null verschiedenen Eigenwerte.

Die Ausweitung des Konzepts auf mehr als zwei Gruppen kann folgendermaßen verdeutlicht werden:

ist die (q x p) Matrix mit den Eigenvektoren der Hauptkomponentenanalyse der Gruppe t. b ist


47

ein Vektor im Raum der Ausgangsvariablen, und der Winkel zwischen b und der am nächsten gelegenen Achse im durch die q, von Gruppe t definierten, Hauptkomponenten. Der Wert von b der maximiert, ist gegeben durch den Eigenvektor , der wiederum korrespondiert zum größten Eigenwert von . Ein Maß für die Abweichung von vom durch Gruppe t definierten Raum ist . Die Eigenwert/Eigenvektor Zerlegung von H führt zu den Vektoren ... , die einen Unterraum des Ausgangsdatenraums beschreiben, der allen Gruppen gleichzeitig so nahe wie möglich ist. Als Maß für die Abweichung der Gruppen von diesen Vektoren ist definiert als mit t = 1 ... g

und j = 1 ... q (q p). Dann ergibt sich . Das Maximum von V liegt bei g, da dann völlige Übereinstimmung der Hauptkomponenten vorliegt und alle gleich Null sind. Für das Gruppenanlysemodell liegt ein Genstat Code im Anhang Teil III vor.

2.3.1.3. Gamma-q-q-Plots

Eine graphische Methode zum Vergleich der Eigenvektoren der Hauptkomponentenanalysen verschiedener Gruppen wird von KERAMIDAS et al., 1987, vorgestellt. Beschrieben ist sie ausschließlich für den Fall, daß als Ausgangspunkt die Kovarianzmatrix verwendet wird, obwohl KERAMIDAS et al., 1987, eine Übertragung auf den Fall Ausgangspunkt Korrelationsmatrix für denkbar halten. Wichtig für den Einsatz der Methode sind:

  1. die Anzahl der zu vergleichenden Gruppen sollte möglichst groß sein (t 10);
  2. die Eigenwerte der Hauptkomponenten sollten sich deutlich von einander abheben;
  3. ein Vergleichsmaßstab in Form eines a priori festgelegten Eigenvektors ( ) beziehungsweise aus den Daten bestimmten 'typischen' Eigenvektors ( ) muß vorgegeben werden. Der 'typische' Eigenvektor ist dabei derjenige Eigenvektor, der die Winkel zwischen sich selbst und den entsprechenden Eigenvektoren der Gruppen minimiert und kann errechnet werden als der Eigenvektor des größten Eigenwertes von (siehe 2.3.1.2).

Um festzustellen, ob sich die Eigenwerte gut von einander abheben, können Boxplots der Eigenwerte der Gruppen hilfreich sein. Die Eigenwerte aller Gruppen werden in Form von Boxplots so dargestellt, daß auf der x-Achse die laufende Nummer der Eigenwerte, auf der y-Achse die Boxplots der Eigenwerte abgetragen werden. Aus diesen Plots wird erkennbar, wie groß die Unterschiede zwischen den Eigenwerten aller Gruppen sind, und welche Überschneidung zwischen den Eigenwerten aller Gruppen vorliegt. Sie erlauben also einen gleichzeitigen, groben Einblick in


48

alle Eigenwerte aller Gruppen.

Der notwendige Vergleichsmaßstab bei Betrachtung einer Hauptkomponente wird durch die euklidische Distanz für den a priori Vektor (beziehungsweise an Stelle von ) vom Beobachtungsvektor durch errechnet, und zwar für Gruppe t (t = 1 ... g ) und die Koeffizienten des Eigenvektors (der Hauptkomponente)

(j = 1 ... p). Da diese Distanzen gut durch eine Gamma-Verteilung approximiert werden können, kann ein Gamma-q-q-Plot erstellt werden, bei dem auf der x-Achse die Gamma-Quantile, auf der y-Achse die geordneten -Werte aufgetragen werden. Die Gamma Quantile werden ermittelt nach vorheriger Schätzung der Form-(eta) und Größe-(lambda) Parameter der Gamma-Verteilung aus den ermittelten Distanzen. Der q-q-Plot zeigt die Gamma Quantile auf Grund der geschätzten Parameter und die für jede Gruppe kleinsten quadrierten euklidischen Distanzen, die der Eigenvektor der Hauptkomponente zum 'typischen' oder a priori Eigenvektor hat. Eine deutliche Abweichung des q-q-Plots von der Linearität weist für die Gruppen, die diese Abweichung verursachen, auf einen vom a priori beziehungsweise 'typischen' Eigenvektor deutlich abweichenden Eigenvektor und damit bei diesen Gruppen auf eine vom Vergleichsmaßstab abweichende Kovarianzstruktur hin. Beim Vergleich von mehr als einer Hauptkomponente wird zu . Wie bereits erwähnt ist die vorgeschlagene Methode nur bei einer sehr großen Gruppenanzahl, vorzugsweise bei Verwendung der Kovarianzmatrix anwendbar. Der Genstat Code zur Erstellung der Gamma-q-q-Plots und Eigenwerte-Boxplots liegt im Anhang Teil III vor.


49

2.3.2. Prokrustes-Analyse

Die Prokrustes-Analyse dient zum objektorientierten Vergleich zweier oder mehrerer Konfigurationen. Mit Konfiguration ist hier die durch die Variablenwerte bestimmte Lage der Objekte im p-dimensionalen Raum gemeint. Nicht die Übereinstimmung der Werte, das heißt die absolute Lage der Objekte im Koordinatensystem, bildet dabei den Maßstab für die Beurteilung der Übereinstimmung von Konfigurationen, sondern die relative Lage der Objekte zueinander in den Koordinatensystemen unterschiedlicher Konfigurationen.

Unterschiedliche Konfigurationen derselben Objekte können entstehen durch:

  1. Analyse unterschiedlicher Variablen derselben Objekte;
  2. Analyse unterschiedlicher Gruppen (als Variablengruppierung, wenn zum Beispiel dieselben Variablen in verschiedene Jahren bestimmt werden);
  3. Analyse von Wiederholungen;
  4. Analyse derselben Daten mit unterschiedlichen Methoden (Hauptkomponentenanalyse, mehrdimensionale Skalierung, Korrespondenzanalyse, verschiedene Proximitätsmaße).

Zu unterscheiden ist zwischen der einfachen Prokrustes-Analyse für den paarweisen Vergleich von zwei Konfigurationen und der generalisierten Prokrustes-Analyse für den gleichzeitigen Vergleich von mehr als zwei Konfigurationen. Da nicht die absolute Lage der Objekte im Koordinatensystem für die Prokrustes-Analyse von Bedeutung ist, sondern die relative Lage der Objekte zueinander, ist es sinnvoll, verschiedene Datenmanipulationen durchzuführen, die dafür sorgen, daß die Übereinstimmung der Koordinaten der verschiedenen Konfigurationen zu gut wie irgend möglich ist; das heißt, es sind Transformationen durchzuführen, die die inneren Beziehungen der jeweiligen Konfigurationen bewahren. Erst dann ist ein Maß für die Übereinstimmung der Konfigurationen im Sinne der Prokrustes-Analyse zu berechnen. Die genannten Datenmanipulationen umfassen:

  1. Translation, das heißt eine feste Lageveränderung aller Punkte um eine gemeinsame Entfernung in einer gemeinsamen Richtung;
  2. Rotation, das heißt eine feste Lageveränderung aller Punkte um einen gemeinsamen, konstanten Winkel, die die Distanz eines jeden Punktes vom Zentroid unberührt läßt. Eine Reflexion (Spiegelung) kann als Form der Rotation verstanden werden; und
  3. Dilation, das heißt ein Strecken beziehungsweise Stauchen aller Punkte durch eine Konstante an einer Linie vom Objektpunkt vom (beziehungsweise zum) Zentroid.

Die Variablen der zu vergleichenden Ausgangsmatrizen sind möglicherweise vor der Prokrustes-Analyse zu standardisieren. Besitzen unterschiedliche Matrizen eine unterschiedliche Anzahl an Spalten, so gilt, daß die Matrizen, deren Variablenzahl < ist, durch Nullspalten ergänzt


50

werden. Die Prokrustes-Analyse hat starke Impulse von GOWER, 1975 und 1995a, erhalten und wird in der Folge im Sinne dieser Referenzen dargestellt.

Liegen zwei Konfigurationen in Form der (n x p) Matrizen X und vor, mit den Elementen und , so ist als Maß für die Abweichung der einen Konfiguration von der anderen Konfiguration wie folgt definiert: . Vor Berechnung dieser Maßzahl sind die oben angesprochenen Transformationen durchzuführen.

Die Translation wird erreicht durch die Mittelwertszentrierung der Ausgangsmatrizen X und . Sie führt dazu, daß der Zentroid von X, gleich dem Mittelwertsvektor von , ist und es gilt: , das heißt, beide Konfigurationen haben denselben Zentroid, gelegt am Ursprung. Mögliche Unterschiede zwischen den Mittelwertsvektoren der Konfigurationen werden durch die Translation also entfernt. Sind diese von Interesse, kann vor der Translation eine multivariate Varianzanalyse durchgeführt werden, die jedoch in dieser Arbeit nicht betrachtet wird.

Rotation und Dilation werden nach Translation beider Matrizen derart durchgeführt, daß eine Matrix als fix (zum Beispiel X) die andere Matrix als beweglich (zum Beispiel ) angenommen wird. Da die Dilation nicht symmetrisch ist (das heißt der Faktor c, der minimiert, bei Skalenveränderung von gegeben X , ist nicht notwendigerweise gleich dem Faktor , der minimiert, bei Skalenveränderung von X gegeben ), werden die Variablen in der Regel so standardisiert, daß gilt . Als Konsequenz ergeben sich und . Werden mehrere Konfigurationen paarweise miteinander verglichen, so können die jeweiligen -Werte der Paarvergleiche als Proximitätsmaß betrachtet werden und zum Beispiel einer Hauptkoordinatenanlyse unterzogen werden, die dann wiederum eine Konfiguration erzeugt, die die Lage der unterschiedlichen, paarweise miteinander verglichenen Konfigurationen aufzeigt.

Die Generalisierung der einfachen Prokrustes-Analyse für den gleichzeitigen Vergleich von mehr als zwei Konfigurationen erfolgt (nach Mittelwertszentrierung) im Gegensatz zur einfachen Prokrustes-Analyse auf iterativem Weg, da zur Ermittlung der Dilationsfaktoren und der Rotationsmatrizen, die die Abweichungen minimieren, die mittlere Endkonfiguration bekannt sein muß. Da sie das natürlich nicht ist, kann man sich ihr nur bis zu einem gewissen Konvergenzkriterium nähern. Die mittlere Konfiguration nach Abschluß der Datenmanipulationen im Rahmen der Prokrustes-Analyse, wird als Konsens-Konfiguration bezeichnet.

Um die unterschiedlichen Begriffe in der Prokrustes-Analyse noch einmal zu verdeutlichen und die Einbindung der Ergebnisse einer Prokrustes-Analyse in ein varianzanalytisches Schema aufzuzeigen, sei nach GOWER, 1995a, folgendermaßen definiert:


51

es liegen g (n x ) Matrizen (t = 1 ... g) vor mit Dimensionen. Das i-te Objekt der t-ten Konfiguration belegt den Punkt mit den Koordinaten ( . Der Zentroid der t-ten Konfiguration ist , der Zentroid aller Punkte G. Handelt es sich bei den Variablen um dieselben Variablen in allen Konfigurationen, so sind die Mittelwertsvektor-unterschiede durch eine multivariate Varianzanalyse analysierbar nach dem Modell

(Total = Translation + Residuen).

Duch die Translation werden die Mittelwertsvektorunterschiede eliminiert und die Konfigurationen zu einem gemeinsamen Ursprung O überführt. Als Varianzanalyse-Modell läßt sich dann schreiben: (Total = Konfigurationseffekt + individuelle Differenzen (Residuen)), wobei der Zentroid von Objekt i für alle Konfigurationen t ist. Die Gesamtstreuung um den Ursprung wird also aufgeteilt in zwei Orientierungseffekte. Zum einen die Abweichung der Zentroide der Konfigurationen der Objekte vom Ursprung (erster Orientierungseffekt, Konfigurationseffekt), zum anderen die Abweichung der Koordinaten der Objekte vom jeweiligen Konfigurationszentroid (zweiter Orientierungseffekt, individuelle Differenzen). Der erste Orientierungseffekt kann nur objektbezogen, der zweite Orientierungseffekt sowohl objekt- als auch konfigurationsbezogen ermittelt werden. So gilt also objektbezogen zum Beispiel für Objekt 1

(Total = Konfigurationseffekt + individuelle Differenzen). Konfigurationsbezogen errechnet sich das Residuum zum Beispiel für Konfiguration 1 durch . Ein Konfigurationseffekt kann bei der konfigurationsbezogenen Betrachtung natürlich nicht berechnet werden.

Ein großes Objektresiduum weist darauf hin, daß Objekte in Konfigurationen stark voneinander abweichen. Ein großes Konfigurationsresiduum weist darauf hin, daß die Unterschiede der Konfigurationen von der Konsens-Konfiguration erheblich sind. Ein starker Translationseffekt ist ein Indiz für Unterschiede der Mittelwertsvektoren der Ausgangsmatrizen. Unterschiede bei den Dilationsfaktoren deuten auf Unterschiede in der absoluten Skala der Variablen der verschiedenen Konfigurationen hin (zum Beispiel durch unterschiedlich starke Variabilität in den verschiedenen Konfigurationen).


52

2.3.3. Gewichtete mehrdimensionale Skalierung, kanonische Variablenanalyse und nichtlineare kanonische Analyse

2.3.3.1. Gewichtete mehrdimensionale Skalierung

Ein der Prokrustes-Analyse vergleichbares Verfahren stellt die gewichtete mehrdimensionale Skalierung dar, die auf eine Arbeit von CAROLL & CHANG, 1970, zurückgeht. Sie wird häufig auch als individuelle Differenzskalierung bezeichnet. Neben den Koordinaten der Objekte in q Dimensionen erzeugt die gewichtete mehrdimensionale Skalierung in Form von Gewichtungswerten Maßzahlen für die Bedeutung der jeweiligen Dimension für die verschiedenen Gruppen und erlaubt somit einen Vergleich derselben. Die gewichtete mehrdimensionale Skalierung ist mit Hilfe eines iterativen Algorithmus zu lösen, ist somit der ordinalen mehrdimensionale Skalierung nahe. Sie kann aber im wesentlichen als Generalisierung der Hauptkoordinatenanalyse für mehr als eine Proximitätsmatrix angesehen werden und beinhaltet demnach auch Aspekte dieses Verfahrens. Der gewichteten mehrdimensionalen Skalierung liegt der Gedanke zugrunde, daß sich alle Gruppen durch ein gemeinsames Achsensystem beschreiben lassen und die Unterschiede zwischen den Gruppen durch das Gewicht, das die einzelnen Gruppen den jeweiligen gemeinsamen Achsen zuordnen, gegeneinander abgegrenzt werden können und daß, durch Verwendung von gruppenspezifischen Gewichtungswerten, aus dem gemeinsamen q-dimensionalen Raum (q n) ein jeweils gruppenspezifischer Raum (mit q Dimensionen) errechnet werden kann. Einige Kennwerte der gewichteten mehrdimensionalen Skalierung sind (CARROL, 1972, SCHIFFMANN et al., 1981):

  1. Die Koordinaten der Gesamtkonfiguration aller Gruppen in q Dimensionen; da dieser Konfiguration eine Iteration zugrunde liegt, muß sie bei Veränderung der Anzahl q für alle Dimensionen neu errechnet werden.
  2. Die Gewichtungswerte je Gruppe und Dimension; ist , so ist die Dimension j für Gruppe t gleich der Dimension j der Gesamtkonfiguration. Ist < 1, ist die Dimension j der Gruppe t im Vergleich zur Gesamtkonfiguration gestaucht, ist > 1, ist sie gestreckt. Je größer beziehungsweise kleiner ist, desto größer beziehungsweise kleiner ist die Bedeutung von Dimension j für Gruppe t. Ähnliche oder gleiche Gewichtungswerte zweier Gruppen deuten auf die Ähnlichkeit der Konfigurationen der Gruppen hin und umgekehrt.
  3. Werden die Gewichtungswerte als vom Ursprung ausgehende Vektoren betrachtet, so ist der Winkel zweier Vektoren ein Maß für die Ähnlichkeit der Gruppen<25>. Die

    53

    Länge des jeweiligen Vektors ist ein Maß für die Anpassungsgüte von jeweiliger Gruppenkonfiguration und Gesamtkonfiguration. Wenn die Länge des gruppenspezifischen Vektors der Gruppe t ist gilt: und , wobei ein Maß für den Anteil der Gesamtvariabilität ist, der durch das gewählte Modell repräsentiert wird.

Abschließend soll darauf hingewiesen werden, daß die Ergebnisse der gewichteten mehrdimensionalen Skalierung keiner Rotation unterzogen werden dürfen und daß negative Gewichtungswerte zwar grundsätzlich möglich, in der Anwendung jedoch sehr selten sind.

2.3.3.2. Kanonische Variablenanalyse

Die kanonische Variablenanalyse geht von einer, am Ursprung zentrierten, in g Gruppen aufgeteilten (n x p) Datenmatrix X aus. Gesucht wird nach der Linearkombination der p Variablen, die das Verhältnis von der SSP (Sums of Squares and Products)-Matrix B (Between, zwischen den Gruppen) zu der SSP-Matrix W (Within, innerhalb der Grupppen) maximiert, und damit eine Funktion erzeugt, die die vorhandenen Gruppen im Sinne einer kleinsten-Quadrate-Lösung, optimal zu trennen in der Lage ist<26>. Diese Lösung wird erzielt durch die Eigenwertanalyse von . Der mit dem ersten Eigenwert von assoziierte Eigenvektor bestimmt die Richtung im p-dimensionalen Raum an dem die Variabilität zwischen den Gruppen am größten ist, im Vergleich zur Variablität innerhalb der Gruppen. In Analogie zur Hauptkomponentenanalyse bestimmen die folgenden Eigenvektoren die nächstwichtigen Dimensionen im Sinne der Maximierung des Verhältnisses von Between-Streuung zu Within-Streuung. Sowohl die Objekte als auch die Gruppenmittelwertsvektoren lassen sich mit Hilfe der Eigenvektoren in den Raum der kanonischen Variablen projizieren und damit in wenigen Dimensionen graphisch abbilden (CHATFIELD & COLLINS, 1980). Der unterschiedlichen Variablität der einzelnen Variablen wird in der kanonischen Variablenanalyse dadurch Rechnung getragen, daß als zugrunde liegendes Proximitätsmaß die Mahalanobis-Distanz verwendet wird, und diese durch euklidische Distanzen repräsentiert beziehungsweise approximiert (wenn q < p) wird (GOWER & HAND, 1996). Obwohl die kanonische Variablenanalyse in dieser Arbeit ausschließlich deskriptiv eingesetzt wird, ist zu beachten, daß der Methodik die Annahme der Varianzhomogenität, das heißt der Gleichheit der Kovarianzmatrizen der einzelnen Gruppen, inhärent ist, da eigentlich nur dann die Bildung einer gepoolten SSP-Matrix W für die Streung innerhalb der Gruppen sinnvoll ist (KRZANOWSKI, 1988a).


54

2.3.3.3. Nichtlineare kanonische Analyse

Die nichtlineare, generalisierte, kanonische Analyse, die auf GIFI, 1990, zurückgeht, kann als Verallgemeinerung der kanonischen Korrelationsanalyse verstanden werden; das heißt, es geht um die Bestimmung der Beziehungen von Variablensets, also um den Versuch durch die gleichzeitige Betrachtung der Beziehungen der Variablensets untereinander, so viel wie möglich der vorhandenen Variabilität durch Linearkombinationen der Variablensets zu ‘erklären’. Im Gegensatz zur linearen Korrelationsanalyse können aber mehr als zwei Variablensets gleichzeitig betrachtet werden und Variablen, die auf beliebigen Skalenniveaus vorliegen, können in die Analyse miteinbezogen werden, nicht nur intervall- und verhältnisskalierte Variablen wie in der linearen, kanonischen Korrelationsanalyse (HEISER & MEULMANN, 1995). Eine Umsetzung der Methodik in statistische Software liegt mit dem Programm OVERALS vor (SPSS, 1994).

Die generalisierte kanonische Analyse zählt zu den Verfahren der optimalen Skalierung, die im wesentlichen durch drei Aspekte charakterisiert sind (GIFI, 1990). Zum einen beinhalten diese Verfahren beliebige, nichtlineare Transformation der Ausgangsvariablen, die zuvor in eine Indikatormatrix (siehe 2.1.3) umgewandelt werden. Liegen die Variablen nicht ursprünglich nominal- oder ordinalskaliert vor ist also eine entsprechende Klassenbildung vorzunehmen, zum Beispiel eine einfache Rangtransformation. Das zweite Charakteristikum ist die Verwendung eines alternierenden, kleinste Quadrate Algorithmus zur Ermittlung der Objektwerte<27> und Variablenquantifikationen, das heißt der optimalen Transformation für die Ausgangsvariablen. Die Ermittlung der Variablenquantifikationen errfolgt auf iterativem Weg, wobei die Abweichungen zwischen Objektwerten und den Werten der quantifizierten Ausgangsvariablen in einer gewählten Dimensionalität minimiert werden. Schließlich, und das ist der dritte Aspekt, können in der Analyse bestimmte Begrenzungen im Rahmen der Transformationen vorgegeben werden, je nachdem auf welchem Skalenniveau die Daten analysiert werden sollen, unabhängig vom Skalenniveau, auf dem sie gemessen werden. Unterschieden wird zwischen numerischem und ordinalen, sowie einfach und mehrfach nominalen Skalenniveau (genaue Definition siehe SPSS, 1994, KRZANOWSKI & MARRIOTT, 1994). Zur Interpretation der Lösung der nichtlinearen kanonischen Analyse kann die multiple Anpassung (multiple fit) der Variablen berechnet werden, die angibt, wie stark die Dimensionen durch die einzelnen Variablen beeinflußt werden und welche Variablen den stärksten diskriminatorischen Beitrag zur Trennung der Objekte liefern. Ebenfalls informativ sind die Komponentenladungen, die gleich den Korrelationen der quantifizierten Ausgangsvariablen und der Objektwerte sind. Die Loss-Werte je Variablenset geben schließlich an, wie gut beziehungsweise wie schlecht die Übereinstimmung zwischen den im Algorithmus ermittelten Objektwerten und den Objektwerten bei Verwendung der optimal quantifizierten Variablen ist. Die Minimierung dieses


55

Unterschieds ist das Ziel des Iterationsprozesses der nichtlinearen kanonischen Analyse. Das Gegenstück zum Loss ist der Fit der Analyselösung. Loss und Fit summieren sich zur Anzahl der betrachteten Dimensionen. Die Loss-Werte sind, ähnlich wie die stress-Werte in der ordinalen mehrdimensionalen Skalierung, ein Maßstab für die Güte der dimensionserniedrigten Darstellung, je niedriger der Loss ist, desto besser ist die Darstellung.


56

2.4. Linienverbände

2.4.1. Formale Begriffsanalyse

Ein Begriff wird in der Philosophie als eine gedankliche Einheit mit einem bestimmtem Begriffsinhalt und einem bestimmten Begriffsumfang verstanden. In der formalen Begriffsanalyse geht es um die mathematische Formalisierung dieses Begriffsverständnisses mit der Bereitstellung eines flexiblen Instruments der Wissenskommunikation. WILLE, 1982, gilt als Begründer der formalen Begriffsanalyse, die von ihm und der Forschungsgruppe Begriffsanalyse der Technischen Hochschule Darmstadt kontinuierlich weiterentwickelt wird. Von ihren Entwicklern wird die formale Begriffsanalyse als eine in der pragmatischen Philosophie verwurzelte Methode verstanden, die ein besonderes Augenmerk darauf richtet, daß die entwickelte Methodik immer und nachvollziehbar im Bezug zur Wirklichkeit steht. Die formale Behandlung von Daten soll sich demnach nicht vom allgemeinen Verständnis der Daten lösen. Auf eine einfache Rekonstruktion der in der Analyse verwendeten Orginaldaten wird Wert gelegt, damit bei der Interpretation der Analyseergebnisse der ursprüngliche, inhaltliche Zusammenhang immer faßbar bleibt (KOLLEWE et al., 1994).

Zunächst sollen die konzeptionellen Grundlagen der formalen Begriffsanalyse kurz dargestellt werden (2.4.1.1). Die für die Datenanalyse wichtigen Liniendiagramme, die das wesenliche Kommunikationsintrument der formalen Begriffsanalyse sind, werden unter 2.4.1.2 erläutert. Umfangreiche Datensätze lassen sich zweckmäßiger mit gestuften als mit einfachen Liniendiagrammen nach erfolgter begrifflicher Skalierung visualisieren (siehe 2.4.1.3). Die Darstellung in den folgenden Kapiteln erfolgt in Anlehnung an den Sprachgebrauch der Forschungsgruppe Begriffsanalyse.

2.4.1.1. Konzeptionelle Grundlagen

Ein Begriff ist gekennzeichnet durch einen gewissen Begriffsumfang, das heißt durch alle Objekte oder Gegenstände, die zum Begriff gehören, beziehungsweise durch alle Merkmale oder Variablenausprägungen, die zum Begriff zählen. Werden alle Gegenstände g als Elemente einer Menge G und alle Merkmale m als Elemente einer Menge M bezeichnet, so ist ein formaler Kontext definiert durch K:=(G,M,I), wobei I für die binäre Relation zwischen den Elementen G und M steht und geschrieben werden kann gIm, sprich der Gegenstand g besitzt das Merkmal m. Ein formaler Begriff des formalen Kontext (G,M,I) mit dem Begriffsumfang A und dem Begriffsinhalt B, ist das Paar (A,B), für das gelten: A G (sprich: A Teilmenge von G) und B M, sowie A = B’ und B = A’, wobei B’ in dieser Definition die Menge der gemeinsamen Merkmale der Gegenstände A (des Begriffsumfangs) ist, und A’ die Menge der Gegenstände, die alle die Merkmale B, das heißt den gleichen Begriffsinhalt, besitzen. Ein formaler Kontext ist also dadurch gekennzeichnet, daß man immer von der Menge der gemeinsamen Merkmale der Gegenstände eines Begriffes, zur Menge der Gegenstände, die diese Merkmale gemeinsam besitzen, gelangt.

Die Darstellung eines formalen Kontextes erfolgt als Kreuztabelle, wie zum Beispiel in Tabelle 4.


57

Tabelle 4: Beispiel einer Kreuztabelle eines formalen Kontext

 

Topfkultur

Schnittkultur

Kultur < 1 Jahr

Kultur > 1 Jahr

 

 

 

 

 

Gerbera

 

x

 

x

Dianthus

 

x

 

x

Chrysanthemum

 

x

x

 

Pelargonium

x

 

x

 

Lilium

 

x

x

 

Ist nun zum Beispiel A {Gerbera, Dianthus}, so ist A’ {Schnittkultur, Kultur > 1 Jahr}. Für B {Schnittkultur, Kultur > 1 Jahr} gilt B’ {Gerbera, Dianthus}. Der Begriff (A,B), in diesem Beispiel, hat also den Begriffsumfang Gerbera und Dianthus und den Begriffsinhalt Schnittkultur mit mehr als einem Jahr Kulturdauer.

Weiter gilt, daß es unter allen Begriffen eines Kontextes eine hierarchische Ordnung in Ober- und Unterbegriffe mit folgender Beziehung gibt: , das heißt also, wenn der Begriff ein Unterbegriff des Begriffes ist, so folgt daraus, das die Gegenstandsmenge die Gegenstandsmenge einschließt, und die Merkmalsmenge die Merkmalsmenge einschließt. So ist im Beispiel der Begriff {Gerbera, Chrysanthemum, Dianthus}, {Schnittkultur}, ein Oberbegriff von {Chrysanthemum}, {Schnittkultur, Kultur < 1 Jahr}. Die Ordnung aller Begriffe eines formalen Kontext ergibt einen Begriffsverband, der durch ein beschriftetes Liniendiagramm darstellbar ist, das in der Regel durch spezielle Algorithmen am Computer, und nur in sehr kleinen Datensätzen mit der Hand erstellt wird (ESZ, 1996, WILLE, 1987, WOLFF, 1988 und 1993).

WILLE, 1987, gibt einige Hinweise zum möglichen Einsatz von Begriffsverbänden, so unter anderem die hierarchische Klassifikation von Gegenständen (Objekten), die Untersuchung von Merkmalsimplikationen, die Bereitstellung einer Struktur zur Darstellung und Abfrage von Wissen oder die Bestimmung von Gegenständen. Der Ansatz der Klassifikation und Gruppierung von Gegenständen ist für die Datenanalyse neben der strukturierten Bereitstellung von Wissen wohl der wichtigste Bereich. Beispiele für praktische Anwendungen bieten SPANGENBERG & WOLFF, 1991, WOLFF, 1993, und WOLFF & STELLWANGEN, 1992. SPANGENBERG & WOLFF, 1991 stellen dabei Biplots und formale Begriffsanalyse in psychologischen Untersuchungen einander


58

gegenüber. LENGNINK, 1993, gibt eine Darstellung zur Behandlung von Proximitätsmatrizen.

2.4.1.2. Einfache Liniendiagramme

Ein Liniendiagramm ist die graphische Realisation eines Begriffsverbandes. Ein Beispiel, aufbauend auf dem Kontext in Tabelle 4 zeigt Abbildung 1. Die Punkte des Liniendiagrammes stehen für die Begriffe des Kontextes, die Linien zwischen den Punkten verdeutlichen die hierachische Ordnung des Begriffsverbandes, das heißt eine aufsteigende Linie verbindet Unterbegriff mit Oberbegriff. Der oberste Punkt steht für einen alle Merkmale und Gegenstände umfassenden Begriff, der

Abbildung 1: Einfaches Liniendiagramm, Daten aus Tabelle 4

unterste Punkt für einen (möglicherweise) weder Gegenstände noch Merkmale beinhaltenden Begriff.

Nicht jeder Begriff des Liniendiagramms muß beschriftet werden. Ein Punkt wird mit einem Gegenstandsnamen versehen, wenn dieser Kreis den Begriff gammag repräsentiert, das heißt den Begriff mit dem kleinsten Begriffsumfang, der den Gegenstand g enthält. Ebenso wird ein Punkt mit einem Merkmalsnamen versehen, wenn dieser Punkt den Begriff µm repräsentiert, das heißt den Begriff mit dem größten Begriffsinhalt, der das Merkmal m enthält. Es ergibt sich so die Leseregel, daß der Umfang eines Begriffes durch alle Gegenstände definiert ist, die auf einer absteigenden Linie vom Punkt des Begriffes aus zu erreichen sind, und daß der Inhalt eines Begriffes durch alle Merkmale definiert ist, die auf einer aufsteigenden Linie vom Punkt des Begriffes aus erreicht werden können. Im Beispiel in Abbildung 1 ergibt sich also für den mit dem Pfeil gekennzeichneten Begriff der Begriffsumfang pelargonium und der Begriffsinhalt topfkultur und kultur < 1 jahr.

Als Folge der hierarchischen Ordnung ergibt sich zudem, daß ein Gegenstand genau alle diejenigen Merkmale besitzt, die mit einer aufsteigenden Linie vom Begriff, der die


59

Gegenstandsbezeichnung trägt, erreicht werden können, und daß ein Merkmal allen Gegenständen gemein ist, die mit einer absteigenden Linie vom Begriff, der die Merkmalsbezeichnung trägt, erreicht werden können. Das Liniendiagramm bildet somit den formalen Kontext ohne Informationsverlust ab. Je größer die Kontexte werden, desto schwerer lesbar wird jedoch das Liniendiagramm und es bietet sich die Verwendung gestufter Liniendiagramme an (WOLFF, 1993).

2.4.1.3. Begriffliches Skalieren und gestufte Liniendiagramme

In der Mehrzahl der auszuwertenden Daten handelt es sich nicht um einwertige, sondern um mehrwertige Kontexte, das heißt ein Merkmal kann zwei oder mehr Ausprägungen annehmen. Dies betrifft sowohl nominalskalierte und ordinalskalierte als auch, und in besonderem Umfang, verhältnis- oder intervallskalierte Variablen. Während jedoch bei nominal- und ordinalskalierten Variablen die einzelnen Merkmalsausprägungen bereits vorgegeben sind, ist bei der Bearbeitung von intervall- oder verhältnisskalierten Variablen eine gesonderte Klassenbildung vorzunehmen. Die Klassenbildung und die Bearbeitung des Kontexts im Sinne der Klassenbildung wird in der formalen Begriffsanalyse als begriffliche Skalierung bezeichnet. Die Auswahl einer geeigneten Skala richtet sich nach der Fragestellung in der jeweiligen Untersuchung. Die begriffliche Skalierung erfordert daher eine enge Zusammenarbeit zwischen dem sogenannten Präparator, der die technische und mathematische Aufarbeitung durchführt und dem eigentlichen Nutzer, der primär an den inhaltlichen Ergebnissen interessiert ist.

Der erste Schritt stellt die Entwicklung abstrakter Skalen dar. Verschiedene Grundtypen abstrakter Skalen sind in Tabelle 5 und Abbildung 2 kurz aufgeführt. Diese Auflistung ist natürlich nicht vollständig, und im Prinzip ist eine beliebig große Anzahl unterschiedlicher Skalentypen denkbar. Werden die abstrakten Skalen mit Bezeichnungen der Merkmale einer konkreten Datenbasis und den Deskriptoren<28> der Gegenstände versehen, so entstehen die konkreten Skalen (häufig führt natürlich auch der Weg von der konkreten zur abstrakten Skala). Die Zuordung von Gegenständen zu den Deskriptoren, entsprechend des mehrwertigen Kontexts, führt dann zu der realisierten Skala.

Die Gesamtheit der für den zu untersuchenden Kontext zutreffenden realisierten Skalen kann in Form gestufter Liniendiagramme dargestellt beziehungsweise nach und nach erkundet werden. Ein gestuftes Liniendiagramm entsteht, zum Beispiel im Fall von zwei Variablen, durch Ineinanderfügen mehrerer Begriffsverbände in der Art, daß das Liniendiagramm der einen Variablen ‘aufgeblasen’ wird (dies ergibt die Grobstruktur), und das Liniendiagramm der zweiten Variablen in dieses erste Liniendiagramm eingefügt wird (dies ergibt die Feinstruktur). Beispiele sind mehrfach in Kapitel 3 zu finden. Die Leseregel bleibt identisch zu der des einfachen Liniendiagramms, das heißt, ein Begriff


60

ist ein Unterbegriff des Begriffes , wenn sowohl in der Grobstruktur als auch in der Feinstruktur ein Unterbegriff von ist. Die gleichzeitige Darstellung von mehr als drei Variablen führt aber häufig schon, wie beim einfachen Liniendiagramm, zu einem nicht mehr lesbaren Bild. Um einen komplexen, mehrwertigen Kontext daher mit Hilfe der formalen Begriffsanalyse zu verstehen, ist ein interaktives, den Kontext nach und nach erkundendes Vorgehen erforderlich. Die notwendige Software liegt mit dem Programm TOSCANA vor (KOLLEWE et al., 1994, NAVICON, 1996).

61

Tabelle 5: Einige typische Skalen in der begrifflichen Skalierung

Ordinalskala

Merkmal/ Gegenstand

>=1

>= 2

>= 3

>= 4

 

1

X

 

 

 

 

2

X

X

 

 

 

3

X

X

X

 

 

4

X

X

X

X

Biordinalskala

Merkmal/ Gegenstand

<= 3

<= 2

<= 1

>= 4

>= 5

>= 6

 

1

X

X

X

 

 

 

 

2

 

X

X

 

 

 

 

3

 

 

X

 

 

 

 

4

 

 

 

X

 

 

 

5

 

 

 

X

X

 

 

6

 

 

 

X

X

X

Interordinal-skala

Merkmal/ Gegenstand

billig

nicht teuer

mittel

nicht billig

teuer

 

1

X

X

 

 

 

 

2

 

X

X

X

 

 

3

 

 

 

X

X

Dichotome Skala

Merkmal/ Gegenstand

männlich

weiblich

 

1

X

 

 

2

 

X

Nominalskala

Merkmal/ Gegenstand

blau

gelb

grün

 

1

X

 

 

 

2

 

X

 

 

3

 

 

X


62

Abbildung 2: Einige typische Skalen in der begrifflichen Skalierung

Ordinalskala

Biordinalskala

Interordinalskala

Dihotome Skala

Nominalskala

 


63

2.4.2. Graphische Modelle

Graphische Modelle dienen der Untersuchung und Darstellung multivariater Beziehungszusamenhänge auf Grundlage der bedingten Unabhängigkeit. Bedingte Unabhängigkeit ist zum Beispiel für die Variablen A, B und C gegeben, wenn gilt: AÐB|C, sprich A unabhängig B, gegeben C. Das Konzept der bedingten Unabhängigkeit überwindet die Probleme, die bei der paarweisen Betrachtung von Variablen auftreten können und die als Paradoxum nach Simpson bekannt sind (SIMPSON, 1951). Die Standardliteratur zu graphischen Modellen gibt verschiedene Beispiele für vorgetäuschte Beziehungen, die sich durch die zusätzliche Betrachtung einer weiteren Variablen als solche herausstellen (siehe zum Beispiel EDWARDS, 1995 oder WHITTAKER, 1990).

Zur Darstellung der Ergebnisse des graphischen Modellbildungsprozeses werden gerichtete oder ungerichtete Graphen oder Graphen mit gerichteten und ungerichteten Verbindungen verwendet, die ihre Quellen in der Graphentheorie haben (LAURITZEN, 1996) <29>. Zwei Variablen in einem graphischen Modell sind bedingt unabhängig, wenn sie nicht durch eine direkte Linie miteinander verbunden sind. Beispiele sind im Auswertungsteil zu finden.

Im Gegensatz zu der Mehrzahl der in dieser Arbeit besprochenen und eingesetzten Methoden, handelt es sich bei graphischen Modellen um im statistischen Sinne echte Modelle, das heißt, es werden Modelle gebildet, die die Beziehungen zwischen den untersuchten Variablen repräsentieren und deren Angemessenheit mit Hilfe probabilistischer Verfahren überprüft wird. Insofern sind graphische Modelle nicht frei von Annahmen, zum Beispiel zur Verteilung der Daten<30>. Vielmehr basiert der Modellbildungsprozeß auf der Durchführung von Signifikanztests zur Auswahl des oder der adäquaten Modelle (siehe unten), wobei die Richtigkeit oder Angemessenheit eines Modells natürlich auch und vor allem unter sachlogischen Gesichtspunkten zu betrachten ist und es das eine und richtige Modell für die zu untersuchenden Daten nicht geben kann. Diese Unsicherheit im Modellbildungsprozeß wird vor allem durch den EH-Algorithmus verdeutlicht (EDWARDS, 1995, siehe unten).

Je nach Datenherkunft lassen sich diskrete, kontinuierliche und gemischte graphische Modelle einsetzen. Diskrete graphische Modelle untersuchen die Wahrscheinlichkeiten der Zellhäufigkeiten von 2-, 3- oder Mehr-Wegetafeln nominal- oder ordinalskalierter Variablen. Sie sind eine


64

Unterordnung aller möglichen log-linearen Modelle (FIENBERG, 1980), deren Besonderheit darin liegt, daß, wenn zwischen zwei Variablen Unabhängigkeit festgestellt wird, also, um in der Sprache der log-linearen Modelle zu bleiben, die Zwei-Faktor-Wechselwirkung auf Null gesetzt wird, alle höherwertigen Wechselwirkungen, die diese Variablen beinhalten, ebenfalls gleich Null gesetzt werden. Höherwertige Wechselwirkungen werden also durch die Zwei-Faktor-Wechselwirkungen bestimmt. Wenn zum Beispiel im Fall der oben genannten drei Variablen A, B und C gilt, daß die Wechselwirkung zwischen B und C (BC) nicht signifikant ist, also gleich Null gesetzt wird, so gilt automatisch, daß die Drei-Faktor-Wechselwirkung ABC auch gleich Null gesetzt wird.

Es gibt hierarchische log-lineare Modelle, die nicht graphisch sind. Das log-lineare (gesättigte) Modell ABC mit dem Graphen

ist graphisch, es beinhaltet alle Zwei-Faktor-Wechselwirkungen und damit auch die Drei-Faktor-Wechselwirkung. Das log-lineare Modell AB, AC, BC, ohne Drei-Faktor-Wechselwirkung, aber mit gleichem Graph, ist demgegenüber ein nicht graphisches, hierarchisches log-lineares Modell, da die Drei-Faktor-Wechselwirkung fehlt, obwohl alle Zwei-Faktor-Wechselwirkungen vorhanden sind (EDWARDS, 1995).

Kontinuierliche graphische Modelle dienen zur Analyse multinormalverteilter intervall- oder verhältnisskalierter Variablen, das heißt sie setzen das Vorliegen der Multinormalverteilung voraus. Zwei Variablen in kontinuierlichen graphische Modellen sind voneinander bedingt unabhängig, wenn die partiellen Korrelationen zwischen diesen Variablen, gegeben die übrigen Variablen, nicht signifikant sind, oder, was das gleiche ist, wenn die zu dem Variablenpaar gehörenden Eintragungen in der Inversen der Kovarianzmatrix (in der sogenannten Präzisionsmatrix) gleich Null gesetzt werden können. Im Gegensatz zu den diskreten graphischen Modellen gibt es keine hierarchischen, nicht-graphischen Modelle.

Der Einsatz gemischter graphischer Modelle ergibt sich bei der gleichzeitigen Verrechnung von diskreten und kontinuierlichen Daten. Die angenommene Verteilung der Daten entspricht der CG-Verteilung (Conditional Gaussian); das heißt, es wird angenommen, daß die Wahrscheinlichkeit, daß die diskrete Zufallsvariable I den Wert i annimmt (I = i), ist, und daß die Verteilung der kontinuierlichen Zufallsvariablen Y, gegeben I = i, multivariat normal ist, mit Mittelwert und Kovarianzmatrix , das heißt sowohl der Mittelwert als auch die Kovarianzmatrix sind bedingt durch i.

Um zu einem graphischen Modell zu gelangen, ist ein Modellbildungsprozeß notwendig, der sowohl


65

durch seine Vorgehensweise als auch durch die Auswahl eines bestimmten Hypothesentests charakterisiert ist. An Vorgehensweisen lassen sich die Rückwärts-Elimination, die Vorwärts-Selektion und der EH-Algorithmus unterscheiden. Die Rückwärts-Elimination geht vom vollen Modell aus (das heißt es bestehen Wechselwirkungen zwischen allen Variablen und damit direkte Verbindungen im Graphen) und entfernt sukzessive die am wenigsten signifikanten Verbindungen zwischen zwei Variablen. Der Anpassungsverlust beim Vergleich zweier aufeinanderfolgender, hierarchischer Modelle ist dann ein Maßstab für die Annahme oder Ablehnung des gebildeten Modells. Die Vorwärts-Selektion geht entsprechend vor, wählt jedoch als Ausgangspunkt das Modell völliger Unabhängigkeit zwischen den Variablen und fügt diesem Modell nach und nach die am höchsten signifikanten Variablenverbindungen zu, bis ein weiteres Hinzufügen keine signifikante Verbesserung des Modells mehr erbringt. Es ist offensichtlich, daß mit beiden Methoden zwar Modelle gefunden werden können, die zu einer mit den Daten vereinbaren Darstellung führen, daß aber auch eine Vielzahl an anderen Modellen, die ebensogut an die vorliegenden Daten angepaßt werden könnten, durch das schrittweise Vorgehen übersehen werden können. Eine Alternative bietet der EH-Algorithmus. Es handelt sich um einen Suchalgorithmus, der eine große Anzahl an Modellen untersucht und daraufhin testet, ob die Modelle mit den Daten vereinbar sind oder nicht, und die Modelle dann als mögliche Modelle akzeptiert oder zurückweist (EDWARDS & HAVRÁNEK, 1985 und 1987). Eine Diskussion über die Vor- und Nachteile der unterschiedlichen Selektionsverfahren gibt SMITH, 1992.

Schließlich ist eine Teststatistik für den Modellfindungsprozeß zu definieren. Verwendet wird in dieser Arbeit der -Test. wird berechnet als Differenz zwischen zwei miteinander zu vergleichenden, hierarchischen diskreten graphischen Modellen durch: , wobei die beobachtete Zellhäufigkeit in einer 3-Wege Tafel mit den diskreten Variablen A, B und C ist, die in die Klassen (j = 1 ... a), (k = 1 ... b) und (l = 1 ... c) eingeteilt sind, und die Maximum Likelihood-Schätzung der Zellhäufigkeit unter Modell 1 (des einfacheren Modells) und die Maximum Likelihood-Schätzung der Zellhäufigkeit unter Modell 0 (des komplexeren Modells) darstellt. folgt asymptotisch der Chi-Quadratverteilung mit k Freiheitsgraden, wobei k gleich der Differenz an Freiheitgraden von Modell 0 minus Anzahl an Freiheitsgraden von Modell 1 ist (zu den exakten n Definitionen und Alternativen zu siehe EDWARDS, 1995). Im Kontext dieser Arbeit ist vor allem zusätzlich darauf hinzuweisen, daß auf Grund der Vielzahl an Variablen und der im Vergleich zu den möglichen Variablenkombinationen geringen Zahl an Objekten, vielfach schwach besetzte Tabellen in diskreten graphischen Modellen mit vielen Zellen mit Nulleinträgen vorkommen. In einem solchen Fall ist auf exakte Testverfahren, zum Beispiel basierend auf Monte Carlo Simulationen, zurückzugreifen (Näheres zu exakten Tests in graphischen Modellen zum Beispiel in WHITTAKER, 1990).

Abschließend ist anzumerken, daß die allgemeinen, dem Verfasser zur Verfügung stehenden


66

Statistikprogramme (Genstat, S-Plus und SPSS), keine zufriedenstellende Behandlung graphischer Modelle ermöglichen. Eine gute Lösung bietet das Programm MIM, das für diese Arbeit nicht verfügbar ist. Da zudem ausschließlich diskrete graphische Modelle eingesetzt werden, erfolgt die Auswertung ausschließlich mit dem Programm DIGRAM (KREINER, 1989).


67

2.4.3. Regressions- und Klassifikationsbäume

Klassifikations- und Regressionsbäume (Baumdiagramme) bieten die Möglichkeit eine Menge von Objekten in möglichst homogene Segmente (Gruppen) zu unterteilen. Insofern besteht eine gewisse Ähnlichkeit zur Clusteranalyse (siehe 2.5.1.2). Baumdiagramme leisten aber, vor allem unter dem Gesichtspunkt der Datenvisualisierung, noch mehr. Die durch die Analyse entstehende Baumstruktur zeigt nämlich nicht nur auf, welche Segmente gebildet werden und welche Objekte den jeweiligen Segmenten zugeordnet werden, sondern auch, welche Variablen diese Segmente in erster Linie charakterisieren und welche Variablen aus der Anzahl aller, in einer Analyse betrachteten, Merkmalen, den stärksten segmentierenden Einfluß haben.

Klassifikations- und Regressionsbäume, die von BREIMAN et al., 1984, beschrieben werden und auch unter der Bezeichnung CART bekannt sind, eignen sich für die Analyse gemischter Datensätze, die sowohl diskrete (nominal- und ordinalskalierte) als auch kontinuierliche (intervall- und verhältnisskalierte) Variablen beinhalten. Um zu einem Baumdiagramm zu gelangen ist es zunächst erforderlich, eine Variable als die Zielvariable zu kennzeichnen. Ist die Zielvariable diskret, so wird von einem Klassifikationsbaum, ist sie kontinuierlich, von einem Regressionsbaum gesprochen. Eine diskrete Zielvariable sollte annähernd multinomialverteilt, eine kontinuierliche Zielvariable annähernd normalverteilt sein. Der Zielvariable gegenüber stehen die Prediktorvariablen, die ein beliebiges Skalenniveau aufweisen können und über die keine Verteilungsannahmen gemacht werden.

Das Verfahren, das zum Aufbau eines Baumdiagramms führt, wird als rekursive Partitionierung bezeichnet. Im ersten Schritt wird die Prediktorvariable gesucht, die bei einer Trennung der Objekte in zwei Gruppen zu einer möglichst großen Homogenität innerhalb und möglichst großen Heterogenität zwischen den Gruppen bezüglich der gewählten Zielvariablen führt. Diese Homogenität kann nach BREIMAN et al., 1984, zum Beispiel mit einem sogenannten Unreinheitsindex bestimmt werden; darüber hinaus existieren verschiedene andere Indizes, um den optimalen Aufspaltungswert zu bestimmen, die aber häufig zu sehr ähnlichen Ergebnissen führen. Die so gebildeten Segmente, die jetzt an einem sogenannten Terminalknoten liegen, werden ihrerseits nun wieder nach demselben Prinzip durch binäre Splits in zwei Untergruppen unterteilt, wobei im Laufe der Bildung des Baumdiagramms ein und dieselben Variablen an verschiedenen Stellen auftauchen können. Der Baum kann solange weiterwachsen, bis an einem Terminalknoten nur noch ein Objekt beziehungsweise nur Objekte mit identischen Werten bei der Zielvariablen vorliegen, so daß eine weitere Aufsplittung nicht möglich ist. Häufig stoppt der Entwicklungsprozeß jedoch schon früher, und zwar wenn eine bestimmte Anzahl Objekte an einem Terminalknoten unterschritten wird. Nach NAGEL et al., 1996, empfiehlt es sich keine weiteren Splits an einem Terminalknoten vorzunehmen, wenn bei n Objekten die Anzahl Objekte an einem Terminalknoten ist. Der Schätzwert der Zielvariablen in einem Regressionsbaum errechnet sich als der Mittelwert der Zielvariablen der Objekte im Segment. Die Residuen sind die quadrierten Differenzen


68

von Schätzwert und den beobachteten Werten der Objekte. Die Summe der Residuen aller Terminalknoten geteilt durch die Anzahl der Terminalknoten, wird als mittlere Residuendevianz (mean residual deviance) bezeichnet.

Um das Baumdiagramm übersichtlicher zu gestalten, ist es angebracht, den Baum zu ‘schneiden’, das heißt untere Terminalknoten bis zu einem gewissen Punkt zu entfernen, so daß Segmente an den Terminalknoten entstehen, die noch weiter unterteilt werden könnten, darauf aber verzichtet wird, um die wesentlichen Aspekte des Baumdiagramms stärker hervorzuheben. An welcher Stelle jedoch ein Baumdiagramm optimal ‘geschnitten’ ist, kann nicht eindeutig beantwortet werden. Ein Hilfsmittel, sich einer sinnvollen Baumgröße zu nähern, ist das sogenannte cost complexity pruning. Je mehr Terminalknoten betrachtet werden, desto geringer ist die mittlere Residuendevianz. Der Grundgedanke des cost complexity pruning ist es nun, eine Abfolge von Baumstrukturen zu finden, die bei einer gegebenen Anzahl an Terminalknoten (in der Regel von maximal bis minimal möglicher Anzahl an Terminalknoten), die jeweilige Struktur mit der geringsten mittleren Residuendevianz sind. Mit Hilfe einer Graphik der mittleren Residuendevianzen auf der y- und der Anzahl an Terminalknoten auf der x-Achse läßt sich dann abschätzen, an welcher Stelle es zu starken Sprüngen, das heißt starken Zunahmen in der mittleren Residuendevianz kommt und ansatzweise entscheiden, ob der Zugewinn an Einfachheit der Darstellung das weitere Anwachsen der mittleren Residuendevianzen noch wert ist (MATHSOFT, 1997). BREIMAN et al., 1984, geben weitere, auch numerische Hilfsmittel für die Auswahl des geeigneten Baumdiagramms.

Der CHAID (Chi Square Automatic Interaction Detector)-Algorithmus kann als Spezialfall der Klassifikations- und Regressionsbäume angesehen werden . Wesentliche Unterschiede lassen sich wie folgt zusammen fassen (KASS, 1980, SPSS, 1993):

  1. CHAID verwendet ausschließlich diskrete Variablen, sowohl als Ziel- als auch als Prediktorvariablen;
  2. an Stelle von binären Splits können Splits in eine beliebige Anzahl von Klassen vorgenommen werden.
  3. die Splits orientieren sich an der Wahrscheinlichkeit aller Zwei Wege-Tafeln der Ziel- und der Prediktorvariablen; im ersten Schritt wird die Prediktorvariable ausgewählt, die die stärkste Assoziation zur Zielvariablen aufweist. In den dann entstandenen Segmenten wird dieses Vorgehen bis zum Ende der Entwicklung des Baumdiagramms wiederholt;
  4. bei Bedarf können zwei Klassen einer Variablen in eine Klasse zusammengelegt werden, wenn deren Beziehungen zur Zielvariablen annähernd gleich sind; bei nominalen Variablen kann in der Regel eine freie Kombinierbarkeit der Klassen angenommen werden, während die Klassen ordinaler Variablen in der Regel monoton, das heißt nur mit einer direkt benachbarten Klasse in eine Klasse zusammengelegt werden dürfen;

    69

  5. die Entscheidungen zur Zusammenlegung von Klassen oder zur Auswahl der Prediktorvariablen an den Terminalknoten erfolgt auf der Grundlage von Chi-Quadrat-Tests der beobachteten und geschätzten Zellhäufigkeiten von Zwei-Wege-Tafeln mit der Ziel- und den Prediktorvariablen;
  6. liegt eine ordinalskalierte Zielvariable vor, kann den ordinalen Klassen ein Wert zugeordnet werden. Sind die ordinalen Klassen zum Beispiel durch Transformation aus einer kontinuierlichen Variablen entstanden, kann jeder Klasse ihr Mittelwert oder Median zugeordnet werden. Sie werden in den Baumdiagrammen ausgewiesen und gehen auch in die Berechnung der Teststatistiken mit ein;
  7. durch die sogenannte Bonferroni-Anpassung in den Chi-Quadrat Tests wird der Tatsache Rechnung zu tragen, daß es sich bei den Tests im Laufe der Entwicklung des Klassifikationsbaums nicht um voneinander unabhängige Tests handelt; sie bewirkt eine Verringerung des Signifikanzniveaus im einzelnen Test, um den nominalen Fehler aller Tests am festgelegten Signifikanzniveau zu halten.


70

2.5. Graphische und ergänzende Verfahren

2.5.1. Graphische Verfahren

In der Folge werden einige überwiegend graphisch eingesetzte Techniken angesprochen, die die bislang besprochenen Methoden ergänzen. Da sie an verschiedenen Stellen der Datenanalyse in Kapitel 3 eingesetzt werden, ist eine kurze Erwähnung angebracht; eine ausführliche Diskussion erfolgt jedoch nicht. Es werden besprochen

  1. Andrews-Kurven und Parallelkoordinatenplots (2.5.1.1)
  2. Dendrogramme und Multiple Spanning Trees (2.5.1.2)
  3. Scatterplots und Trellis-Displays (2.5.1.3)
  4. Interaktive Graphik und sonstige Verfahren (2.5.1.4)

2.5.1.1. Andrews-Kurven und Parallelkoordinatenplots

a-Andrews-Kurven

Andrews-Kurven gehen zurück auf ANDREWS, 1972. Jedem Objekt entspricht eine Andrews-Kurve, die als Funktion von nach dem folgenden Prinzip berechnet wird: , wobei die Anzahl der Variablen durch die Ordnung des Polynoms bestimmt wird. Ein Plot mit den Kurven jedes Objekts im Bereich von bis ergibt den Andrews-Plot. Wichtige Eigenschaften der Andrews-Kurven sind:

wobei gilt , mit als der quadrierten euklidischen Distanz zwischen zwei Funktionen und als der quadrierten euklidischen Distanz zwischen zwei Objekten<31>. Das heißt also, daß zwei Kurven, die nahe beieinander liegen, auch im Sinne der euklidischen Distanz nahe beieinander sind. So können Andrews-Kurven helfen, Gruppierungen oder sehr aus dem allgemeinen Rahmen fallende Objekte aufzuspüren. Hilfreich ist bisweilen auch der Andrews-Plot an einem bestimmten Punkt . Als begrenzender Faktor für den Einsatz von Andrews-Kurven ist die Tatsache anzusehen, daß schon bei einer nur moderaten Anzahl an Objekten ein recht undeutliches Bild entstehen kann. Ein zweites Problem liegt darin begründet, daß die Reihenfolge, in der die Variablen in die Funktion eingehen, Einfluß auf den Funktionswert hat. Die ersten


71

Variablen haben in der Darstellung eine stärkeres Gewicht als später folgende Variablen, so daß es ratsam ist die Reihenfolge der Variablen so zu gestalten, daß die wichtigsten Variablen am Anfang stehen. Wo eine natürliche Reihenfolge nicht gegeben ist, ist die Durchführung einer Hauptkomponentenanalyse und die Bildung der Andrews-Kurven auf Grundlage der Hauptkomponentenwerte in Erwägung zu ziehen. Ein Beispiel für dieses Vorgehen liefert zum Beispiel ROVAN, 1994.

b-Parallelkoordinatenplots

In Parallelkoordinatenplots (WEGMAN, 1990) werden die Variablen durch parallele, vertikale oder horizontale Achsen dargestellt. Die Werte, die ein Objekt bei den jeweiligen Variablen einnimmt, werden durch eine Linie miteinander verbunden. So ist es möglich die Informationen zu einer Vielzahl von Variablen und Objekte ohne Informationsverlust in einer Abbildung unterzubringen. Je nach Variablenstruktur können die Originalwerte oder transformierte Werte beziehungsweise die absoluten oder die prozentualen Werte verwendet werden.

Parallelkoordinatenplots ermöglichen einen Einblick in die Korrelation der Variablen untereinander. Kommt es zum Überkreuzen der Objektlinien, so spricht dies für eine negative Korrelation; liegt ein paralleler Verlauf vor, so läßt dies den Schluß auf positive Korrelation zu. Da allerdings nahe beieinander liegende Parallelkoordinatenachsen (der Variablen) leichter Aufschluß über Korrelationen geben als weiter entfernt liegende, empfiehlt sich die Permutation der Variablenachsen. Um einen guten Überblick über mögliche Korrelationen zu erhalten, ist es allerdings nach KARAMAN, 1995, nicht erforderlich alle p! Permutationen der Variablenpaare von p Variablen abzubilden. Wenn erreicht wird, daß jede Variablenachse mindestens einmal neben jeder anderen Variablenachse plaziert wird, ist dies in der Regel ausreichend und bereits mit ungefähr p/2 Abbildungen zu erreichen.

Möglicherweise bei den Objekten vorhandene Gruppierungen lassen sich, ähnlich wie bei Andrews-Kurven, durch vergleichbare Linienverläufe unterschiedlicher Objekte identifizieren. Wie beim Andrews-Plot führt aber die Unübersichtlichkeit der Abbildungen bei vielen Objekten und die Vielzahl der Permutationen der Variablen zu einer begrenzten Nutzbarkeit der Parallelkoordinatenplots, sofern nicht interaktive Explorationsmöglichkeiten, wie sie zum Beispiel INSELBERG, 1997, beschreibt, eingesetzt werden können.

2.5.1.2. Dendrogramme und Multiple Spanning Trees

a-Dendrogramme und Clusteranalyse

Dendrogramme verdeutlichen graphisch die Ergebnisse einer hierarchischen Clusteranalyse<32>. Je


72

nach Clusterverfahren ergeben sich unterschiedliche Dendrogrammstrukturen, die sowohl Informationen zur Nähe beziehungsweise Entfernung von Objekten zueinander geben, als auch Aufschlüsse über mögliche Gruppierungen zulassen. Ein Dendrogramm ordnet die Objekte so an, daß einander ähnliche Objekte nahe beieinander, einander weniger ähnliche Objekte weiter von einander entfernt auf einer Linie liegen.

Es ist hierarchisch aufgebaut, das heißt Objektgruppierungen größerer Unähnlichkeit schließen Objektgruppierungen geringerer Unähnlichkeit ein. Geht die Gruppierung von einer Gesamtgruppe aus, die alle Objekte umfaßt und die nach und nach in Untergruppen unterteilt wird, so wird von einem divisiven Clusterverfahren gesprochen; geht die Gruppierung von einer der Anzahl der Objekte entsprechenden Zahl von Einzelgruppen (jedes Objekt entspricht also einer Gruppe) aus, die nach und nach durch weitere Objekte ergänzt wird, so liegt ein agglomeratives Clusterverfahren vor. Agglomerative Verfahren beherrschen die gängigen Vorgehensweisen in der Clusteranalyse, da sie weniger rechenintensiv als die divisiven Verfahren sind.

Ausgangspunkt für die Erstellung eines Dendrogramms ist eine, auf einem entsprechenden Proximitätsmaß beruhende, Proximitätsmatrix. Beim agglomerativen Vorgehen werden im ersten Schritt die beiden Objekte mit der geringsten Unähnlichkeit zu einer Gruppe zusammengefaßt; anschließend wird eine neue Proximitätsmatrix mit der neuen Gruppe an Stelle der zusammengefaßten Objekte berechnet und erneut auf der Grundlage dieser Proximitätsmatrix eine Zusammenführung von Objekten durchgeführt. Diese Schritte werden so lange wiederholt, bis nur noch eine Gruppe, die alle Objekte beinhaltet, vorliegt. Unterschiede zwischen hierarchischen Clusterverfahren beruhen nun auf unterschiedlichen Wegen, wie die Neuberechnung der Proximitätsmatrix nach der Zusammenführung von Objekten (wobei hier nun ein Objekt auch eine Gruppe von Objekten meinen kann) erfolgt. Einige Agglomerationskriterien sind in Tabelle 6 zusammengefaßt.

Weitere clusteranalytische Ansätze sind verschiedene Verfahren der modellbegründeten Clusteranalyse (BANFIELD & RAFTERY, 1992), sowie die nicht-hierarchische Klassifikation (Partitionierung um Medoide) und Fuzzy Clustering (KAUFMANN & ROUSSEEUW, 1990).

In der modellbegründeten Clusteranalyse wird mit Hilfe einer Maximum Likelihood Prozedur die Zuordnung eines Objekts zu einem Cluster (bei vorgegebener Clusterzahl) so vorgenommen, daß ein spezielles Kriterium optimiert wird, wobei das bekannteste wohl das Kriterium nach Ward ist, das zu einer Minimierung der Varianz innerhalb der gewählten Cluster führt. Andere Kriterien sind MATHSOFT, 1997, zu entnehmen. Die Anwendung unterschiedlicher Kriterien setzt unterschiedliche Annahmen zur Verteilung der Daten voraus (das Ward-Verfahren zum Beispiel die


73

Multinormalverteilung) und führt zu optimalen Ergebnissen unter der Annahme bestimmter Orientierungs-, Größen- und Formmerkmale der Cluster.

In der Partition um Medoide erfolgt die Clusterung, bei Vorgabe der gewählten Clusteranzahl, um spezielle, in den verschiedenen Clustern ‘zentral angeordnete’, repräsentative Objekte, den Medoiden. Diesen Medoiden werden weitere Objekte zugeordnet, die ihnen am ähnlichsten sind. Der Vorgang wird solange wiederholt, bis alle Objekte einem Cluster zugeordnet sind, und ein Austausch von Objekten zwischen unterschiedlichen Clustern zu keiner Verringerung der Summe der Unähnlichkeiten aller Objekte eines Clusters zum zugehörenden Medoid führt. K-means Clusterung geht entsprechend vor, verwendet aber statt einer Proximitätsmatrix die Originaldatenmatrix und minimiert nicht die Summe der Unähnlichkeiten, sondern die Summe der quadrierten, euklidischen Distanzen. Nach MATHSOFT, 1997, ist sie daher weniger robust als die Partition um Medoide.

Bei der Fuzzy Clusterung schließlich handelt es sich um eine unscharfe Gruppenzuordnung, das heißt die Objekte werden einem Cluster nur mit einer gewissen Wahrscheinlichkeit zugeordnet.

Da unterschiedliche Clusterverfahren zu unterschiedlichen Gruppierungen führen, unterliegen die Ergebnisse einer gewissen Beliebigkeit. Es gibt keine eindeutige Regel für das im Einzelfall geeig-nete und richtige Verfahren. Es ist zu beachten, daß die Clusteranalyse immer Objekte zu Gruppierungen zusammenfaßt, auch wenn den Objekten in Wirklichkeit überhaupt keine Gruppenstruktur zugrunde liegt. Jede Clusteranaylse teilt also eine (strukturierte oder unstrukturierte) Population in Gruppen ein. Zwei Fragen, die es daher vor Durchführung einer Clusteranalyse zu beantworten gilt, sind: „Kann überhaupt von einer Clusterung der Population ausgegangen werden?“, und wenn ja: „Wieviel Cluster beschreiben die Population am besten?“.

Eine Möglichkeit in der modellbegründeten Clusteranalyse die Anzahl der vorhandenen Cluster zu bestimmen und zu entscheiden, ob überhaupt eine Clusterstruktur vorliegt oder nicht, bietet die Berechnung sogenannter AWE<33>-Werte für jede Anzahl an möglichen Clustern (also von 1 bis n, mit n als der Anzahl der Objekte). Der höchste positive AWE-Wert gilt als Indiz für die Anzahl der in der Population tatsächlich vorhandenen Cluster. Liegen alle AWE-Werte unter Null, so ist dies ein Indiz, daß keine Clusterstruktur vorliegt.

Im Bereich der nicht-hierarchischen Klassifikation und der Fuzzy Clusterung kann die Erstellung von Silhouettenplots für eine unterschiedliche Anzahl von Clustern vorgenommen werden. Die Silhouettenbreite s(i) eines Objekts errechnet sich nach: , mit a(i) als der mittleren Unähnlichkeit von Objekt i zu dem Cluster, dem es zugeordnet ist. Um b(i) zu berechnen ist es zunächst erforderlich die durchschnittliche Unähnlichkeit von Objekt i zu allen


74

übrigen gebildeten Clustern zu bilden. b(i) ist dann das Minimum dieser Unähnlichkeiten. Ein Wert von

s(i) = 1 entspricht einer sehr guten, ein Wert von s(i) = -1 einer sehr schlechten Klassifikation und der Wert s(i) = 0, deutet auf eine Lage des Objekts zwischen zwei Clustern hin. Im Silhouettenplot werden die Objekte nach ihren s(i) Werten sortiert wiedergegeben. Die mittlere Silhouettenbreite aller Objekte ist ein Hinweis auf die Güte Clusterlösung. Liegt sie unter 0,25, so ist dies ein Anzeichen für das Fehlen eine deutlichen Clusterstruktur. In der Fuzzy Clusterung kann zusätzlich der Dunn-Koeffizient betrachtet werden, der anzeigt, wie ‘fuzzy’ die Lösung ist. Er liegt immer im Bereich von 1/Anzahl Cluster (vollständig ‘fuzzy’) bis 1 (vollständig ‘crisp, das heißt deutlich getrennt). Zu Grundlagen und genauer Berechnung der genannten Verfahren siehe MATHSOFT, 1997.

In der hierarchische Clusteranalyse dienen neben den Dendrogrammen auch Bannerplots zur Einschätzung der möglichen Anzahl an vorhandenen Gruppen. Heben sich Cluster sehr deutlich voneinander ab, so erscheint dies im Dendrogramm durch sehr kurze Linien bis zum Verschmelzungspunkt von Objekten eines Clusters und sehr lange Linien bis zum Verschmelzungspunkt eines anderen Clusters. Im Bannerplot werden die Verschmelzungspunkte durch horizontale Balken wiedergegeben. Sie beinhalten somit dieselbe Information wie Dendrogramme. Je stärker der Bannerplot durch diese Balken gefüllt bist, desto größer ist die Ähnlichkeit der verschiedenen Cluster, das heißt, desto geringer ist die Clusterstruktur der Gesamtheit der Objekte. Eine zusätzliche Information liefert der agglomerative Koeffizient. Wenn d(i) die mittlere Unähnlichkeit des Objekts i zu dem Cluster ist mit dem es zuerst verschmolzen wird, geteilt durch die Unähnlichkeit dieses Objekts bei der Verschmelzung im letzten Schritt des Clusteralgorithmus, so ist der agglomerative Koeffizient AC definiert als das Mittel aller 1 - d(i). Ein niedriger AC deutet an, daß eine Vergrößerung der Cluster nur zu einer geringen Zunahme der Unähnlichkeiten in diesen Clustern führt, was wiederum ein Indiz für eine recht undeutliche Clusterstruktur ist. Eine analoge Definition gilt für den divisiven Koeffizienten (MATHSOFT, 1997).

BOCK, 1985, nennt alternative Verfahren zur Bestimmung des Vorliegens einer Clusterstruktur. KRZANOWSKI & LAI, 1988, und MILLIGAN & COOPER, 1985, diskutieren die zweite der oben gestellten Fragen, nämlich die Frage nach der optimalen Anzahl an Clustern (wenn denn eine Clusterstruktur überhaupt vorliegt).

b-Multiple Spanning Trees

Multiple Spanning Trees stellen ebenfalls eine Möglichkeit der Repräsentation einer Proximitätsmatrix dar (GOWER & ROSS, 1969). Der Aufbau erfolgt auf iterativem Weg in der Art, daß jedes Objekt durch einen Punkt dargestellt wird, alle Objektpunkte mit Linien verbunden werden, ohne daß geschlossene Verbindungen entstehen, und die Summe der Längen der Verbindungslinien das Minimum aller möglichen Verbindungen darstellt. Die Länge der einzelnen


75

Liniensegmente entspricht den Werten der Proximitätsmatrix der Objekte. Die Winkel der Verbindungslinien sind in der Regel so zu wählen, daß eine übersichtliche Abbildung entsteht. Allerdings ist auch die Überlagerung des Multiple Spanning Trees über eine zweidimensionale Konfiguration zum Beispiel aus einer Hauptkoordinatenanlyse denkbar (siehe 2.1.2 und Auswertungen in Kapitel 3).

Der Multiple Spanning Tree verdeutlicht, ähnlich wie das Dendrogramm, Objektgruppierungen und visualisiert die Elemente einer Proximitätsmatrix. Er liefert dieselben Objektgruppierungen wie das Dendrogramm der Single-Link-Methode. Für die anderen Clusteranalyseverfahren stellt der Multiple Spanning Tree eine Kontrollmöglichkeit der Angemessenheit bestimmter Gruppenbildungen dar. Schließlich bietet sich die Überlagerung des Multiple Spanning Tree über die Objektabbildung, zum Beispiel einer Hauptkoordinatenanlyse, an. Durch die Dimensionserniedrigung schlecht abgebildete Objekte beziehungsweise Objektdistanzen können durch den Multiple Spanning Tree aufgedeckt werden. Liegen zum Beispiel in einer Hauptkoordinatenanlyse-Abbildung zwei Objekte dicht beieinander, während die Verbindung dieser Objekte im Multiple Spanning Tree nicht auf direktem Weg, sondern über Umwege, das heißt über ein oder mehrere andere Objekte erfolgt, so läßt dies den Schluß auf einer Mißrepräsentation der Objektdistanz in der zweidimensionalen Abbildung zu.

Weiterentwicklungen im Bereich der Multiple Spannung Trees, vor allem auch der Einsatz im Bereich der interaktiven Graphik beschreibt SCHILLER, 1996.

2.5.1.3. Scatterplots und Trellis-Displays

a-Scatterplots

Um die Beziehung zweier Variablen zueinander darzustellen, ist der Scatterplot ein vielfach eingesetztes graphisches Mittel. Er gibt Hinweise auf Beziehungen zwischen den Variablen, auf Gruppierungen bei den Objekten, auf die Verteilung der Werte und auf Ausreißer. Speziell um Beziehungen zwischen Variablen zu verdeutlichen, erfolgt häufig eine Kurvenanpassung an den Punkteschwarm im Scatterplot. Darüber hinaus tragen zu einer effektiven Gestaltung eines Scatterplots das Banking, Jittering und Slicing bei (nach CLEVELAND, 1993).

  1. Banking; Banking dient der effektiven Darstellung eines Punkteschwarms beziehungsweise einer an den Punkteschwarm angepaßten Kurve. Eine Kurve mit einer Steigung von 1 besitzt eine Orientierung von 45 Grad, eine Kurve mit einer Steigung von -1 eine Orientierung von - 45 Grad. Eine Zentrierung der absoluten Orientierungen einer Kurve an dieser 45 Grad Linie führt im allgemeinen zur bestmöglichen Wahrnehmung der Kurveneigenschaften; es erfolgt in diesem Fall das sogenannte Banking auf 45 Grad. Banking ergibt je nach Orientierung ein bestimmtes Verhältnis der Y- zur X-Achse, in dem dann die Darstellung des Punkteschwarms mit oder ohne angepaßte Kurve erfolgt. Zur Berechnung siehe CLEVELAND, 1993 und OLLERTON & HARDING, 1995.

    76

  2. Jittering; ein Problem, das bei Scatterplots auftreten kann, vor allem bei größeren Datenmengen und ganzzahligen oder stark gerundeten Werte, ist die Überlagerung gleicher Punkte. Unter Jittering versteht man das Hinzufügen einer festgelegten Streuung zu den Werten einer oder beider abgebildeten Variablen. Diese Streuung muß im Vergleich zur Spannweite der Variablenwerte gering sein und in einem auf Null zentrierten Intervall erhoben werden, Häufig bietet sich die Generation von Zufallszahlen aus der Gleichverteilung an<34>.
  3. Slicing; unter Slicing versteht man das Betrachten der Werte der einen Variablen an nur einem Wert oder in einem gewählten Intervall der anderen Variablen. Die Werte der ersten Variablen werden dann zum Beispiel in Form eines Boxplots dargestellt oder können für verschiedene Werte beziehungsweise Intervalle mit geeigneten graphischen Mitteln einander gegenübergestellt werden. Entsprechende Intervalle ergeben sich aus dem sogenannten equal-count-Algorithmus, dar nach Vorgabe der Anzahl der Intervalle und der Überlagerung der Intervalle, die Grenzen der Intervalle in der Art liefert, daß jedes Intervall in etwa die gleiche Anzahl an Punkten beinhaltet. Diese Intervalle werden auch als Shingles bezeichnet (zur praktischen Durchführung siehe ebenfalls CLEVELAND, 1993).

Liegt eine weitere, eine dritte Variable vor, so ist eine Scatterplot-Darstellung in drei Dimensionen möglich. Allerdings sind dreidimensionale Scatterplots bei weitem schwerer zu lesen als zweidimensionale. So ist zum Beispiel die Zuordnung von Werten zu einzelnen Punkten im dreidimensionalen Scatterplot recht schwierig. Zu den in Graphikprogrammen üblichen Hilfsmitteln, um auch dreidimensionale Scatterplots besser lesbar zu machen, zählen die Möglichkeiten der Rotation, Farbkodierung, Verknüpfung mit Ausgangsdaten, Rahmengebung und ähnliches.

Häufig übersichtlicher als dreidimensionale Scatterplots sind Scatterplotmatrizen, eine Zusammenfassung aller Scatterplots der drei (oder mehr) betrachteten Variablen in einer Abbildung. Während die Diagonale der Scatterplotmatrix die Variablenbenennungen enthält, sind die einzelnen Scatterplots aller Variablenpaare sowohl oberhalb als auch unterhalb der Diagonalen abgebildet. Die Scatterplots sind mit entsprechenden Skalen und Referenzlinien zu versehen, um die Les- und Interpretierbarkeit zu verbessern. Die Inspektion einer Scatterplotmatrix kann darüber hinaus durch interaktive, graphische Instrumente vertieft werden.

b-Trellis-Displays

Trellis-Displays, die auch als Co-Plots (conditioning plots) bezeichnet werden, erweitern noch die Möglichkeiten der Scatterplotmatrizen, mehrdimensionale Sachverhalte in einer Abbildung


77

aufzuzeigen. Die Grundlagen werden von BECKER et al., 1994, und CLEVELAND, 1993, erläutert. THEUS, 1996, vergleicht Trellis-Displays und interaktive Graphik.

Es handelt sich bei Trellis-Displays um eine nach einem bestimmten Schema aufgebaute Anordnung von Einzelgraphiken, die nach THEUS, 1996, Informationen von bis zu acht Variablen auf einer (DIN A4) Seite darstellen können. Zur Spezifikation eines Trellis-Displays gehört die Angabe der verwendeten Daten, die graphische Methode der Einzelgraphiken (zum Beispiel Scatterplots, Linienplots, Boxplots), die Benennung der zwei- (oder drei) Achsenvariablen und die Benennung der konditionierenden Variablen. Die konditionierenden Variablen können nominal- oder ordinalsklierte Variablen, oder intervall- beziehungsweise verhältnisskalierte Variablen sein, die zuvor in Klassen eingeteilt werden, zum Beispiel nach Maßgabe des equal-count-Algorithmus. Durch die konditionierenden Variablen können jeweils Bereiche für diese Variablen festgelegt werden, in denen die Werte der Achsenvariablen abgebildet werden sollen. Die Definition der Variablen als konditionierende Variablen und Achsenvariablen ist im Prinzip beliebig und kann daher zu einer Vielzahl von Trellis-Displays mit jeweils unterschiedlichen Festlegungen führen. Je größer die Variablenzahl, desto schwieriger wird es einen Gesamteinblick, in allen möglichen Variablenkombinationen zu bekommen. Die Klassenbildung bei intervall- oder verhältnisskalierten Variablen unterliegt hier, wie auch in anderen Methoden, zum Beispiel der Korrespondenzanalyse, einer gewissen Subjektivität.

Referenzlinien, die nicht mit bestimmten Achsenwerten übereinstimmen müssen, können hilfreich sein, um Werte zwischen Einzelgraphiken zu vergleichen.

Ein Verfahren, das im Auswertungteil häufig eingesetzt wird, ist die Anpassung sogenannter Loess-Linien an einen Punkteschwarm in den Panels eines Trellis-Displays. Die Loess-Linien werden an Stelle parametrischer Regressionslinien (zum Beispiel einer linearen Kleinste-Quadrate-Regression) gewählt, da sie weniger stark auf Extremwerte und Ausreißer, reagieren. Loess steht für local regression und wird in CLEVELAND, 1993, beschrieben. An Stelle einer einmaligen Kurvenanpassung an alle Werte, erfolgt eine schrittweise, lokale Kurvenanpassung im Bereich jedes einzelnen Punktes, unter Berücksichtigung des Gewichts der ihn umgebenden Punkte, wobei näherliegende Punkte ein höheres Gewicht haben als weiter entfernt liegende. Die lokale Anpassung erfolgt so mit einer gewichteten linearen oder quadratischen Kleinste-Quadrate-Regression und ergibt einen Loess-Schätzer für den gewählten Punkt. Dieser Vorgang wird für alle Punkte wiederholt. Die Loess-Schätzer werden dann durch Liniensegmente miteinander verbunden. Unterschiede in der Kurvenanpassung ergeben sich durch die Festlegung der Loess-Parameter, das heißt des Glättungsparameters, der festlegt wie groß der Bereich von Punkten ist, der in der lokalen Anpassung betrachtet werden soll<35>, und des Regressionsparameters, der bestimmt, ob


78

eine lokal lineare oder eine lokal quadratische Anpassung erfolgen soll. Schließlich können die Residuen zwischen beobachteten und geschätzten Werten noch in die Berechnung miteinbezogen werden wodurch dann auf iterativen Weg eine Minimierung der Residuen erreicht wird. Dieses Verfahren führt zu einer erhöhten Robustheit bei Vorliegen extremer Werte.

2.5.1.4. Interaktive Graphik und sonstige Verfahren

Der Einsatz interaktiver Graphikprogramme wie zum Beispiel Manet oder Data Desk, ist eine wichtiger Schritt im Bereich der Datenanalyse, um Daten kennenzulernen und zu hinterfragen, beziehungsweise um entsprechende Hypothesen zu den Daten zu entwickeln. UNWIN, 1992, und THEUS, 1996, vermuten eine ständig zunehmende Bedeutung interaktiver Graphiken für die statistische Datenanlyse. Wesentliche Bestandteile interaktiver Graphikprogamme sind (CLEVELAND, 1993, NAGEL et al., 1992, OSTERMANN & WOLF-OSTERMANN., 1992):

Die zunehmende Leistungsgfähigkeit von Computern wird auch die Leistungsfähigkeit interaktiver graphischer Verfahren noch steigern. Die Faszination interaktiver Graphiken läßt sich jedoch nur schwer auf statische Dokumente wie Bücher übertragen. Daher sind sie zur Vermittlung von Untersuchungsergebnissen auf die Darstellung am Computer beschränkt.

Zur Darstellung mehrdimensionaler Sachverhalte im üblichen, zweidimensionalen Publikationsformat geben TUKEY & TUKEY, 1981, eine Vielzahl weiterer Hinweise. Dazu zählen die geeignete Auswahl von Symbolen, der Verzicht auf die Darstellung bestimmter Punkte und die Verwendung von Kontur- und Referenzlinien. Darüber hinaus sind Agglomeration von Punkten ähnlicher Werte möglich. Denkbar ist auch die Aufteilung einer Abbildung in viele einzelne Bereiche, die dann mit zusätzlichen Informationen zu den Werten in diesem Bereich gefüllt werden können (sogenannte multiwindow plots). Auch können die Symbole zweier Variablen mit weiteren Informationen zum Beispiel über eine dritte Variable versehen werden (durch Linien, Polygone,


79

Farben, Zeichenstärke und ähnliches). Eine Anzahl von Variablen lassen sich auch als eigene Symbole darstellen, wobei die Gestaltung des Symbols von den Werten der Variablen abhängt. Hierzu zählen zum Beispiel die Starplots, Cherneyeff Gesichter, Andersons Glyphen, Kleiner-Hartigan-Bäume und viele andere mehr. Farbplots (Dshade-Plots) schließlich können Variablenwerte unterschiedlicher Objekte oder die Werte von Proximitätsmatrizen durch unterschiedliche Farben visualisieren.

Darstellungsmöglichkeiten gibt es demnach in großer Zahl. Inwieweit einzelne Vorgehensweisen tatsächlich das Verständnis für die Daten vertiefen beziehungsweise mehrdimensionale Sachverhalte in einfachen Abbildungen zusammenfassen, ist nicht grundsätzlich zu beantworten. Vielmehr sind für den Einzelfall je nach Fragestellung sowie Objekt- und Variablenzahl geeignete Darstellungsformen zu wählen.


80

2.5.2. Ergänzende Methoden

In den folgenden Kapiteln werden vier Bereiche kurz angesprochen, die von allgemeiner Bedeutung in der multivariaten Datenanalyse sind.

Der Überprüfung von Daten auf Vorliegen der Multinormalverteilung und der Varianzhomogenität kommt vor allem Bedeutung beim Einsatz schließender Verfahren zu (2.5.2.1). Die Verwendung robuster Methoden spielt in erster Linie dort eine Rolle, wo einzelne, untypische Objekte (Ausreißer) einen starken Einfluß auf die Lösung haben (2.5.2.2). Eng verknüpft mit der Thematik der Ausreißer ist die Frage nach dem Umgang mit fehlenden Werten in multivariaten Datensätzen (ebenfalls 2.5.2.2). Schließlich ist die Stabilität einer Analyselösung mit geeigneten Verfahren zu überprüfen (2.5.2.3).

2.5.2.1. Tests auf Multinormalverteilung und Varianzhomogenität

a-Multinormalverteilungstests

Normalverteilungstests lassen sich im univariaten Fall nach KOZIOL, 1986, in vier Gruppen einteilen<36>:

  1. Tests der Anpassungsgüte nach Shapiro-Wilk und Abwandlungen davon;
  2. Tests, die auf dem Vergleich mit der empirischen Verteilungsfunktion aufbauen (zum Beispiel Kolmogorov-Smirnov);
  3. Berechnung und Beurteilung von Schiefe und Kurtosis;
  4. informelle, graphische Methoden.

Für den multivariaten Fall gibt es nun verschiedene Generalisierungen für die univariaten Verfahren.

So schlägt ROYSTON, 1983, die Inspektion der Shapiro-Wilk-Statistik für jede einzelne Variable vor und beschreibt ein Verfahren der Kombination der einzelnen Werte, um eine Aussage zur Multinormalverteilung zu treffen.

Auch auf der empirischen Verteilungsfunktion beruhende Verfahren lassen sich für den multivariaten Fall konstruieren, ihre praktische Bedeutung ist aber gering.

Mit der Berechnung von Schiefe und Kurtosis und der Erarbeitung aussagekräftiger Statistiken für die multivariable Fragestellung beschäftigen sich zum Beispiel MACHADO, 1983, MALKOVICH & AFIFI, 1973, und SMALL, 1980.


81

Daneben gibt es Multinormalverteilungstests, die kein univariates Gegenstück besitzen. Hierzu zählen die von GNANADESIKAN, 1977, ausführlich beschriebenen Winkel- und Radientests. Die Einzelheiten der verschiedenen Verfahren sind den angegebenen Quellen zu entnehmen.

Ist Multinormalverteilung nicht gegeben und sollen auf der Annahme der Multinormalverteilung beruhende Verfahren eingesetzt werden, bietet sich eine entsprechende Transformation der Variablen an. ANDREWS et al., 1971, beschreiben Möglichkeiten zur Transformation zur Multinormalverteilung. Eine Transformation einzelner, nicht normalverteilter Variablen in normalverteilte transformierte Variablen, reicht in der Regel nicht aus, um zur Multinormalverteilung zu gelangen. Das Vorgehen kann aber zumindest zu einer symmetrischen Verteilung führen. Nach KRZANOWSKI, 1988a, ist die Anwendung schließender, auf der Annahme der Multinormalverteilung beruhender, Verfahren in vielen Fällen möglich, solange die Werte zumindest aus einer zentral symmetrischen Verteilung stammen.

b-Varianzhomogenitätstests

Liegen Daten gruppiert vor, so ist die Frage zu stellen, ob allen Gruppen eine gemeinsame Kovarianzmatrix zugrunde liegt. Die Überprüfung der Varianzhomogenität spielt zum Beispiel in der Diskriminanzanalyse oder in der multivariaten Varianzanalyse eine große Rolle, weniger allerdings in den Verfahren, die überwiegend in dieser Arbeit eingesetzt werden. Die multivariate Variante des Bartlett Tests, der allerdings auch sehr stark auf Abweichnungen von der Multinormalverteilung reagiert, stellt eine Möglichkeit dar, die Gleichheit mehrerer Kovarianzmatrizen zu testen (siehe zum Beispiel HAND & CROWDER, 1996). Ein graphisches Verfahren, aufbauend auf der Biplot-Methodologie, stellen CORSTEN & GABRIEL, 1976, vor.

Zusätzlich kann es zum Beispiel in der Hauptkomponentenanalyse wichtig sein zu klären, ob die einzelnen Variablen in etwa die gleiche Variabilität aufweisen, um eine Entscheidung bezüglich der Notwendigkeit einer Standardisierung der Variablen zu treffen. Verschiedene bekannte Verfahren, die die Homogenität von Varianzen prüfen sind neben dem Bartlett Test der Box-Scheffe-, Levene-, F-, oder Cochran-Test (RASCH et al., 1992, SOKAL & ROHLF, 1981). Diese Tests gehen allerdings vom Vergleich von Varianzen von voneinander unabhängigen Behandlungen aus. Die Überprüfung der Varianzhomogenität in Datensätzen mit untereinander korrelierten Variablen, wie sie in der dieser Arbeit vorliegen, wird zum Beispiel von HARRIS, 1985, besprochen. Er entwickelt vier Teststatistiken . Im Fall von und wird mit der Logarithmus-Transformation gearbeitet und somit eine gewisse Stabilität gegenüber Abweichungen von der Multinormalverteilung, so sie denn vorliegt, Rechnung getragen. In großen Stichproben folgen die Teststatistiken der Chi-Quadrat-Verteilung mit Freiheitsgraden.

2.5.2.2. Robuste Methoden und fehlende Werte

a-Robuste Methoden


82

Häufig tauchen in einem Datensatz zweifelhafte oder untypische Werte auf. Diese können durch falsche Messungen verursacht sein, oder auf Übertragungsfehlern, einer falschen Kommasetzung oder ähnlichem beruhen. Natürlich kann es sich auch um tatsächlich extreme Werte handeln, die zwar richtig aufgezeichnet sind, aber eben aus dem allgemeinen Rahmen der übrigen Werte fallen. Wie richtig mit derartigen Ausreißern umzugehen ist, ist nicht unumstritten. SEBER, 1984, führt verschiedene Standpunkte aus. Eine Möglichkeit - die einzige, die an dieser Stelle vertieft wird - ist die Erarbeitung sogenannter robuster Schätzer beziehungsweise der Einsatz robuster Verfahren. Ein guter robuster Schätzer, zum Beispiel für die Kovarianzmatrix, weist bei einem der Multinormalverteilung folgenden Datensatz ohne untypische Werte eine hohe Effizienz gegenüber des besten unverzerrten Schätzers (also dem Maximum Likelihood Schätzer S für ) auf. Liegen untypische, zweifelhafte Werte vor, so wird der robuste Schätzer weniger stark durch diese beeinflußt als der nicht robuste Schätzer.

Im Fall der Hauptkomponentenanalyse kann es daher zum Beispiel angebracht sein, an Stelle der Kovarianzmatrix S eine robuste Variante der Kovarianzmatrix zu verwenden. Verschiedene Vorschläge, wie man zu einem robusten Schätzer der Kovarianzmatrix gelangt, geben JACKSON, 1991, KRZANOWSKI & MARRIOTT, 1994, oder SEBER, 1984. Die Methode von CAMPBELL, 1980, soll kurz ausgeführt werden. Untypische Werte werden derart gehandhabt, daß ihnen ein geringes Gewicht zufällt. Erhalten alle Objekte das Gewicht so werden alle Objekte gleich und voll gewichtet. Erhält eine Objekt zum Beispiel das Gewicht , so wird dieses Objekt überhaupt nicht berücksichtigt. Je untypischer ein Objekt ist, desto geringer ist im Bereich von 0 bis 1. Es ergeben sich dann mit den Gewichten als robuste Schätzer für den Mittelwertsvektor und die Kovarianzmatrix , und . Die Gewichte errechnen sich auf iterativem Weg. Es erfolgt zunächst die Berechnung der Mahalanobis-Distanz für Objekt i vom Zentroid nach und daraus dann , mit beziehungsweise , wobei für gilt: . Mit den Gewichten werden dann Zentroid und Kovarianzmatrix, sowie die daraus resultierende Mahalanobis-Distanz erneut berechnet und dieser Vorgang bis zur Konvergenz wiederholt. Für den Iterationsprozeß sind nun noch die Parameter und festzulegen. CAMPBELL, 1980, empfiehlt die folgenden Varianten:

  1. ; für alle i.
  2. dies führt zu und zu .

    83

  3. , ; dies führt zu einer Vielzahl von Gewichten, entsprechend der Werte der einzelnen Objekte.

Die Identifikation der untypischen Objekte erfolgt zum Beispiel durch die entsprechenden, geringen Gewichte. Als Faustzahlen für untypische Werte nennt CAMPBELL, 1980, ein Gewicht von < 0,3 bei und . Demgegenüber ist ein Gewicht von > 0,7 bei und ein Indiz für eine typische, nicht aus dem Rahmen fallende Einheit. Eine weitere Möglichkeit ist die Erstellung einer Graphik mit den der Größe nach geordneten Werten für gegen die Quantile der Normalverteilung. Untypische Objekte können wie im normalen q-q-Plot auch durch Abweichungen vom linearen Verlauf erkannt werden.

Für die ordinale mehrdimensionalen Skalierung schildern SPENCE & LEWANDOWSKI, 1989, ein robustes Vorgehen, wobei es hier jedoch nicht um die Berechnung eines robusten Schätzers für die Proximitätsmatrix, sondern um die Anwendung eines robusten Algorithmus geht. Mit dem Programm TUFSCAL kann diese robuste Version der ordinalen mehrdimensionalen Skalierung durchgeführt werden.

b-Fehlende Werte

Treten fehlende Werte auf, so ist eine Möglichkeit ist der Verzicht auf alle Objekte, die bei einer Variablen einen fehlenden Wert aufweisen. Dies kann jedoch unter Umständen dazu führen, daß ein Großteil der vorhanden Informationen verworfen wird.

Eine zweite, ebenfalls unbefriedigende Lösung, ist die Verwendung der jeweiligen Mittelwerte der einzelnen Variablen an Stelle der fehlenden Werte. Insbesondere bei der Berechnung von Proximitätsmatrizen warnt KRZANOWSKI, 1988a, vor einem einfachen Ersatz der fehlenden Werte durch die Variablenmittelwerte, da diese fast immer zu einer Unterschätzung der tatsächlichen Proximitäten führen. Besser ist es dann schon für die Berechnung der Proximität zwischen zwei Objekten nur die Variablen ohne fehlende Werte zu verwenden, das heißt nur q von p Variablen zu verwenden ( ), und dann den errechneten Wert mit dem Faktor zu multiplizieren.

Daneben gibt es verschiedene Vorgehensweisen, die auf iterativem Weg einen geeigneten Wert für den fehlenden Wert suchen. Unter der Annahme der Multinormalverteilung ist zum Beispiel die Methode nach BEALE & LITTLE, 1975, zu nennen. Ohne Verteilungsannahmen kommt die direkt mit der Eigenwertzerlegung der Ausgangsmatrix arbeitende Methode von KRZANOWSKI, 1988b, aus. Einzelheiten dieser, oder anderer Möglichkeiten werden hier nicht angesprochen.

2.5.2.3. Beurteilung der Stabilität

Eine Analyse wird als stabil bezeichnet, wenn ‘geringe’ Veränderungen in den Daten zu ‘geringen’ Veränderungen bei den Ergebnissen führen. GIFI, 1990, unterscheidet verschiedene Formen der Stabilität, so die analytische und algebraische sowie die Wiederholungsstabilität. Daneben weist er auf Stabilitätsgesichspunkte bezüglich der Daten- und Modellselektion hin. GREENACRE, 1984,


84

stellt interne Stabilität (Ausreißer) der externen Stabilität (Wiederholungsstabilität) gegenüber (siehe 2.1.3).

Zwei Verfahren, die zur Überprüfung der Stabilität eingesetzt werden können, sind das Jackknifing und das Bootstrapping (SHAO & TU, 1996). Im Fall des Jackknifinig werden n Analysen mit jeweils Objekten durchgeführt, das heißt nacheinander werden die Ausgangsdaten ohne die erste, dann ohne die zweite, dann ohne die dritte Einheit und so weiter analysiert. Beim Bootstrapping hingegen wird aus den Ausgangsdaten k-mal eine Stichprobe vom Umfang n mit Zurücklegen gezogen. Da zurückgelegt wird und alle Objekte die gleiche Wahrscheinlichkeit haben in die Bootstrap-Stichprobe zu gelangen, werden in der Regel einige Objekte häufiger vertreten sein als andere.

Bei Verwendung von Hauptkomponenten- oder Korrespondenzanalyse können die Jackknife oder Bootstrap Lösungen, das heißt die bei den einzelnen Wiederholungen errechneten Ergebnisse der Objektwerte im dimensionserniedrigten Raum (in zwei Dimensionen), in die Konfiguration der Analyse aller Werte der Ausgangsmatrix projiziert werden. Durch Linien, die die äußersten Objektwerte eines Objekts miteinander verbinden, ergeben sich dann je Objekt konvexe Hüllen, die bei Bedarf noch ‘geschält’ werden müssen, um auf instabile Jackknife- oder Bootstrap-Stichproben zu reagieren (GREEN, 1981). Im Fall von Optimierungsverfahren ist eine einfache Projektion neuer Objektwerte in die ursprüngliche Objektkonfiguration nicht möglich. Allerdings können die Ergebnisse der wiederholten Analysen mit Hilfe der Prokrustes-Analyse miteinander verglichen werden. Dies empfiehlt sich auch dann, wenn viele Objekte vorliegen, da die Überlagerung einer Vielzahl von Stichproben letztlich zu einer großen Unübersichtlichkeit führen würde.

Daneben können Jackknife- und Bootstrap-Schätzer der Korrelations- oder Kovarianzmatrix auch den Ausgangspunkt einer Hauptkomponentenanalyse oder Faktoranalyse darstellen und somit eine robuste Alternative zu dem unter 2.5.2.2 vorgestellten Verfahren bieten.


85

Tabelle 6: Agglomerationskriterien unterschiedlicher Clusterverfahren

 

 

 

 

Clusterverfahren

Agglomerationskriterum

 

Single-Link-Methode

Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die kleinste Unähnlichkeit zwischen zwei Objekten unterschiedlicher Objektgruppierungen (wobei anfänglich eine Objektgruppierung auch aus einem einzigen Objekt bestehen kann), das Minimum aller Unähnlichkeiten zwischen allen Objektgruppierungen darstellt.

 

Complete-Link-Methode

Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die größte Unähnlichkeit zwischen zwei Objekten unterschiedlicher Objektgruppierungen (wobei anfänglich eine Objektgruppierung auch aus einem einzigen Objekt bestehen kann), das Minimum aller Unähnlichkeiten zwischen allen Objektgrupppierungen darstellt.

 

Group-Average-Methode

Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die mittlere Unähnlichkeit zwischen zwei Objekten unterschiedlicher Objektgruppierungen (wobei anfänglich eine Objektgruppierung auch aus einem einzigen Objekt bestehen kann), das Minimum aller Unähnlichkeiten zwischen allen Objektgrupppierungen darstellt.

 

Zentroid-Methode

Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die quadrierte euklidische Distanz zwischen zwei Objekten unterschiedlicher Objektgruppierungen (wobei anfänglich eine Objektgruppierung auch aus einem einzigen Objekt bestehen kann), das Minimum aller Unähnlichkeiten zwischen allen Objektgrupppierungen darstellt.

 

Median-Methode

wie die Zentroid-Methode. Allerdings wird bei der Neuberechnung der Variablenwerte einer entstandenen Objektgruppierung nicht der Mittelwert (wie in allen übrigen Methoden auch), sondern der Median verwendet.

 

Minimum-Variance-Methode

Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die Zunahme der Varianz einer Objektgruppierung durch Hinzunahme einer weiteren Objektgruppierung das Minimum aller möglichen Agglomerationen darstellt.

 

 

 


Fußnoten:

<7>

Im wesentlichen Hypothesentests (zum Beispiel Test auf Gleichheit eines Eigenvektors der Stichprobe mit einem hypothetischen Eigenvektor der Grundgesamtheit) und die Berechnung von Vertrauensintervallen (zum Beispiel für den größten Eigenwert); siehe zum Beispiel ANDERSON, 1963, BARTLETT, 1950 & 1954, LAWLEY, 1956, SCHOTT, 1988.

<8>

RAMSAY, 1977, 1978, 1980 und 1982 sowie BRADY, 1985, geben einige Anregungen, wie die mehrdimensionale Skalierung durch schließende Verfahren erweitert werden kann. Das von Ramsay entwickelte Programm Multiscale beinhaltet viele dieser Erweiterungen (SCHIFFMAN et al., 1981).

<9>

Zu Grundlagen von Proximitätsmaßen siehe zum Beispiel JARDINE & SIBSON, 1972.

<10>

Speziell bei Untersuchungen, die auf Gruppierungen von Objekten hinzielen ist dies problematisch, da das Proximitätsmaß von einer gemeinsamen Kovarianzmatrix für alle Objekte ausgeht, es aber durchaus denkbar ist, daß unterschiedliche Gruppen - die aber a priori nicht bekannt sind - unterschiedliche Kovarianzmatrizen besitzen (GORDON, 1981).

<11>

Zur Verwendung der Bezeichnungen und Indices: d steht für ein Unähnlichkeitsmaß; die Indices r, u und t kennzeichnen drei Objekte.

<12>

Minimum Spanning Trees werden gesondert in 2.5.1.2 angesprochen.

<13>

Danach gilt zum Beispiel ein stress-Wert von 0,1 als befriedigend, von 0,05 als gut und von 0,025 als exzellent.

<14>

Besser und schlechter im Sinne der Anpassung der Konfiguration nach der Analyse an die wahre Konfiguration der Ausgangsdaten.

<15>

Grundsätzlich sind diese Gedanken natürlich auch auf die Lösungen anderer dimensionserniedrigender Analysen übertragbar.

<16>

Darüberhinaus spielt die Selektion der Variablen mit der größten Bedeutung, ähnlich wie in der multiplen Regressions- oder linearen Diskriminanzanalyse, eine Rolle. KRZANOWSKI, 1993, stellt verschiedene Verfahren zur Variablenselektion in der Korrespondenzanalyse vor, auf die in dieser Arbeit jedoch nicht eingegangen werden soll.

<17>

Neben der Faktoranalyse spielt auch die latente Strukturanalyse nominalskaliereter Variablen (BARTHOLOMEW, 1980, LAZARSFELD & HENRY, 1968) und die Analyse linearere Strukturgleichungsmodelle (JÖRESKOG & SÖRENBOM, 1993, PFEIFFER & SCHMIDT, 1987) in der Analyse von Modellen mit latenten Variablen eine Rolle.

<18>

Maximum Likelihood Factor Analysis; zu Einzelheiten der Berechnung der latenten Variablen, spezifischen Varianzen und der Faktorwerte, sowie der Modellannahmen siehe zum Beispiel KRZANOWSKI, 1988a.

<19>

Je nach Spannweite und Variablenart ergeben sich hier entsprechende Werte zum Beispiel in 10er oder 100er Schritten.

<20>

Mittelwert von Variable j (j = 1 ... p)

<21>

An dieser Stelle wird nach wie vor von einer Distanzmatrix mit euklidischen Distanzen ausgegangen, das heißt es handelt sich bei D um eine Distanzmatrix euklidischer Distanzen. Werden nicht-euklidische, aber euklidisch-einbettbare Distanzen verwendet, sind nichtlineare Biplots zu berechnen (siehe 2.2.3).

<22>

Andere Distanzmaße als die Chi Quadrat-Distanz sind natürlich auch in der Korrespondenzanalyse möglich. Die Wichtung der Ausprägungen umgekehrt proportional zur Häufigkeit ihres Eintreffens - wie sie durch die Chi-Quadrat-Distanz erfolgt - ist sicher nicht in jedem Fall sinnvoll (GREENACRE, 1990).

<23>

Eine (notwendige) Bedingung für die euklidische Einbettbarkeit einer Distanzmatrix D ist, daß die zentrierte Matrix positiv semidefinit ist (I, (n x n) Einheitsmatrix; D, (n x n) Distanzmatrix; 1, (n x 1) Matrix mit Einsen; s = 1/n (Format n x 1) (GOWER & LEGENDRE, 1986).

<24>

Proximitätsmaße werden als additiv bezeichnet, wenn jede Variable unabhängig von den anderen Variablen einen Beitrag zum Proximitätsmaß liefert. Ein Proximitätsmaß wie die Mahalanobis-Distanz, die auch die Kovarianzen der Variablen untereinander berücksichtigt, ist also zum Beispiel in diesem Sinn nicht additiv.

<25>

Dieser Gedanke kann noch vertieft werden durch die sogenannte Winkel-Varianzanalyse (analysis of angular variation), wenn sich die Gruppen inhaltlich sinnvoll in Obergruppen einteilen lassen (J53ONES, 1983, SCHIFFMANN et al., 1981).

<26>

Daher auch die Bedeutung der kanonischen Variablen in der Diskriminanzanalyse, auf die in dieser Arbeit jedoch nicht eingegangen wird (siehe zum Beispiel KRZANOWSKI & MARRIOTT, 1994 und 1995)

<27>

Vergleichbar den Hauptkomponentenwerten für die Objekte in der Hauptkomponentenanalyse.

<28>

23 Deskriptoren stehen für eine Anzahl von Gegenständen, auf die über die Deskriptoren zugegriffen werden kann.

<29>

In dieser Arbeit werden, bedingt durch die zu untersuchenden Daten (siehe Kapitel 3), ausschließlich ungerichtete Graphen eingesetzt. Eine ausführliche Behandlung gerichteter Graphen geben COX & WERMUTH, 1996.

<30>

Über die geringe Qualität der in dieser Arbeit untersuchten Daten wird bereits in der Einführung hingewiesen. Die verrechneten Daten stellen in keinem Fall eine repräsentative Stichprobe einer hypothetischen Grundgesamtheit dar. Insofern sind die graphischen Modelle im Auswertungsteil auch ausschließlich deskriptiv und explorativ zu verstehen.

<31>

und zwar , wobei die Indices r und t für zwei Objekte r und t stehen.

<32>

Die Clusteranalyse stellt ein sehr umfangreiches Gebiet dar, das zum Beispiel von BACHER, 1994, ausführlich bearbeitet wird. Vorrangiges Ziel der Clusteranalyse ist die Gruppierung von Objekten aufgrund gemesener und beobachteter Merkmale. Methodische Einzelheiten werden in dieser Arbeit nicht besprochen.

<33>

AWE = Approximate Weight of Evidence

<34>

~ .

<35>

Der Glättungsparameter liegt in der Regel zwische 0,25 und 1. Ein Glättungsparameter von 0,5 bedeutet zum Beispiel, daß bei Vorliegen von 20 Werten, 10 Werte zur lokalen Anpassung ausgewählt werden, und zwar die 10, die dem Wert, für den der Schätzer berechnet werden soll, am nächsten liegen.

<36>

Es ist anzumerken, daß für den Fall, daß Multinormalverteilung zutrifft, gilt, daß alle Variablen univariat normalverteilt sein müssen, daß aber die univariate Normalverteilung aller Variablen, allein noch kein ausreichender Hinweis auf das Vorliegen der Multinormalverteilung ist.


[Titelseite] [Danksagung] [1] [2] [3] [4] [5] [Bibliographie] [Abkürzungsverzeichnis] [Lebenslauf] [Selbständigkeitserklärung] [Anhang] [Anhang] [Anhang] [Anhang] [Anhang]

© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.

DiML DTD Version 2.0
Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML - Version erstellt am:
Wed May 24 16:40:53 2000