Krusche, Stefan: Visualisierung und Analyse multivariater Daten in der gartenbaulichen Beratung - Methodik, Einsatz und Vergleich datenanalytischer Verfahren |
8
Da die Darstellung der verwendeten Methoden nicht ohne mathematische Formeln auskommt, ist an dieser Stelle auf einige Konventionen hinzuweisen. In Formeln stehen fettgedruckte Großbuchstaben für Matrizen, fettgedruckte Kleinbuchstaben für Zeilenvektoren. Zeilen- und Spaltenanzahl einer Matrix werden in Klammern nach dem Muster: (Anzahl Zeilen x Anzahl Spalten) angegeben. Das
-Zeichen steht für die Transposition einer Matrix beziehungsweise eines Vektors. Die Benennungen in den verwendeten Formeln sind so gewählt, daß eine größtmögliche Eindeutigkeit besteht, obwohl bisweilen Überschneidungen vorkommen, die aber dann im entsprechenden Kontext erklärt werden. Nach STEVENS, 1951, wird in dieser Arbeit die Einteilung von Variablen in nominal, ordinal-, intervall- und verhältnisskalierte Variablen verwendet.
Die Hauptkomponentenanalyse ist eine Analysetechnik, mit deren Hilfe p korrelierte Variablen, die an n Objekten (i = 1 ... n) bestimmt werden, in p (j = 1 ... p) neue, nicht korrelierte Variablen, die sogenannten Hauptkomponenten, transformiert werden. Die Transformation ist so gewählt, daß die erste Hauptkomponente den größten Anteil der Gesamtvariabilität der Ausgangsvariablen repräsentiert, die zweite Hauptkomponente den zweitgrößten Anteil, die dritte Hauptkomponente den drittgrößten Anteil und so weiter. Im günstigsten Fall reichen für die Beschreibung der Variabilitätsstruktur der Ausgangsvariablen einige wenige Hauptkomponenten aus, so daß durch die Hauptkomponentenanalyse eine wesentliche Dimensionserniedrigung möglich ist.
Die Hauptkomponentenanalyse ist eine variablenbezogene Methode und zählt zu den R-Techniken, das heißt Ausgangspunkt der Analyse ist eine (p x p) Kovarianz- oder Korrelationsmatrix. Sie wird für die Analyse intervall- beziehungsweise verhältnisskalierter und ordinalskalierter Variablen eingesetzt. Die Verwendung von zum Beispiel dichotomisierten, nominalskalierten Variablen ist nach KRZANOWSKI, 1988a, möglich, kann aber zu stark ausgeweiteten Datensätzen und zu erheblichen Schwierigkeiten bei der Interpretation der Ergebnisse führen.
Ihre wesentliche Bedeutung hat die Hauptkomponentenanalyse als parameterfreie, deskriptive Methode, obwohl auch Elemente der schließenden Statistik eingebracht werden können, sofern die Annahme getroffen werden kann, daß die untersuchten Objekte eine Stichprobe aus einer multinormalverteilten Grundgesamtheit darstellen<7>. Da aber
9
ist die Bedeutung der Hauptkomponentenanalyse als beschreibende Methode ohne ein der Analyse zugrunde liegendes, statistisches Modell größer als ihre Bedeutung im Bereich der konfirmatorischen Statistik. In der vorliegenden Untersuchung steht - beim Einsatz der Hauptkomponentenanalyse - die durch sie zu erzielende Dimensionserniedrigung und Erklärung der Variablenstruktur im Vordergrund. Darüber hinaus spielt auch die Verwendung (ausgewählter) Hauptkomponenten an Stelle der Ausgangsvariablen in Folgeanalysen, vor allem in der graphischen Repräsentation der Objekte, eine Rolle. Ausführlich wird die Hauptkomponentenanalyse in einer Vielzahl von Standardwerken zur multivariaten Statistik behandelt (siehe unter anderem MORRISON, 1990, oder JACKSON, 1991, und die darin genannten Quellen).
Ausgangspunkt für die Berechnung der Hauptkomponenten ist die (p x p) Kovarianzmatrix S der (n x p) Datenmatrix X. Im Sinne der Skalierung entspricht die Verwendung der Kovarianzmatrix einer Mittelwertszentrierung der Ausgangsvariablen. Ein wesentlicher Vorteil der Verwendung der Kovarianzmatrix in der Hauptkomponentenanalyse ist die Tatsache, daß die schließenden Verfahren hier relativ gut entwickelt sind. Nachteilig ist es aber, daß, wenn die Variablen in voneinander abweichenden Einheiten bestimmt werden, beziehungsweise stark voneinander abweichende Varianzen aufweisen - eine Situation wie sie im Bereich der gartenbaulichen Daten eher die Regel als die Ausnahme ist - die Variablen mit der größeren Varianz einen ungleich stärkeren Einfluß auf die erste Hauptkomponente ausüben, als die Variablen mit der kleineren Varianz. Um allen Variablen unter solchen Umständen das gleiche Gewicht zu verleihen, werden die Ausgangsvariablen standardisiert, womit an die Stelle von S die Korrelationsmatrix R tritt. Die Ausgangsvariablen werden also so skaliert, daß ihr Mittelwert = 0 und ihre Varianz = 1 sind. Bei Verwendung von S kommt man in der Regel zu anderen Ergebnissen als bei Verwendung von R, und keine einfache Transformation kann die Ergebnisse einer auf S basierenden Hauptkomponentenanalyse in eine auf R basierende Hauptkomponentenanalyse umwandeln. Die Hauptkomponenten sind also kein einzigartiges Merkmal der Ausgangsmatrix, sondern abhängig von der Skalierung der Variablen (KRZANOWSKI, 1988a).
Wenn es gelingt die Datenmatrix X statt durch p Ausgangsvariablen mit q (q < p) Hauptkomponenten zu beschreiben, ohne daß damit ein nennenswerter Informationsverlust einhergeht, wird durch die Hauptkomponentenanalyse eine (wünschenswerte) Dimensionserniedrigung von X erreicht. Besonders vorteilhaft ist es, wenn q = 2 ist, da dann zweidimensionale Graphiken, in denen zum Beispiel die Hauptkomponentenwerte der zweiten Hauptkomponente gegen die Hauptkomponentenwerte der ersten Hauptkomponente geplottet
10
werden, einen guten Einblick in die Struktur und die Beziehungen der Objekte untereinander ermöglichen. Vorhandene Gruppierungen der Objekte können so möglicherweise erkannt werden.Der Frage, welche Hauptkomponenten näher betrachtet werden sollten, welche Hauptkomponenten also 'wichtige' oder 'wesentliche' Hauptkomponenten darstellen, sind zahlreiche Arbeiten nachgegangen. Es geht ihnen allen darum, ein Kriterium festzulegen, das die Entscheidung unterstützt, welche Hauptkomponenten berücksichtigt werden sollen, welche Hauptkomponenten also ins reduzierte Modell zur Beschreibung von X aufgenommen werden sollen, und welche Hauptkomponenten verworfen werden können. In Tabelle 1 sind aus diesen Arbeiten einige der gebräuchlichsten Kriterien zur Identifikation 'wesentlicher' Hauptkomponenten zusammengefaßt.
Zusätzlich ist noch auf zwei weitere Verfahren, die in Kapitel 3 verschiedentlich eingesetzt werden, hinzuweisen, und zwar auf die partielle Korrelations-Prozedur nach VELICER, 1976, und die Variante der Kreuzvalidierung nach EASTMENT & KRZANOWSKI, 1982. Für beide liegt der entsprechende Genstat Code im Anhang Teil III vor.
Die 1976 von VELICER vorgeschlagene Methode zur Identifikation 'wesentlicher' Hauptkomponenten verwendet als Entscheidungskriterium die partielle Korrelation zwischen den Ausgangsvariablen, für den Fall, daß q Hauptkomponenten (q = 0, ... , p - 1) aus dem Modell entfernt werden (das heißt keine Hauptkomponente, die erste Hauptkomponente, die erste und die zweite Hauptkomponente, die erste, die zweite und die dritte Hauptkomponente und so weiter). Der zu errechnende Wert
bei Entfernung von q Hauptkomponenten, der im wesentlichen durch die die Quadratsumme der partiellen Korrelationen bestimmt wird, hat ein Minimum im Bereich von
0 < q< p - 1. Der Wert von q, bei dem das Minimum von
erreicht wird, gibt die Anzahl der q 'wesentlichen' Hauptkomponenten an. Solange
abnimmt, nehmen die partiellen Korrelationen stärker ab als die Restvarianzen, das heißt die Varianzen der nicht im Modell berücksichtigten Hauptkomponenten.
Die Anwendung der Kreuzvalidierung zur Identifikation 'wesentlicher' Hauptkomponenten geht zurück auf die Arbeit von EASTMENT & KRZANOWSKI, 1982. Kreuzvalidierung ist sowohl bei Verwendung der Kovarianz- als auch der Korrelationsmatrix in der Hauptkomponentenanalyse möglich. Im Prinzip geht es um folgendes: von einer Anzahl m von Modellen mit den Parametern
, soll eines ausgewählt werden. Die Datenmatrix X mit n Objekten soll die Modellwahl bestimmen. Wenn nun das i-te Objekt von X gelöscht wird, können auf Grundlage der n - 1 Objekte von X die Parameter
, und mit
die Werte des gelöschten Objekts
als
geschätzt werden. Aus der Abweichung der beobachteten Werte
von den geschätzten Werten
, läßt sich ein Diskrepanzmaß bestimmen, allgemein f(
). Wenn dieser Vorgang für alle Objekte von X wiederholt wird, ergibt sich ein Diskrepanzmaß
E(m) für Modell m mit Korrekturfaktor k. Ein Vergleich der Diskrepanzmaße, von m Modellen gibt Aufschluß darüber,
11
mit welchem Modell die kleinste Abweichung von geschätzten und beobachteten Werten erreicht wird. Das Diskrepanzmaß im Verfahren von EASTMENT & KRZANOWSKI, 1982, ist die sogenannte PRESS (Prediction Sum of Squares)-Statistik:Unterschiedliche Kriterien zur Bestimmung der Anzahl der ‘wesentlichen Hauptkomponenten führen in der Regel auch zu unterschiedlichen Schlußfolgerungen. Insofern sind die genannten Verfahren nur als Anhaltspunkte für die Anzahl der im Modell zu berücksichtigenden Hauptkomponenten zu verstehen. Neben dem Skalierungsproblem ist die Tatsache, daß unterschiedliche Kriterien häufig zu unterschiedlichen Schlußfolgerungen bezüglich der Auswahl 'wesentlicher' Hauptkomponenten führen, für Kritiker der Hauptkomponentenanalyse wie CHATFIELD & COLLINS, 1980, eines der stärksten Argumente, mit der sie die Hauptkomponentenanalyse kritisieren.
Unter den Residuen der Hauptkomponentenanalyse werden in dieser Arbeit die Abweichungen der durch das Hauptkomponentenmodell reproduzierten Werte der Ausgangsvariablen von den tatsächlichen Beobachtungs- oder Meßwerten verstanden. Eine Analyse der Residuen kann zeigen, in wie weit das gewählte, erniedrigte Modell zu den Beobachtungswerten paßt. Objekte mit einem sehr großen Residuum werden durch das gewählte Modell schlecht repräsentiert. Große Residuen können die Folge von tatsächlich stark von den übrigen Objekten abweichenden Beobachtungen oder aber auch von Aufzeichnungs- und Übertragungsfehlern sein. Teststatistiken für die Residuen und kritische Werte geben zum Beispiel HAWKINS, 1974 und 1980, sowie JACKSON, 1991. Nach JACKSON, 1991, ist
ein kritischer Wert, mit
,
,
,
,
als dem Eigenwert der j-ten Hauptkomponente und
als dem Wert der Funktion der Standardnormalverteilung bei Irrtumswahrscheinlichkeit
mit demselben Vorzeichen wie
. Wird dieser vom Residuum eines Objekts überschritten, so ist dies ein Indiz dafür, daß das Objekt mit dem entsprechend hohen Residuum nicht adäquat durch die gewählte Dimensionserniedrigung repräsentiert wird. Genstat Codes zur Erzeugung von Residuenplots und der Berechnung der entsprechenden Statistiken sind im Anhang Teil III zu finden.
Bisweilen wird der Versuch unternommen, den Hauptkomponenten eine bestimmte Interpretation zu geben. Diese Interpretation orientiert sich am Vorzeichen und der Größe der Koeffizienten der
12
Eigenvektoren. Im günstigsten Fall ermöglicht die Koeffizienteninterpretation eine zusammenfassende Beschreibung mehrerer Variablen mit einem Begriff, so daß, bei Auswahl von wenigen, gut interpretierbaren Hauptkomponenten, die Variablen- und Variabilitätsstruktur umfangreicher Datensätze knapp und prägnant benannt werden kann. Beispiele solcher Interpretationsansätze, sind zum Beispiel bei MANLY, 1986, oder MORRISON, 1990, zu finden. Allerdings ist die Interpretation der Hauptkomponenten häufig mit großen Schwierigkeiten verbunden. CHATFIELD & COLLINS, 1980, warnen vor einer Überinterpretation der Hauptkomponenten. Auch KRZANOWSKI, 1988a, betont, daß in der praktischen Anwendung der Hauptkomponentenanalyse nur selten der Fall gegeben ist, daß eine klare und eindeutige Interpretation der Koeffizienten möglich ist, und es letztlich von der jeweiligen subjektiven Beurteilung des Anwenders abhängt, welche Koeffizienten als groß oder klein genug angesehen werden, um die Interpretation und Beurteilung der Hauptkomponenten wesentlich mitzubestimmen. In noch stärkerem Umfang als bei der Identifikation der ‘wesentlichen Hauptkomponenten ist in der Interpretation der Hauptkomponenten ein willkürliches Element enthalten, das zu einer gewissen Beliebigkeit der Ergebnisse beiträgt. MARRIOTT, 1974, kommt gar zu dem Schluß, daß eine gut interpretierbare und mit einer echten inhaltlichen Bedeutung ausgestattete Hauptkomponente nicht mehr als ein glücklicher Zufall sein kann, da kein Rechenverfahren an sich in der Lage ist, ein im jeweiligen Kontext des Anwendungsgebietes bedeutungsvolles Ergebnis zu produzieren. Da auch relativ geringe Veränderungen bei den Werten der Ausgangsvariablen einen relativ starken Einfluß auf die Koeffizienten der Eigenvektoren und damit auf die Interpretation der Hauptkomponenten haben können, ist die Interpretation mit einem weiteren Unsicherheitsfaktor belastet. Dennoch wird es angebracht sein - im Bewußtsein um die Schwierigkeiten und Begrenzungen der Interpretation - den Versuch zu unternehmen, die die Hauptkomponenten dominierenden Variablen zu bennenen und mögliche Unterschiede und Beziehungen der Koeffizienten und Hauptkomponenten untereinander zu verdeutlichen und somit ansatzweise eine Interpretation durchzuführen. Ein Hilfsmittel, das die Hauptkomponenten besser interpretierbar machen kann, ist die Rotation der Hauptkomponenten. Die Rotation soll eine Vereinfachung der Koeffizientenstruktur herbeiführen. Nicht immer kann eine Rotation eine nennenswerte Vereinfachung der Koeffizientenstruktur bewirken und nicht in jedem Fall ist eine Rotation der Hauptkomponenten sinnvoll. Ein zu beachtendes Merkmal der Rotation ist zudem die Tatsache, daß die Koeffizienten der rotierten Hauptkomponenten nicht unabhängig von der Anzahl der im Modell berücksichtigten Hauptkomponenten sind, das heißt wenn q von p Hauptkomponenten rotiert werden, ergeben sich andere Koeffizienten, als wenn q + 1 derselben p Hauptkomponenten rotiert werden.Die Rotation kann als orthogonale oder schiefwinklige (oblique) Rotation erfolgen. Bei einer orthogonalen Rotation der Eigenvektoren bleibt die Orthogonalität der Koeffizienten der Eigenvektoren der Hauptkomponenten vor und nach der Rotation erhalten. Die neuen, rotierten Hauptkomponentenwerte sind aber nicht mehr in jedem Fall, wie die ursprünglichen Hauptkomponentenwerte, unkorreliert. Bei der schiefwinkligen Rotation kann ebenfalls die
13
Unkorreliertheit der Hauptkomponentenwerte und darüber hinaus auch die Orthogonalität der Koeffizienten verloren gehen. Diesen negativen Veränderungen steht (hoffentlich) ein erkennbarer Gewinn in Form einer vereinfachten Koeffizientenstruktur gegenüber. Statistische Software bietet im Rahmen der Hauptkomponentenanalyse oder Faktoranalyse eine Vielzahl orthogonaler und schiefwinkliger Rotationsverfahren an, die auf iterativem Weg ein bestimmtes Optimalitätskriterium zu erreichen suchen und so die neuen, rotierten Komponenten erzeugen (CARROL, 1953, HARMAN, 1974, KAISER, 1959). In dieser Arbeit wird jedoch aufgrund der genannten Schwierigkeiten gänzlich auf den Einsatz von Rotationen im Bereich der Hauptkomponentenanalyse verzichtet.14
Tabelle 1: Kriterien zur Identifikation 'wesentlicher' Hauptkomponenten
Kriterium |
Vorgehen, Anmerkungen |
Literatur |
Anteil der durch die Hauptkom-ponenten 'erklärten' Varianz |
Hauptkomponenten werden solange ins Modell aufgenommen, bis ein bestimmter Schwellenwert für die 'erklärte' Varianz überschritten wird, häufig 95 % der Gesamtvariabilität. Die Festlegung des Schwellenwertes ist in der Regel willkürlich und daher nicht unproblematisch. |
JACKSON, 1991 |
Gebrochener Stab |
Hauptkomponenten werden solange ins Modell aufgenommen bis der Anteil (in Teilen von 1) ‘erklärter Varianz der jeweiligen Hauptkomponente kleiner ist als |
JOLIFFE, 1986 |
Mittlerer Eigenwert |
Hauptkomponenten werden solange ins Modell aufgenommen, solange der Eigenwert der jeweiligen Hauptkomponente größer als der mittlere Eigenwert ist. Ein häufig bei der Verwendung der Korrelationsmatrix eingesetztes Kriterium, da mittlerer Eigenwert von R gleich 1, und Varianz der Ausgangsvariablen ebenfalls gleich 1. Liegt der Eigenwert der Hauptkomponente unter 1, so wird durch diese Hauptkomponente weniger Variabilität repräsentiert als durch eine Ausgangsvariable. |
GUTTMANN, 1954 JOLIFFE, 1972, JOLIFFE, 1973 |
Scree-Diagramm |
Diagramm mit Eigenwerten (eventuell den Logarithmen der Eigenwerte) auf der y-Achse, der laufenden Nummer des Eigenwertes auf der x-Achse. Hauptkomponenten werden bis zu dem Punkt ins Modell aufgenommen, an dem ein Bruch im Diagramm auftaucht, und die Eigenwerte beginnen, sich sehr ähnlich zu sein. Aufgenommen werden alle Hauptkomponenten bis zur Bruchstelle (inklusive der ersten Hauptkomponente im Verflachungsbereich des Diagramms). Mögliche Probleme: keine deutliche Bruchstelle oder mehrere Bruchstellen. HORN, 1965, schlägt zur Verbesserung bei der Entscheidungsfindung in der Modellauswahl, Generation von Zufallsdaten und Vergleich der Eigenwerte der Zufallsdaten mit den Eigenwerten der Untersuchungsdaten, vor. |
CATTEL, 1966 |
Signifikanztests |
Häufig werden durch Signifikanztests sehr viele Hauptkomponenten ins Modell aufgenommen. Grundsätzlich ist die Frage zu klären, ob die Voraussetzungen für die Anwendung der Tests gegeben sind. Nicht alle signifikanten Hauptkomponenten müssen notwendigerweise ins Modell aufgenommen werden. Allerdings sollten - bei Vorliegen der Testvoraussetzungen - nicht Hauptkomponenten aufgenommen werden, die nicht signifikant sind (JACKSON, 1991). |
ANDERSON, 1963, LAWLEY, 1956 |
Tolerierte Restvarianz |
Hauptkomponenten werden ins Modell aufgenommen, bis der, vor Beginn der Analyse festgelegte Schwellenwert für die zu tolerierende Restvarianz, noch nicht erreicht ist. Vor allem dort ein sinnvolles Kriterium, wo a priori eine Kenntnis über die inhärente Variabilität der Variablen vorhanden ist. |
BOX et al., 1973 |
15
Im Vordergrund der mehrdimensionalen Skalierung steht - ähnlich wie bei der Hauptkomponentenanlyse - die Dimensionserniedrigung. Sie wird im wesentlichen deskriptiv eingesetzt und beinhaltet nur wenige konfirmatorische Ansätze<8>. Es handelt sich um eine Q-Technik, das heißt Ausgangspunkt der Analyse ist eine (n x n) Proximitätsmatrix, wobei Proximität sowohl für Ähnlichkeit als auch Unähnlichkeit steht. Die Proximitätsmatrizen können entweder direkt ermittelt oder mit Hilfe eines geeigneten Verfahrens aus nominal-, ordinal- und intervall- oder verhältnisskalierten Variablen hergeleitet werden. Da Proximitätsmatrizen auch für nominalskalierte Variablen erstellt werden können, bieten die Q-Techniken gegenüber den R-Techniken den Vorteil der Handhabbarkeit derartiger Variablen beziehungsweise gemischter Datensätze (GORDON, 1981).
Wichtigstes Ziel der mehrdimensionalen Skalierung ist die graphische Repräsentation der Objekte aufgrund ihrer Proximität, das heißt, daß die Ähnlichkeiten beziehungsweise Unähnlichkeiten zwischen den Objekten, in möglichst wenig Dimensionen und mit möglichst geringem Informationsverlust, so graphisch abgebildet werden sollen, daß die (euklidischen) Distanzen zwischen den Objekten in einer Graphik in etwa den tatsächlichen Proximitäten der Objekte entsprechen (YOUNG, 1987).
Ähnliche Fragestellungen wie bei der Hauptkomponentenanalyse treten auch bei der mehrdimensionalen Skalierung auf; so zum Beispiel im Bereich der Skalierung (Mittelwertszentrierung, Standardisierung der Ausgangsvariablen vor Berechnung von Proximitätsmatrizen), bei der Bestimmung der angemessenen Zahl der zu betrachtenden Dimensionen und der Frage nach ihrer Interpretierbarkeit. Auch das weitgehende Fehlen schließender Verfahren ist zu beachten.
Ausgangspunkt einer Analyse durch mehrdimensionale Skalierung sind eine oder mehrere Proximitätsmatrizen. Die Umwandlung eines Ähnlichkeitsmaßes in ein Unähnlichkeitsmaß (und umgekehrt) ist auf verschiedenen Wegen möglich, zum Beispiel durch: Unähnlichkeitsmaß in Teilen von 1 = 1 - Ähnlichkeitsmaß in Teilen von 1.
Proximitätsmatrizen können entweder direkt ermittelt werden - dies ist für gartenbauliche Daten jedoch die Ausnahme - oder, und das ist der Normalfall, durch ein gewähltes Proximitätsmaß aus den Variablen, die an den jeweiligen Objekten bestimmt werden, hergeleitet werden<9>. Je nachdem,
16
ob es sich bei dem Proximitätsmaß um ein Ähnlichkeits- oder Unähnlichkeitsmaß handelt, beziehungsweise die Variablen als nominal-, ordinal- oder intervall- beziehungsweise verhältnisskaliert betrachtet werden können, gibt es eine Vielzahl von Maßen; einen umfassenden Überblick geben zum Beispiel BACHER, 1994 oder SCHUBÖ et al., 1991. Einige Proximitätsmaße sind in Tabelle 2 aufgeführt.Die Entscheidung für die Verwendung eines bestimmten Proximitätsmaßes wird einerseits durch das Skalenniveau der Variablen bestimmt. Darüber hinaus soll das Proximitätsmaß aber auch die Beziehung zweier Objekte wiederspiegeln können. Ist zum Beispiel das Fehlen eines Merkmals beim Vergleich zweier Objekte unerheblich, die Übereinstimmung aber wichtig, so ist bei binären Variablen dem Jaccard-Ähnlichkeitsmaß der Vorzug vor dem Simple Matching-Ähnlichkeitsmaß zu geben, da in einem solchen Fall das Simple Matching-Ähnlichkeitsmaß die Ähnlichkeit überschätzen würde (durch Überbewertung eines im Grunde irrelevanten Sachverhaltes). Schließlich kann durch die Wahl des Proximitätsmaßes auch Einfluß darauf genommen werden, ob größere oder kleinere Proximitäten mehr Gewicht bekommen sollen, zum Beispiel durch entsprechende Wahl des Exponenten in der Minkowski Metrik. Je höher der Exponent ist, desto größer wird der Unterschied zwischen Objekten mit größerer Unähnlichkeit im Vergleich zu Objekten mit geringerer Unähnlichkeit.
Proximitätsmaße sind in der Regel nicht skalenunabhängig. Insofern ist eine Skalierung in Form einer Mittelwertszentrierung, Standardisierung oder ähnlichem, in Betracht zu ziehen, wenn die gegebenen Daten dies erforderlich erscheinen lassen (KRZANOWSKI, 1988a). Die durch eine Standardisierung erzielte Gleichgewichtung aller Variablen ist in der anfänglichen Phase der Datenanalyse wohl empfehlenswert, keinesfalls aber zwingend (GORDON, 1981). Auch stark korrelierte Variablen können auf das Proximitätsmaß einen (unerwünscht) hohen Einfluß haben. Bisweilen empfohlen, aber nicht unproblematisch, ist dann die Verwendung eines an die Mahalanobis Distanz angelehnten Proximitätsmaßes (DEICHSEL & TRAMPISCH, 1985)<10>.
In vielen Fällen liegen Datensätze vor, in denen sich sowohl intervall- beziehungsweise verhältnis-skalierte, als auch nominal- und/oder ordinalskalierte Variablen befinden. Eine Möglichkeit ist dann die Ermittlung separater Proximitätsmatrizen entsprechend des jeweiligen Skalenniveaus und die getrennte Analyse. Eine Alternative ist die Ermittlung einer, aus verschiedenen Proximitätsmaßen gebildeten, mittleren (gewichteten) Proximitätsmatrix. Letzterer Gedanke wird durch den allgemeinen Ähnlichkeitskoeffizienten formalisiert (GOWER, 1971, GOWER & LEGENDRE, 1986).
17
Das Ähnlichkeitsmaß istgilt; bei nominal- und nicht äquidistanten, ordinalskalierten Variablen nimmt
den Wert 1 an, wenn die Objekte r und t den gleichen Wert besitzen und den Wert 0 in allen anderen Fällen; bei binären Variablen nimmt
den Wert 1 an, wenn die Objekte r und t den Wert 1 besitzen und den Wert 0 in allen anderen Fällen. Während
ein Maß für die Ähnlichkeit von zwei Objekten ist, repräsentiert
, ob überhaupt ein Vergleich zwischen den Objekten möglich ist. Können r und t bei Variable j miteinander verglichen werden, so nimmt
den Wert 1 an, können sie nicht miteinander verglichen werden (zum Beispiel aufgrund fehlender Werte), wird
normalerweise gleich Null gesetzt. Für binäre Variablen ist
gleich Null, wenn bei Variable j sowohl bei r als auch bei t der Wert gleich Null ist. In allen anderen Fällen ist
= 1. Einen GOWER, 1971, vergleichbaren Ansatz haben KAUFMANN & ROUSSEEUW, 1990.
Im Bereich der mehrdimensionalen Skalierung werden in dieser Arbeit nur zwei Verfahren näher betrachtet und zwar die Hauptkoordinatenanalyse und die ordinale mehrdimensionale Skalierung.
Die Hauptkoordinatenanalyse, die bisweilen auch als klassische oder metrische mehrdimensionale Skalierung bezeichnet wird, geht zurück auf Arbeiten von TORGERSON, 1958, und GOWER, 1966. Wenn hier die Bezeichnung Hauptkoordinatenanalyse gewählt wird, so vor allem, um die, wie es GOWER, 1966, nennt, Dualität von Hauptkomponentenanlyse und Hauptkoordinatenanalyse, auszudrücken (siehe unten). Einige wichtige Gesichtspunkte der Hauptkoordinatenanalyse lassen sich wie folgt zusammenfassen:
18
Während die Hauptkoordinatenanalyse bestrebt ist, die Unähnlichkeiten zwischen den Objekten der Ausgangsmatrix numerisch so exakt wie möglich abzubilden, wird in der ordinalen mehrdimensionalen Skalierung, die bisweilen auch als nicht-metrische mehrdimensionale
19
Skalierung bezeichnet wird, lediglich gefordert, daß die Rangfolge der Unähnlichkeiten der Ausgangsmatrix, der Rangfolge der Unähnlichkeiten, die durch die ordinale mehrdimensionale Skalierung erzielt wird, entspricht. Ein weiterer wichtiger Unterschied zwischen Hauptkoordinatenanalyse und ordinaler mehrdimensionaler Skalierung ist darüber hinaus, daß die Überprüfung der Anpassungsgüte ein integrierter Bestandteil der ordinalen mehrdimensionalen Skalierung ist; auf iterativem Weg wird in der ordinalen mehrdimensionalen Skalierung ein gewähltes Kriterium, und damit die Anpassungsgüte, optimiert. Neben den bereits im vorangegangenen Kapitel genannten Einsatzgebieten, spielt die ordinale mehrdimensionale Skalierung zusätzlich vor allem dort eine Rolle, wo die Daten in Form von Rängen vorliegen, oder zwar numerische Proximitäten vorliegen, diese aber mit viel Ungenauigkeit behaftet sind und/oder davon ausgegangen wird, daß letztlich auch die Rangfolge der Proximitäten ausreichend Informationen für die zu beantwortenden Fragestellungen beinhaltet.Die ordinale mehrdimensionale Skalierung geht zurück auf die Veröffentlichungen von SHEPARD, 1962a und 1962b und KRUSKAL, 1964a und 1964b. Einen ausführlichen Überblick zur Methodik sowie Diskussionen liefern unter anderem SCHIFFMAN et al., 1981, SHEPARD et al., 1972, oder YOUNG, 1987.
Zur Methodik der einfachen, ordinalen mehrdimensionale Skalierung, einige einleitende Definitionen:
Bei der Durchführung einer ordinalen mehrdimensionalen Skalierung sind zu beachten:
20
Beginn mit mehreren (zufälligen) Ausgangskonfigurationen wird ebenfalls empfohlen, um die Gefahr zu verringern, den Iterationsprozeß an einem lokalen, statt an dem globalen Minimum des Optimierungskriteriums zu beenden (GENSTAT COMMITTEE, 1993).Einige zusätzliche Anmerkungen:
21
Als Kriterien für die Anzahl der zu betrachtenden Dimensionen nennt SHEPARD, 1972,
SCHIFFMAN et al., 1981, betonen daneben den Wert der quadrierten Korrelationen als gute Richtlinie, und RAMSAY, 1982, schlägt einen Signifikanztest vor. Darüber hinaus sind in diesem Zusammenhang die Arbeiten von KLAHR, 1969, LEVINE, 1978, und SPENCE, 1979, zu nennen. Als Hilfsmittel für die Entscheidung der zu betrachtenden Dimensionalität werden hier stress-Werte zufällig generierter Proximitätsmatrizen herangezogen. Liegen die stress-Werte einer aktuellen Untersuchung deutlich (30 - 50 %) unter den stress-Werten von Zufalls-Proximitätsmatrizen, so kann nach SPENCE, 1979, von nicht nur auf Zufallsvariabilität beruhenden Daten ausgegangen werden. Als Ergebnis der Untersuchungen von KLAHR, 1969 und LEVINE, 1978, ist festzuhalten:
Eine Approximation an den stress-Wert von Zufalls-Proximitätsmatrizen gibt SPENCE, 1979.
Abschließend soll kurz auf die Diskussion eingegangen werden, welche Ausgangskonfiguration bei einer ordinalen mehrdimensionalen Skalierung verwendet werden sollte. SPENCE, 1972, argumentiert für eine geplante (rationale) Startkonfiguration, vor allem mit dem Hinweis auf zu
22
sparende Rechenzeit. Als mögliche rationale Startkonfiguration erwähnen SPENCE & YOUNG, 1978, zum Beispiel die Konfiguration, die durch eine Hauptkoordinatenanalyse erzielt wird. Die Gefahr an einem lokalen Minimum 'gefangen' zu werden schätzen sie bei dieser Strategie als relativ gering ein. Die rationale Ausgangskonfiguration wird vor allem als vorteilhaft gegenüber des Analysebeginns mit einer einzigen Zufalls-Ausgangskonfiguration angesehen. ARABIE, 1973, 1978a und 1978b, dagegen begründet die Vorteilhaftigkeit der Verwendung einer Zufallskonfiguration wie folgt:23
Tabelle 2: Überblick über einige Proximitätsmaße
Skalenniveau der Variablen |
Bezeichnung und Formel (Quellen: BACHER, 1994, EVERITT, 1980, GOWER & HAND, 1996, SCHUBÖ et al., 1991) |
intervall- beziehungsweise verhältnisskaliert |
Minkowski (wenn R = 1 enspricht dies der City-Block-Distanz, wenn R = 2 der euklidischen Distanz) Czekanowski Canberra Mahalanobis (j1 und j2 sind zwei von p Variablen und |
ordinalskaliert |
bei äquidistanter Ordinalskala ist Verwendung der für intervall- beziehungsweise verhältnisskalierten Variablen entwickelten Proximitätsmaße möglich; wegen seiner sinnvollen ordinalen Interpretation ist vor allem das City-Block-Distanzmaß geeignet (siehe BACHER, 1994); bei nicht äquidistanter Ordinalskala werden für nominalskalierte Variablen entwickelten Proximitätsmaße verwendet. |
nominalskaliert |
Sneath Matching ( |
binäre Variablen |
Simple Matching Jaccard Roger & Tanimoto im Fall binärer Variablen gilt die folgende 2-Wege Tafel Objekt r Objekt t 1 0 1 a b 0 c d a+b+c+d = p, das heißt die Kontingenztafel zeigt auf, bei wieviel Variablen zwischen r und t Übereinstimmung (bei a und d) beziehungsweise nicht Übereinstimmung (bei b und c) besteht. |
Bezeichnungen und Indices: d steht für ein Unähnlichkeits-, s für ein Ähnlichkeitsmaß; j steht für eine Variable, die Indices r und t kennzeichnen zwei Objekte;
ist somit der Wert von Variable j bei Objekt r.
24
Die Korrespondenzanalyse ist eine weitere, überwiegend deskriptiv eingesetzte Methode zur graphischen Abbildung von Datenmatrizen, aufbauend auf der Eigenwertzerlegung (singular value decomposition) der Datenmatrix (GOOD, 1969). Die Korrespondenzanalyse ist vor allem von der französischen Statistik begründet und entwickelt worden (zum Beispiel BENZECRÍ, 1973). Ursprünglich stand die Analyse von Häufigkeitsdaten nominalskalierter Variablen in Form einer bivariaten Korrespondenzanalyse im Vordergrund. Entsprechende Kodierung ermöglicht aber auch die Analyse intervall-, beziehungsweise verhältnisskalierter Variablen, ordinalskalierter Variablen und gemischter Variablensätze. Einführende Darstellungen liefern zum Beispiel GREENACRE, 1981, HILL, 1974, oder JAMBU, 1991, zusammenfassende Gesamtdarstellungen GREENACRE, 1984 und 1993. Auf die enge Verbindung von Korrespondenzanalyse und die Analyse von Kontingenztafeln mit Hilfe log-linearer Modelle sei hingewiesen (siehe zum Beispiel VAN DER HEIJDEN & DE LEEUWS, 1985 oder VAN DER HEIJDEN et al., 1989).
Die bivariate Korrespondenzanalyse dient zur Analyse einer (k x p) Datenmatrix Z, einer Kontingenztafel mit i = 1 ... k Zeilen (k Ausprägungen der nominalskalierten Zeilenvariablen
) und j = 1 ... p Spalten (p Ausprägungen der nominalskalierten Spaltenvariablen
). Die Vektoren der Zeilen- und Spaltensummen von Z sind der (k x 1) Spaltenvektor z beziehungsweise der (1 x p) Zeilenvektor s.
ist die Diagonalmatrix der Zeilen-,
die Diagonalmatrix der Spaltensummen von Z.
Ziel der Korrespondenzanalyse ist die Darstellung der Zeilen- und/oder Spaltenprofile im - wenn sinnvoll und ohne großen Informationsverlust möglich - zweidimensionalen Raum beziehungsweise allgemein im q-dimensionalen Raum (q < min(k,p)). Zu den Koordinaten für die Darstellung der Zeilen- und Spaltenprofile gelangt man über die Eigenwertzerlegung der doppelt gewichteten Matrix Z, also durch die Eigenwertzerlegung von
, wobei U die (k x p) Matrix der linken singulären Vektoren, V die (p x p) Matrix der rechten singulären Vektoren und
die p-dimensionale Diagonalmatrix der singulären Werte von
sind. Die Koordinaten für die Zeilenprofile errechnen sich dann als die Elemente der (k x p) Matrix
, die Koordinaten für die Spaltenprofile als die Elemente der (p x p) Matrix
, mit
als Diagonalmatrix der Zeilen- und
als Diagonalmatrix der Spaltensummen von
, mit N als der Gesamthäufigkeit (GENSTAT COMMITTEE, 1993).
Eine Besonderheit der Korrespondenzanalyse als Folge der doppelten Wichtung von Z ist das Auftreten einer Lösung, die immer mit dem größten singulären Wert ( = 1) korrespondiert und dessen Zeilen- und Spaltenkoordinaten ebenfalls gleich 1 sind. Der erste singuläre Wert und die mit ihm korrespondierenden singulären Vektoren werden daher in der Regel verworfen.
Die Koordinaten sind so skaliert, daß gelten
und
. Andere
25
Skalierungen sind natürlich denkbar. Häufig verwendet wird eine Tranformation zu einer Standardisierung zur Einheitshauptachse durchIn gewissen Fällen kann es informativ sein, die Zeilenprofile in Normal- und die Spaltenprofile in Standardkoordinaten darzustellen und umgekehrt. So führt zum Beispiel eine Darstellung der Zeilenprofile in Normal- und der Spaltenprofile in Standardkoordinaten zu einer Abbildung, in der der Zeilenprofilpunkt exakt am Zentroid der Spaltenprofilpunkte liegt, die das Zeilenprofil definieren. Eine Abbildung der Zeilenprofilpunkte in Standard- und der Spaltenprofilpunkte in Normalkoordinaten hingegen führt zu einer Abbildung, in der jeweilige Spaltenprofilpunkt am Zentroid der Zeilenprofilpunkte liegt, die der Kategorie des betrachteten Spaltenprofils zugerechnet werden können.
Zur Interpretation der Ergebnisse einer (bivariaten) Korrespondenzanalyse ist die graphische Abbildung der Profile der wichtigste Ausgangspunkt. Es ist zu beachten, daß die durch die Korrespondenzanalyse abgebildeten Chi-Quadrat Distanzen, die durch die euklidischen Distanzen in der dimensionserniedrigten Darstellung approximiert werden, nur innerhalb der Zeilenprofile, beziehungsweise nur innerhalb der Spaltenprofile als solche interpretiert werden dürfen. Die Distanz zwischen einem Zeilenprofilpunkt und einem Spaltenprofilpunkt ist dagegen nicht durch eine entsprechende Chi-Quadrat Distanz definiert. Neben der graphischen Abbildung der Zeilen- und Spaltenprofile sind folgende Kennwerte hervorzuheben:
Der relative Beitrag einer Dimension zur Inertia eines bestimmten Profilpunktes. Der relative Beitrag ist ein Maß für die Güte der Repräsentation eines Profils bei der gewählte Dimensionalität. Es ist durchaus denkbar, daß ein Profilpunkt zwar einen geringen absoluten Beitrag zur Ausrichtung der jeweiligen Dimension liefert, dennoch aber gut durch die gewählte Darstellung repräsentiert wird, das heißt
26
einen hohen relativen Beitrag besitzt. Der relative Beitrag kann auch als der WinkelGREENACRE, 1993, schlägt darüber hinaus vor, für die Zeilen beziehungsweise Spalten Achsen zu berechnen und diese mit entsprechenden Markern zu versehen, die für die relativen Häufigkeiten stehen. GREENACRE, 1993, bezeichnet dieses Vorgehen als Kalibrierung. Eine orthogonale Projektion, zum Beispiel eines Zeilenprofilpunktes auf die so gebildete Achse einer Spaltenvariablen, ermöglicht das Abschätzen der relativen Häufigkeit der entsprechenden Zeilen-Spalten-Kombination. Voraussetzung ist natürlich eine gute Qualität der graphischen Repräsentation. In Zusammenhang mit den noch zu besprechenden Biplots (Kapitel 2.2) wird auf ähnliche Verfahrensweisen, im Bereich der multiplen Korrespondenzanalyse, näher eingegangen.
Die Kontingenztafel Z kann in die Indikatormatrix
umgewandelt werden, indem für jedes Objekt eine Zeile gebildet wird, und die Ausprägungen der Variablen in die Spalten geschrieben werden. Für Variable 1 (zum Beispiel die Spaltenvariable von Z) ergeben sich
= 1 ...
Spalten, für die Variable 2 (zum Beispiel die Zeilenvariable von Z) ergeben sich
= 1 ...
Spalten. Bei Zutreffen der jeweiligen Ausprägung einer Variablen bei Objekt i (i = 1 ... n) wird die Spalte, die dieser Ausprägung entspricht, mit einer 1, bei Nichtzutreffen mit einer 0 gekennzeichnet. Die so entstandene Indikatormatrix wird der Korrespondenzanalyse unterzogen und liefert in Bezug auf die relative Lage der Variablenkoordinaten dieselbe Darstellung wie die Korrespondenzanalyse der Häufigkeitsmatrix. Die Werte der Gesamtinertia der Achsen sind bei Analyse von
jedoch in der Regel größer als bei Analyse von Z, die Achsen sind im Vergleich gestaucht oder gestreckt. Für die Zeilen (Objekte) können wie für die Spaltenvariablen Koordinaten errechnet werden, wobei die Objekte mit identischen Werten auf einem Punkt zusammenfallen.
An Stelle von lediglich zwei Variablen kann eine Vielzahl von Variablen betrachtet werden und es wird folglich von einer multivariaten Indikatormatrix und entsprechend von einer multivariaten oder auch häufig von einer multiplen Korrespondenzanalyse gesprochen. Wie in der bivariaten Korrespondenzanalyse spielen die graphische Darstellung der Variablen und der Objekte, sowie Aussagen zu absolutem und relativem Beitrag, zur Qualität und zur Inertia der einzelnen Dimensionen und Profilpunkte, eine wichtige Rolle. Die relativen Werte der Inertia der ersten (zwei) Dimensionen sind in der Regel gering. Als Hauptursache führt GREENACRE, 1991, die künstliche Schaffung zusätzlicher Dimensionen durch die oben beschriebene Kodierung an.
Die Bildung einer Indikatormatrix ermöglicht die Verrechnung von Variablen mit beliebigen Skalenniveaus und gemischter Variablensätze. Notwendig ist allerdings die Diskretisierung nicht nominalskalierter Variablen, das heißt ordinal-, intervall- und verhältnisskalierte Variablen müssen so kodiert werden, daß entsprechende Kategorien oder Klassen gebildet werden. Kodierungen
27
haben in der Regel einen Informationsverlust zur Folge und unterliegen subjektiven Entscheidungen. Es kann daher angebracht sein zu überprüfen, ob und wie stark unterschiedliche Klassenbildungen beziehungsweise Kodierungsverfahren die Analyseergebnisse beeinflussen.Alternativen zur multiplen Korrespondenzanalyse der Indikatormatrix sind die multiple Korrespondenzanalyse der Burt-Matrix beziehungsweise die gemeinsame Korrespondenzanalyse (joint correspondence analysis). Die Burt-Matrix (BURT, 1950)
berechnet sich als
. Bei Verwendung von Standardkoordinaten ergibt die Analyse von
Spaltenkoordinaten, die den (Standard-) Spaltenkoordinaten der Analyse von
entsprechen. Unterschiede bei den Normalkoordinaten sind bedingt durch Unterschiede bei den Inertias (
) der Dimensionen, die wie folgt in Beziehung stehen:
. Informationen zu den Objekten gehen bei Verwendung der Burt-Matrix natürlich verloren. Wo diese von besonderem Interesse sind, wie in der vorliegenden Arbeit, ist die Korrespondenzanalyse der Burt-Matrix daher nur eingeschränkt sinnvoll.
Die gemeinsame Korrespondenzanalyse (joint correspondence analysis) kann als Analyse der Elemente außerhalb der Diagonalen der Burt-Matrix verstanden werden (GREENACRE, 1988, 1991 & 1993, GOWER & HAND, 1996). Ihre Lösung erfolgt auf iterativem Weg. Durch die gemeinsame Korrespondenzanalyse wird eine gegenüber der multiplen Korrespondenzanalyse der Indikatormatrix verbesserte graphische Repräsentation der Beziehungen der Variablen untereinander erzielt. Zur Interpretation wird die Darstellung einer Variablen in Standardkoordinaten und die Darstellung der übrigen Variablen in Normalkoordinaten empfohlen. Die Standardkoordinaten der Kategorien der ausgewählten Variablen dienen dann als Referenzpunkte für die Interpretation der Beziehungen der übrigen Variablen zu der in Standardkoordinaten abgebildeten Variablen. Steht der iterative Algorithmus zur Durchführung einer gemeinsamen Korrespondenzanalyse nicht zur Verfügung, kann durch ein Reskalierungsverfahren das Ergebnis einer multiplen Korrespondenzanalyse der Burt-Matrix den Ergebnissen einer gemeinsamen Korrespondenzanalyse angenähert werden. Die Objekte betreffend gilt für die gemeinsame Korrespondenzanalyse dieselbe Einschränkung wie für die Korrespondenzanalyse der Burt-Matrix (siehe oben).
Häufig treten in gartenbaulichen Untersuchungen ordinalskalierte Variablen zum Beispiel in Form von Boniturwerten auf. Diese ordinalskalierten Variablen besitzen eine obere und eine untere Grenze und werden daher auch als bipolare Daten bezeichnet. Die Korrespondenzanalyse bipolarer Daten erfolgt durch Analyse der 'verdoppelten' Matrix (GREENACRE, 1984). Eine Matrix ordinalskalierter Variablen wird 'verdoppelt', indem für jede Variable eine Plus- und eine Minusspalte gebildet wird. Sind p ordinalskalierte Variablen gegeben (j = 1 ... p), und wird
als die obere Grenze der Boniturskala von Variable j, und
als der Boniturwert von Objekt i bei Variable j definiert
28
(i = 1 ... n), so errechnet sich die Plusspalte j+ alsZwei weitere Kennwerte in der Interpretation der Korrespondenzanalyse bipolarer Daten sind die Polarisation des Mittels und die Polarisation der Objekte. Wenn
, mit
als dem mittleren Boniturwert von Variable j definiert wird und andererseits
ist, so ist das Produkt von
und
, also
umgekehrt proportional zur sogenannten Polarisation des Mittels (
). Die geringste Polarisation des Mittels ergibt sich, wenn
(und damit
) ist.
wird definiert als
und ist immer
. Je größer die Polarisation des Mittels ist, desto mehr Bedeutung kommt einem der beiden Extremwerte der Boniturskala zu.
Eine hohe Polarisation der Objekte hingegen deutet auf die Lage der Objekte nahe den Pole, das heißt auf extreme Boniturwerte hin, während eine geringe Polarisation der Objekte auf dem Mittel nahe liegende Bonituren hinweist. Wenn
mit
als Wert von Objekt i (i = 1 ... n) bei Variable j (1 ... p) ist, so drückt ein hoher
-Wert die Nähe des Objekts i zum Pluspol von Variable j und Ferne zum Minuspol derselben Variablen aus. Die Polarisation der Objekte berrechnet sich dann durch
. Wie die Polarisation des Mittels hat sie Minimum von 4.
Die durch den Ursprung gehende (gedachte) Linie vom Punkt des positiven, zum Punkt des negativen Pols jeder Variablen - die der Summe von
und
entspricht - kann wie folgt interpretiert werden.
29
Der Kosinus des Winkels zwischen zwei Linien zweier Spalten approximiert die Korrelation zwischen diesen Spalten.
Die Koordinaten der Zeilen (Objekte) der 'verdoppelten' Matrix sind äquivalent der Hauptkomponentenwerte dieser Objekte, bei Durchführung einer Hauptkomponentenanlyse der einfachen, nicht 'verdoppelten' Matrix, wenn die Variablen derart tranformiert werden, daß gilt
mit dem Faktor
als
. Diese Transformation führt im Vergleich zur häufig in der Hauptkomponentenanlyse durchgeführten Standardisierung (siehe 2.1.1) zu einer stärkeren Hervorhebung stark polarisierter Objekte. Je größer die Polarisation eines Objekts ist, desto stärker geht sie in die Berechnung der Distanzen zweier Objekte ein. Ein Genstat Code für die Korrespondenzanalyse bipolarer Daten ist im Anhang Teil III zu finden.
Ist durch die Korrespondenzanalyse einer Matrix eine Abbildung der Häufigkeits-, Indikator-oder 'verdoppelten' Matrix erstellt, kann es informativ sein, in die vorhandene Darstellung zusätzliche Punkte, sei es Zeilen- oder Spaltenprofile, miteinzubeziehen. Solche zusätzlichen Punkte können, zum Beispiel in der gruppenweisen Analyse, die Ergebnisse anderer Objekte, oder auch externe Variablen sein. Die Koordinaten der zusätzlichen Punkte erhält man durch Anwendung geeigneter Transitionsformeln. Auf graphischem Weg ist diese Interpolation ebenfalls möglich (siehe Kapitel 2.2).
Abschließend einige Anmerkungen zur Beurteilung der Stabilität von Korrespondenzanalyse-Lösungen<15>. GREENACRE, 1984, unterscheidet zwischen interner und externer Stabilität. Der Begriff interne Stabilität bezieht sich auf die Ausgangsmatrix an sich, das heißt die interne Stabilität beurteilt, wie stark die Repräsentation der Matrix in der Korrespondenzanalyse von einzelnen Objekten beeinflußt wird. Sind Ausreißer oder Objekte mit sehr großer Leverage vorhanden, so kann die Entfernung dieser Objekte aus der Ausgangsmatrix die Repräsentation der Matrix erheblich verändern, die Lösung ist also intern instabil. Auch die Bedeutung einzelner Variablen wird als Merkmal interner Stabilität verstanden.<16>
30
Der Begriff externe Stabilität bezieht sich auf die Beziehung der Ausgangsmatrix zu der multivariaten Grundgesamtheit, aus der sie als Stichprobe ermittelt wurde. Werden weitere Stichproben gezogen, die zu stark abweichenden Lösungen führen, so ist die Lösung als extern instabil anzusehen.Zur Beurteilung der internen Stabilität empfiehlt GREENACRE, 1984, Jackknifing, zur Beurteilung der externen Stabilität, Bootstrapping. Beide Verfahren werden in Kapitel 5 kurz angesprochen. Eine interne Stabilitätsbeurteilung wird in Kapitel 3 eingesetzt und liegt als Genstat Code im Anhang Teil III vor.
31
Bei der Faktoranalyse handelt es sich wie bei der Hauptkomponentenanlyse um eine variablenorientierte R-Technik für intervall- beziehungsweise verhältnisskalierte und ordinalskalierte Variablen, die zu einer Dimensionserniedrigung genutzt werden kann. Sie wird ausführlich zum Beispiel von HARMAN, 1976, dargestellt. BARTHOLOMEW 1984 und 1985, unternimmt den Versuch, ein allgemeines Faktoranalysemodell zu definieren, das bei Variablen aller Skalenarten und bei gemischten Variablensätzen zu entsprechenden Lösungen führt. Ob überhaupt, und inwieweit, sich diese Ansätze gegenüber der ‘klassischen Faktoranalyse durchsetzen werden, ist noch unklar (siehe die Diskussion zu BARTHOLOMEW, 1985, zum Beispiel McDONALD, 1985). Obwohl eine gewisse Ähnlichkeit zur Hauptkomponentenanlyse vorhanden ist, gibt es auch wichtige Unterschiede. Im Gegensatz zur Hauptkomponentenanlyse liegt der Faktoranalyse ein gedankliches Konzept zugrunde und zwar das der latenten Variablen (beziehungsweise Faktoren). Dieses Konzept kann wie folgt erläutert werden. Die Korrelation
zwischen zwei Variablen
und
kann das Resultat ihrer gemeinsamen starken Korrelation mit einer weiteren Variablen
sein. Wenn dies zutrifft, ist die partielle Korrelation
sehr gering, das heißt die Residualkorrelation zwischen
und
ist gering, nach Berücksichtigung des linearen Effekts von
auf sowohl
als auch
. Im Konzept der Faktoranalyse wird nun davon ausgegangen, daß es für die beobachteten Variablen, die in der Faktoranalyse auch als manifeste Variablen bezeichnet werden, eine (sehr viel geringere) Anzahl solcher latenter Variablen gibt, die zu eben diesem Effekt der Reduktion der partiellen Korrelation führen. Da diese Variablen aber nicht meß- oder beobachtbar sind, werden sie als latente Variablen bezeichnet. Sie können zwar nicht gemessen, wohl aber mit Hilfe des Faktoranalysemodells geschätzt werden. Daneben gibt eine Vielzahl weiterer, vor allem methodischer, Unterscheidungen, auf die hier nicht eingegangen wird. Eine Zusammenfassung wichtiger Gemeinsamkeiten und Unterschiede von Hauptkomponenten- und Faktoranalyse gibt Tabelle 3.
Kontrovers wird nach wie vor über die Vorzüglichkeit der einen gegenüber der anderen Methode diskutiert. VELICER & JACKSON, 1990a und 1990b geben einen Überblick über diese Diskussion. Als Hauptpunkte lassen sich festhalten:
32
Sprache der Faktoranalyse der spezifischen Varianzen oder spezifischen Faktoren)) stellen in der Faktoranalyse ein Problem dar. Sie müssen aber nicht nur als negativ angesehen werden, da sie als Diagnoseinstrument dienen können, um die Angemessenheit des Faktoranalysemodells zu überprüfen. Ausschalten improperer Lösungen durch einfache Manipulationen wie Begrenzung der Fehlerterme auf größer 0 nutzen diese Möglichkeit natürlich nicht und sind daher abzulehnen.Die Schlußfolgerung von VELICER & JACKSON, 1990a, ist, daß in vielen Fällen die Hauptkomponentenanlyse der Faktoranalyse vorzuziehen ist. Zu ähnlichen, bisweilen weit radikaleren Schlußfolgerungen, kommen auch HILLS, 1977, SCHÖNEMANN, 1990 und STEIGER, 1990. Die Anhänger der Faktoranalyse finden zum Beispiel in McARDLE, 1990, oder MULAIK, 1990, ihre Fürsprecher.
In dieser Arbeit wird auf die Anwendung der Faktoranalyse oder verwandter Methoden, die auf der Vorstellung von latenten Variablen beruhen verzichtet<17>. Das Zutreffen insbesondere der konzeptionellen Grundlagen der Faktoranalyse wird unter Berücksichtigung der noch zu
33
besprechenden Daten bezweifelt; die statistischen Modellannahmen der Faktoranalyse werden durch die vorliegenden Daten nicht gedeckt; angesichts der darüber hinaus nicht zu übersehenden theoretischen Probleme der Faktoranalyse (impropere Lösungen, Faktor-Unbestimmtheit, Schätzung der Faktorwerte) ist ein Rückgriff auf diese Methodik bei der expolorativen Zielsetzung dieser Arbeit nicht erforderlich.
Tabelle 3: Gemeinsamkeiten und Unterschiede von Faktoranalyse und Hauptkomponenten-analyse
|
|
|
|
Faktoranalyse |
Hauptkomponentenanlyse |
|
|
|
Gemeinsamkeiten |
|
|
|
|
|
Technik |
R-Technik |
|
Orientierung |
variablenorientiert |
|
Rotation |
Rotation der Ergebnisse zulässig |
|
Variablenarten |
in erster Linie für intervall- und verhältnisskalierte Variablen |
|
Interpretation |
Interpretation der Ladungen beziehungsweise Koeffizienten´wichtig, aber nicht unproblematisch |
|
Unterschiede |
|
|
Konzept |
Konzept latenter Variablen |
kein zugrundeliegendes gedankliches Konzept |
Zielrichtung |
Erklärung der Kovarianzstruktur |
Beschreibung der Varianzstruktur |
statistische Modellannahmen |
Vielzahl von Annahmen für Lösung der MLFA<18> notwendig |
Lösung ohne statistische Mo-dellannahmen möglich |
Skalierung der Ausgangsvariablen |
Lösung unverändert bis auf konstanten Faktor |
Skalierung beeinflußt Lösung |
Werte der Objekte |
Berechnung der geschätzten Faktorwerte nach verschiedenen Verfahren und nicht eindeutig möglich |
Berechnung der Hauptkompo-nentenwerte unproblematisch |
Anzahl der Faktoren |
Koeffizienten (Ladungen) verändern sich mit Anzahl betrachteter Faktoren |
ohne Einfluß auf Hauptkompo-nenten und Koeffizienten |
34
Biplots sind graphische Darstellungen von Datenmatrizen, die gleichzeitig Objekte und Variablen in einer Graphik abbilden (daher auch 'Bi'plots). Biplots stellen demnach nicht eine eigene Analysemethode dar, sondern bieten die Möglichkeit der Visualisierung der Zeilen und Spalten einer Datenmatrix, aufbauend auf verschiedenen dimensionserniedrigenden Verfahren (zum Beispiel der Hauptkomponentenanalyse, der mehrdimensionalen Skalierung und der Korrespondenzanalyse).
Die in dieser Arbeit gewählte Erläuterung und Darstellung der Biplots basiert auf GOWER & HAND, 1996. Die Visualisierung der Datenmatrix in Biplots dieses Typus ermöglicht sowohl die graphische Interpolation neuer (das heißt nicht an der Konstruktion des Biplots beteiligter) Objekte, als auch die graphische Prediktion der Variablenwerte der vorhandenen Objekte. Sind also die Variablenwerte eines neuen Objekts bekannt, so läßt sich die Position des Objekts im Biplot abschätzen (Interpolation); ist auf der anderen Seite die Lage eines Objekts im Biplot bekannt, so lassen sich die Werte der Variablen für dieses Objekt vorhersagen (Prediktion).
Die Konstruktion eines Biplots erfolgt in der Art, daß zunächst durch ein geeignetes Verfahren der Dimensionserniedrigung die Koordinaten der Objekte im dimensionserniedrigten, vorzugsweise zweidimensionalen, Raum gefunden werden, und dann entsprechend der Zielrichtung (Interpolation oder Prediktion) in das neue Achsensystem, das als Referenzsystem dient, die Biplotachsen als (nicht orthogonale) Achsen der Variablen eingezeichnet werden. Die graphische, deskriptive Interpretation der Daten steht dann im Vordergund der Arbeit mit Biplots.
Die Hauptkomponentenanalyse der (n x p) Datenmatrix X führt zur (p x p) Matrix der Eigenvektoren A und zur (n x p) Matrix der Hauptkomponentenwerte Y. Die Hauptkomponentenwerte liefern die Koordinaten der Objekte im q-dimensionalen Unterraum L des p-dimensionalen Ausgangsraumes R als orthogonale, also unkorrelierte, Projektionen in der Art, daß die quadrierten Abweichungen der Distanzen der Objekte in der q-dimensionalen Projektion von den Distanzen der Objekte im p-dimensionalen Raum, minimiert werden, das heißt es gilt:
, wobei die Indizes r und t für zwei von n (i = 1 ... n) Objekten stehen,
, die aus der Datenmatrix X abgeleitete euklidische Distanz der Objekte r und t ist, und
die im q-dimensionalen Unterraum definierte euklidische Distanz zwischen r und t darstellt.
schließlich ist die Abweichung zwischen
und
, um deren Minimierung es letztlich geht.
Zusätzlich zu den Positionen der Objekte sind nun in Biplots die Variablenachsen, die auch als Biplotachsen bezeichnet werden, zu ermitteln. Diese Achsen weisen die folgenden Merkmale auf:
35
Bei der Erstellung eines Biplots beziehungsweise von auf Skalierungsverfahren wie der Hauptkomponentenanalyse, mehrdimensionalen Skalierung und Korrespondenzanalyse beruhenden graphischen Abbildungen, die der Visualisierung von Distanzen dienen, ist zu beachten, daß auf den Achsen der Hauptkomponenten gleiche Maßstäbe verwendet werden, da sich nur dann eine realistische Interpretation der Objektdistanzen ergibt.
Ausgehend von einem geeigneten Wert für jede Ausgangsvariable, zum Beispiel die dem Mittelwert einer Variablen am nächsten gelegene ganze Zahl<19>, kann
berechnet werden (im ganzzahligen Beispiel gilt dann
)<20>.
Die Koordinaten für den Marker von i ergeben sich dann für die Interpolationsmarker als
und für die Prediktionsmarker als
wobei
der (1 x q) Zeilenvektor der Koordinaten von i in q Dimensionen bei Variable j,
die (p x q) Matrix der Eigenvektoren mit q Dimensionen und
eine (1 x p) Matrix mit einer 1 an der Stelle der Variablen j (j = 1 ... p) und ansonsten nur Nullen sind. Die Werte links und rechts vom Ausgangswert i sind durch Multiplikation mit einer, dem gewählten Markerabstand entsprechenden Konstanten bis zum Einschluß der kleinsten und größten Variablenwerte zu finden, also durch
beziehungsweise
, wobei
die Werte
,... und so weiter annimmt, und der Index
für den Marker beim entsprechenden Multiplikator steht.
36
Die rechnerische Interpolation und Prediktion kann durch entsprechende Formeln erfolgen (siehe zum Beispiel JACKSON, 1991). Möglich ist nun im Biplot eine graphische Interpolation beziehungsweise Prediktion. Die Interpolation erfolgt durch die sogenannte Vektorsummenmethode. Dabei sind die Variablenwerte auf den Biplotachsen des zu interpolierenden Objekts miteinander zu verbinden und der Zentroid des so gefundenen Polygons festzulegen. Die Entfernung vom Ursprung - im Hauptkomponentenanalyse-Biplot also vom gemeinsamen Schnittpunkt aller Biplotachsen - zum Zentroid dieses Polygons, ergibt, multipliziert mit der Anzahl der betrachteten Variablen in der, durch die Lage dieses Zentroids bestimmten Richtung, die interpolierte Position des neuen Objekts. Die Prediktion der Variablenwerte erfolgt durch orthogonale Projektion vom Objektpunkt auf die jeweiligen Variablenachsen. Es ist zu beachten, daß Interpolations- und Prediktionsmarker unterschiedliche Positionen auf den Biplotachsen einnehmen, und daher immer nur der für den jeweiligen Zweck bestimmte Biplot verwendet werden darf.
Visuell läßt sich die Güte der Variablenrepräsentation bereits durch die Länge der Biplotachsen der einzelnen Variablen beurteilen. Aufbauend auf den Eigenvektorwerten der einzelnen Variablen, lassen sich auch sogenannte CUSUM Diagramme erstellen (ARNOLD & COLLINS, 1993). Es gilt:
, wobei
der Eigenwert der
-ten Hauptkomponente (
) und
die Elemente der (p x q) Matrix der Eigenvektoren
sind. Der Beitrag
der ersten Variablen zum Eigenwert der ersten Hauptkomponente errechnet sich dann zum Beispiel nach
. Die Aufaddierung der Beiträge der einzelnen Variablen ergibt die Eigenwerte der einzelnen Hauptkomponenten. Die Abbildung der Beiträge in Form kumulativer Balkendiagramme mit den Beiträgen auf der Ordinate und den Hauptkomponenten auf der Abszisse, ermöglicht einen gleichzeitigen Einblick in die Bedeutung der Dimensionen und die Beiträge der Variablen.
Es ist festzuhalten, daß die Hauptkomponentenanalyse-Biplots in erster Linie auf die der Hauptkomponentenanalyse der Kovarianzmatrix aufbauen. Natürlich ist auch die Analyse der Korrelationsmatrix möglich, jedoch verliert der Hauptkomponentenanalyse-Biplot dann das wünschenswerte Merkmal der direkten Ablesbarkeit der Variablen-Orginalwerte und verwendet an dessen Stelle die standardisierten Werte. Der Anhang enthält in Teil III Genstat Codes zur Erstellung von Hauptkomponentenanalyse-Biplots mit Interpolations- und Prediktionsmarkern, inklusive der Möglichkeit der interaktiven Prediktion bei Verwendung standardisierter Daten, sowie einen Code zur Erstellung von CUSUM-Diagrammen.
37
Mit Hilfe der Verfahren der ordinalen mehrdimensionalen Skalierung kann, wie durch die Hauptkomponentenanalyse eine Objektkonfiguration erzeugt werden. Ein fundamentaler Unterschied zwischen Hauptkomponentenanalyse und ordinaler mehrdimensionaler Skalierung ist jedoch die Tatsache, daß die ordinale mehrdimensionale Skalierung von einer (n x n) Distanzmatrix D - die allerdings auch aus einer (n x p) Ausgangsmatrix X gebildet werden kann - ausgeht und nicht von der Datenmatrix X direkt<21>. Das heißt der q-dimensionale, durch die aus D berechnete Koordinatenmatrix
bestimmte Raum L, ist im Fall der mehrdimensionalen Skalierung kein Unterrraum des p-dimensionalen Raumes R der Matrix X. Von daher ist die ordinale mehrdimensionale Skalierung keine Projektions-, sondern eine Optimierungsmethode, die die, durch
definierten Objektdistanzen - auf iterativem Wege - möglichst nah an die tatsächlichen Objektdistanzen annähert. Die rechnerische Interpolation kann daher auch nur auf iterativem Weg erfolgen. Eine einfache graphische Interpolation im Sinne der Vektorsummenmethode basierend auf
ist aus diesem Grund ebenfalls nicht möglich. Vielmehr ist nach einer Transformation
zu suchen, die einer Projektion von X in q Dimensionen so nahe wie möglich ist. Ähnlich ist bei der Ermittlung der Prediktionsmarker vorzugehen (zu den Einzelheiten siehe GOWER & HAND, 1996).
Die multiple Korrespondenzanalyse kann als Variante der Hauptkomponentenanalyse mit nominal- und ordinalskalierten Variablen (an Stelle der intervall- und verhältnisskalierten Variablen) beschrieben werden, wenn sie als Hauptkomponentenanalyse der doppelt gewichteten Indikatormatrix verstanden wird. Die bivariate Korrespondenzanalyse ist dann der Sonderfall für p = 2. Wie in der Hauptkomponentenanalyse führt die Eigenwertzerlegung auch in der Korrespondenzanalyse zur Minimierung der Abweichungen der im dimensionserniedrigten Raum gefundenen Distanzen von den Ausgangsdistanzen, nur daß es sich in der Korrespondenzanalyse um Chi-Quadrat Distanzen und nicht um euklidische Distanzen handelt<22>. Da es sich in der multiplen Korrespondenzanalyse der Indikatormatrix allerdings um dichotomisierte, in der Regel ursprünglich nominal- oder ordinalskalierte Variablen handelt, ist die Darstellung der Variablen in multiplen Korrespondenzanalyse-Biplots in Form kontinuierlicher Achsen weniger interessant. Vielmehr ergeben sich für die Kategorien der Variablen entsprechende Kategorien-Stufen-Punkte
38
(‘category level points, CLPs), die jeweils eine Ausprägung einer Variablen charakterisieren.Eine Darstellung der Objekte als Objekt-Punkte in Normalkoordinaten und der Variablen in Form von CLPs in Standardkoordinaten führt zur Biplot-Repräsentation der multiplen Korrespondenzanalyse. Die graphische Interpolation kann in diesem Fall nach der Vektorsummenmethode erfolgen. Die Verbindung der ein Objekt definierenden CLPs ergibt ein Polygon, dessen Zentroid der Lage des gesuchten Objekts entspricht. Die graphische Prediktion erfolgt nach Bildung von Prediktionsregionen. Die Prediktionsregion eines CLP ist diejenige Region, deren entfernteste Punkte dem, die Region definierenden CLP, näher sind als einem anderen CLP. Der Übersichtlichkeit halber ist es in der Regel sinnvoll für die Variablen separat Graphiken mit den Objekten und den jeweiligen Variablen und ihren Prediktionsregionen zu erstellen. Grundsätze zur Bildung derartiger Prediktionsregionen sind GOWER, 1993, zu entnehmen.
39
Hauptkomponentenanalyse-Biplots basieren auf der Annahme des Vorliegen der euklidischen Distanz. Daneben existieren auch nicht-euklidischer Proximitätsmaße. GOWER & LEGENDRE, 1986, zeigen aber, daß eine Vielzahl nicht-euklidischer Proximitätsmaße, euklidisch einbettbar ist<23>. Euklidisch einbettbar bedeutet, daß für das gewählte Proximitätsmaß eine Darstellung im euklidischen Raum in der Art möglich ist, daß die (euklidisch einbettbaren) Distanzen
der Distanzmatrix D, aus den Distanzen zwischen den - durch die Koordinaten der Matrix
im euklidischen Raum definierten - Punkten hergeleitet werden können.
Die Koordinatenmatrix
ist hierbei definiert als die Lösung einer Hauptkoordinatenanlyse einer Distanzmatrix, deren Elemente euklidisch-einbettbare Distanzen sind. Handelt es sich um euklidische Distanzen, so entstehen die bereits besprochenen linearen Hauptkomponentenanalyse-Biplots. Werden euklidisch-einbettbare Distanzen verwendet und einer Hauptkoordinatenanalyse unterzogen, ergeben sich für intervall- und verhältnisskalierte sowie ordinalskalierte Variablen nichtlineare Biplots (GOWER & HARDING, 1988, MEULMAN & HEISER, 1993).
Jede Variable wird im nichtlinearen Biplot durch eine nichtlineare, mit Markern versehene Bahn (‘trajectory) dargestellt. Diese Bahn entsteht durch die Berechnung sogenannter Pseudoobjekte. Diese Pseudoobjekte stehen für Objekte mit dem Wert
für Variable j und 0 für alle anderen Variablen. Nimmt
die Werte
, an, entsteht durch die Pseudoobjekte die Variablenbahn für Variable j. Die Bahnen aller Variablen laufen in einem Punkt O zusammen, nämlich bei
. Im linearen Biplot fallen der Zentroid der Ausgangsmatrix X und der Schnittpunkt der Biplotachsen O in einem Punkt zusammen, beim nichtlinearen Biplot ist dies nicht der Fall, sondern der Zentroid der Matrix
, die die Koordinaten für die Projektion der Objekte liefert, und O unterscheiden sich in der Regel. Der Koordinatenvektor
für ein Pseudoobjekt errechnet sich - bei Zutreffen der Additivitätsannahme<24> - durch
, mit der Diagonalmatrix L der Eigenwerte von
, der durch eine Hauptkoordinatenanlyse von D gewonnenen Koordinatenmatrix
, der Einsermatrix 1 und dem (1 x n) Vektor
der quadrierten Distanzen des gewählten Proximitätsmaßes des Pseudoobjekts zu den übrigen Objekten. Die Koordinaten sind für sich verändernde Werte von
zu berechnen. Da jedes weitere Pseudoobjekt auch eine weitere
40
Dimension definiert, ergeben sich die entsprechenden Koordinaten jedes Pseudoobjekts auch in einer weiteren, der sogenannten Residualdimension. Die Interpretation wird jedoch durch diese Residualdimensionen nicht beeinträchtigt.Die graphische Interpolation kann wie im linearen Fall durch die Vektorsummenmethode erfolgen, ausgehend vom Schnittpunkt der Biplotbahnen, nicht vom Zentroid der Objektdarstellung. Für die Erstellung nichtlinearer Biplots auf Grundlage eines beliebigen Distanzmaßes mit Interpolationsmarkern auf den Biplotbahnen liegt ein Genstat Code im Anhang Teil III vor.
Die Konstruktion von Prediktionsmarkern ist ebenfalls möglich (Einzelheiten siehe GOWER & HAND, 1996). Die graphische Prediktion erfolgt als sogenannte zirkuläre Prediktion und zwar in der Art, daß ein Kreis vom Zentroid zum Objektpunkt gebildet wird. Die Stelle an der der so entstandene Kreis die Biplotbahn schneidet, ergibt der vorhergesagten Variablenwert. Im linearen Fall ergeben zirkuläre und (bereits besprochene) orthogonale Prediktion denselben Markerwert auf der Biplotachse. Einige weitere Anmerkungen zu nichtlinearen Biplotbahnen:
GOWER, 1995b und GOWER & HAND, 1996, formulieren eine allgemeine ‘Biplot-Theorie, die die Biplot-Darstellung beliebiger, auch gemischter Datensätze berücksichtigt, das heißt lineare Biplotachsen, nichtlineare Biplotbahnen und CLPs in einer Darstellung vereinen. Vorstellbar ist zum Beispiel die Verwendung des allgemeinen Ähnlichkeitskoeffizienten, mit dessen Hilfe eine Proximitätsmatrix für Variablen beliebiger Skalenarten gebildet werden kann, die dann durch die Ergebnisse einer Hauptkoordinatenanlyse in wenigen Dimensionen visualisiert wird. Durch Anwendung entsprechender Formeln, auf die hier nicht im Einzelnen eingegangen werden soll, erhält man über den Weg der Pseudoobjekte die Koordinaten der Biplotachsen und -bahnen und die CLPs der qualitativen Variablen. Die bereits angesprochenen Basispunkte der qualitativen Variablen entsprechen den CLPs und sind daher in diesem Zusammenhang, anders als bei den nichtlinearen Biplots quantitativer Variablen, von besonderem Interesse.
Bis auf Parallelverschiebungen gleichen die Biplotachsen beziehungsweise die Biplotbahnen der quantitativen Variablen denen der linearen und nichtlinearen Biplots. Allerdings gibt es in der Regel
41
für die Bahnen keinen gemeinsamen SchnittpunktDie Interpolation erfolgt nach der Vektorsummenmethode unter Verwendung aller Variablen, das heißt der Werte auf den Biplotachsen, den nichtlinearen Biplotbahnen und den einem Objekt entsprechenden CLPs, ausgehend vom Zentroid der Objektdarstellung, das heißt ausgehend vom Zentroid von
. Die Prediktionen lassen sich als zirkuläre Prediktion durchführen. Für die qualitativen Variablen sind entsprechend Prediktionsregionen zu erstellen.
42
Biplots gehen ursprünglich zurück auf GABRIEL, 1971, und werden zum Beispiel von GABRIEL, 1981, GABRIEL & ODOROFF, 1986, oder auch GABRIEL, 1995a & 1995b, dargestellt und diskutiert. Die klassische Formulierung bedient sich der Eigenwertzerlegung der Datenmatrix X. Unterschieden wird zwischen dem CMP (column preserving), RMP (row preserving) und dem diagnostischen Biplot. Die Darstellung der ‘klassischen Biplots erfolgt vielfach als Punkt- und Pfeile-Plots, das heißt, die Zeilen (die Objekte) werden durch die Endpunkte der vom Ursprung ausgehenden Vektoren als Punkte, die Spalten (die Variablen) durch die vom Ursprung ausgehenden Vektoren in Form von Pfeilen dargestellt. Der diagnostische Biplot hat vor allem in der Modellwahl, zum Beispiel in der Regressionsanalyse eine Bedeutung (GABRIEL, 1981). Wichtige Merkmale der CMP- und RMP-Biplots als Repräsentation der Datenmatrix X sind (GABRIEL, 1995a):
Bei Vorliegen qualitativer Daten in Form einer Kontingenztafel oder einer Indikatormatrix schlägt GABRIEL, 1995a und 1995b, als Alternative zu Abbildungen, die durch die Korrespondenzanalyse gewonnenen werden, die Verwendung separater Reihenprofil- beziehungsweise Spaltenprofil-Biplots vor. Ob und inwieweit die getrennte Darstellung als Reihenprofil- beziehungsweise Spaltenprofil-Biplot der traditionellen Darstellung der bivariaten Korrespondenzanalyse überlegen ist, soll an dieser Stelle nicht vertieft werden (siehe aber dazu zum Beispiel die Diskussionen bei
43
GABRIEL, 1995b oder GREENACRE, 1993).44
In vielen Fällen der Datenanalyse liegen die Daten in der einen oder anderen Art gruppiert vor. Im Kontext dieser Arbeit sind Faktoren, die diese Gruppen bestimmen zum Beispiel verschiedene Variablensets oder Erhebungsjahre. Gruppierte Daten können variablen- oder objektorientiert analysiert werden. Variablenorientiert heißt in diesem Zusammenhang, daß die Frage gestellt wird, ob die Variabilitätsstruktur in den Gruppen als gleich oder als unterschiedlich angesehen werden kann, ob also zum Beispiel die Ausrichtung der Achsen, das heißt der ersten, zweiten, dritten und so weiter Hauptkomponente, in etwa gleich ist oder nicht. Werden im gruppierten Fall Hauptkomponentenanalysen für die einzelnen Gruppen getrennt durchgeführt, stellt sich die Frage, in wie weit sich die für die jeweiligen Gruppen ermittelten Eigenwerte und Eigenvektoren ähnlich beziehungsweise unähnlich sind. Diese Fragestellung kann mit Hilfe gemeinsamer Hauptkomponentenmodelle untersucht werden (siehe 2.3.1). Objektorientierte Ansätze fragen demgegenüber danach, ob die Objekte in aus verschiedenen Analysen abgeleiteten Konfigurationen, an derselben Stelle liegen oder stark voneinander entfernt sind, ob also zum Beispiel zwischen der Konfiguration der Punkte der Objekte im Koordinatensystem einer ersten Gruppe eine gute oder schlechte Übereinstimmung mit der Konfiguration der Punkte der Objekte im Koordinatensystem einer zweiten Gruppe besteht. Dieser Fragestellung kann mit Hilfe der Prokrustes-Analyse nachgegangen werden (siehe 2.3.2). Alternative, objektorientierte Methoden sind die gewichtete mehrdimensionale Skalierung und die kanonische Variablenanalyse. Eine weitere variablenbezogene Methode ist die nichtlineare kanonische Analyse. Die genannten drei Verfahren werden in Kapitel 2.3.3, aufgrund ihres geringen Gewichts in der vorliegenden Arbeit allerdings nur kurz, angesprochen.
Wenn die Daten in Form getrennter Stichproben gruppenweise strukturiert vorliegen, ist die Frage zu stellen, ob sich die Hauptkomponentenanalysen in den einzelnen Gruppen einander ähneln oder stark von einander abweichen. Sind sie sich sehr ähnlich, kann die Beschreibung der Gruppen mit Hilfe des gemeinsamen Hauptkomponentenmodells erfolgen (FLURY, 1984 und 1988, FLURY & RIEDWYL, 1988). Ähnlichkeit ist im variablenorientierten Ansatz dieses Modells so zu verstehen, daß die Ausrichtung der Achsen (nicht notwendigerweise ihre relative Bedeutung und Größe), in allen Gruppen annähernd gleich ist, die einzelnen Gruppen sich demnach durch ein gemeinsames Achsensystem (eine gemeinsame Transformation) ohne einen erheblichen Informationsverlust beschreiben lassen.
Die Vorteile dieses Modells sind zum einen die Vereinfachung der Ergebnisdarstellung, wenn nur
45
eine gemeinsame Hauptkomponentenanalyse, an Stelle einer Vielzahl separater Hauptkomponentenanalysen, präsentiert werden muß. Darüber hinaus werden bei Verwendung nur einiger Hauptkomponenten im reduzierten, gemeinsamen Modell, für alle Gruppen die gleichen Hauptkomponenten verworfen, und somit die Gruppen im gleichen, reduzierten Variablenraum beschrieben.Allerdings sind die gemeinsamen Hauptkomponenten in der Regel nicht wie die ursprünglichen Hauptkomponenten unkorreliert. Zudem ist die Anwendung des gemeinsamen Hauptkomponenten-Modells bislang nur bei Verwendung der Kovarianzmatrix ausreichend entwickelt. Abweichungen von der Multinormalverteilung sowie das Vorliegen von Ausreißern können die Schätzmethoden des gemeinsamen Hauptkomponentenmodells stark beeinflussen.
Das gemeinsame Hauptkomponentenmodell ist nur ein Modell in einer Hierarchie von Modellen zur Beschreibung der Beziehung der Kovarianzmatrizen gruppierter Daten. Folgende Modelle lassen sich voneinander abgrenzen:
Die Fälle 1. und 5. können durch bekannte Testverfahren auf Gleichheit der Kovarianzmatrizen bearbeitet werden (MORRISON, 1990). Die Fälle 2., 3., und 4. werden von FLURY, 1984, und FLURY & RIEDWYL, 1988, behandelt. KRZANOWSKI, 1984, liefert dafür ein approximatives Vorgehen. Aufgrund der weitreichenden Modellannahmen und der Notwendigkeit der Verwendung der Kovarianzmatrix zur Berechnung der Maximum Likelihood Schätzer ist dieses gemeinsame Hauptkomponentenmodell für die vorliegende Arbeit nicht geeignet.
Das hier beschriebene Gruppenanalysemodell geht zurück auf KRZANOWSKI, 1979 und 1988a. Im Prinzip verfolgt es dieselben Ziele wie 2.3.1.1. Es geht also um die Frage, in wie weit die Variabilitätsstruktur verschiedener Gruppen durch ein gemeinsames Hauptkomponentenmodell dargestellt werden kann. Die Grundsätze lassen sich wie folgt skizzieren:
für zwei Gruppen A und B liegen die Koeffizienten der Hauptkomponentenanalysen (die Eigenvektoren) als
und
vor (
), (
), (
und
). L und M sind die (
x p) und (
x p) Matrizen der Eigenvektoren der Hauptkomponentenanalysen von
46
A und B. Wenn nun N = LM'ML' definiert wird, gilt:Die Summe der Eigenwerte von N ist gleich der Quadratsumme der Kosinen der Winkel der Hauptkomponenten zwischen A und B. Sind die Achsen der beiden Gruppen völlig übereinstimmend, so nimmt diese Summe den Wert g (= Anzahl der Gruppen), sind sie orthogonal, den Wert Null, an. Nun können also die Ähnlichkeiten zwischen A und B durch die Vektorpaare
und
dargestellt werden.
repräsentiert dann den Beitrag des j-ten Paars zur Gesamtvariabilität. Die Linie im Raum A, die dem Raum B am nächsten liegt ist gegeben durch
;
liegt am nächsten zu
in B und der Winkel zwischen ihnen ist
. Die Ebene im Raum A, die dem Raum B am nächsten liegt, ist definiert durch die Vektoren
und
, und entsprechend definieren die Paare (
,
) und (
,
) die sich von A und B am nächsten gelegenen Ebenen mit den 'kritischen' Winkeln
und
. Diese Aufteilung läßt sich nun fortführen für alle von A und B gemeinsam beschriebenen Dimensionen q. Die 'kritischen' Winkel geben Aufschluß darüber, wie gut oder wie schlecht die Übereinstimmung der Achsen im q-dimensionalen Raum ist. Eine völlige Übereinstimmung führt zu 'kritischen' Winkeln mit dem Wert Null; die Eigenwerte von N sind dementsprechend dann alle gleich 1.
...
schließlich stellen in diesem Fall die Koeffizienten des gemeinsamen q-dimensionalen Raums von A und B dar. Entsprechen sich die Achsen nicht, so ist der mittlere Vektor von
und
definiert durch
und die
...
definieren die mittleren Komponenten der Dimensionen von A und B.
Wenn A und B durch eine unterschiedliche Anzahl von Hauptkomponenten charakterisiert sind, und
die Anzahl der Hauptkomponenten von A und
die Anzahl der Hauptkomponenten von B sind, ist q = min (
,
). N hat q von Null verschiedene Eigenwerte und der Vergleich von A und B erfolgt auf der Basis eben dieser von Null verschiedenen Eigenwerte.
Die Ausweitung des Konzepts auf mehr als zwei Gruppen kann folgendermaßen verdeutlicht werden:
ist die (q x p) Matrix mit den Eigenvektoren der Hauptkomponentenanalyse der Gruppe t. b ist
47
ein Vektor im Raum der Ausgangsvariablen, undund j = 1 ... q (q
p). Dann ergibt sich
. Das Maximum von V liegt bei g, da dann völlige Übereinstimmung der Hauptkomponenten vorliegt und alle
gleich Null sind. Für das Gruppenanlysemodell liegt ein Genstat Code im Anhang Teil III vor.
Eine graphische Methode zum Vergleich der Eigenvektoren der Hauptkomponentenanalysen verschiedener Gruppen wird von KERAMIDAS et al., 1987, vorgestellt. Beschrieben ist sie ausschließlich für den Fall, daß als Ausgangspunkt die Kovarianzmatrix verwendet wird, obwohl KERAMIDAS et al., 1987, eine Übertragung auf den Fall Ausgangspunkt Korrelationsmatrix für denkbar halten. Wichtig für den Einsatz der Methode sind:
Um festzustellen, ob sich die Eigenwerte gut von einander abheben, können Boxplots der Eigenwerte der Gruppen hilfreich sein. Die Eigenwerte aller Gruppen werden in Form von Boxplots so dargestellt, daß auf der x-Achse die laufende Nummer der Eigenwerte, auf der y-Achse die Boxplots der Eigenwerte abgetragen werden. Aus diesen Plots wird erkennbar, wie groß die Unterschiede zwischen den Eigenwerten aller Gruppen sind, und welche Überschneidung zwischen den Eigenwerten aller Gruppen vorliegt. Sie erlauben also einen gleichzeitigen, groben Einblick in
48
alle Eigenwerte aller Gruppen.Der notwendige Vergleichsmaßstab bei Betrachtung einer Hauptkomponente wird durch die euklidische Distanz für den a priori Vektor
(beziehungsweise
an Stelle von
) vom Beobachtungsvektor durch
errechnet, und zwar für Gruppe t (t = 1 ... g ) und die Koeffizienten des Eigenvektors (der Hauptkomponente)
(j = 1 ... p). Da diese Distanzen gut durch eine Gamma-Verteilung approximiert werden können, kann ein Gamma-q-q-Plot erstellt werden, bei dem auf der x-Achse die Gamma-Quantile, auf der y-Achse die geordneten
-Werte aufgetragen werden. Die Gamma Quantile werden ermittelt nach vorheriger Schätzung der Form-(
) und Größe-(
) Parameter der Gamma-Verteilung aus den ermittelten Distanzen. Der q-q-Plot zeigt die Gamma Quantile auf Grund der geschätzten Parameter und die für jede Gruppe kleinsten quadrierten euklidischen Distanzen, die der Eigenvektor der Hauptkomponente zum 'typischen' oder a priori Eigenvektor hat. Eine deutliche Abweichung des q-q-Plots von der Linearität weist für die Gruppen, die diese Abweichung verursachen, auf einen vom a priori beziehungsweise 'typischen' Eigenvektor deutlich abweichenden Eigenvektor und damit bei diesen Gruppen auf eine vom Vergleichsmaßstab abweichende Kovarianzstruktur hin. Beim Vergleich von mehr als einer Hauptkomponente wird
zu
. Wie bereits erwähnt ist die vorgeschlagene Methode nur bei einer sehr großen Gruppenanzahl, vorzugsweise bei Verwendung der Kovarianzmatrix anwendbar. Der Genstat Code zur Erstellung der Gamma-q-q-Plots und Eigenwerte-Boxplots liegt im Anhang Teil III vor.
49
Die Prokrustes-Analyse dient zum objektorientierten Vergleich zweier oder mehrerer Konfigurationen. Mit Konfiguration ist hier die durch die Variablenwerte bestimmte Lage der Objekte im p-dimensionalen Raum gemeint. Nicht die Übereinstimmung der Werte, das heißt die absolute Lage der Objekte im Koordinatensystem, bildet dabei den Maßstab für die Beurteilung der Übereinstimmung von Konfigurationen, sondern die relative Lage der Objekte zueinander in den Koordinatensystemen unterschiedlicher Konfigurationen.
Unterschiedliche Konfigurationen derselben Objekte können entstehen durch:
Zu unterscheiden ist zwischen der einfachen Prokrustes-Analyse für den paarweisen Vergleich von zwei Konfigurationen und der generalisierten Prokrustes-Analyse für den gleichzeitigen Vergleich von mehr als zwei Konfigurationen. Da nicht die absolute Lage der Objekte im Koordinatensystem für die Prokrustes-Analyse von Bedeutung ist, sondern die relative Lage der Objekte zueinander, ist es sinnvoll, verschiedene Datenmanipulationen durchzuführen, die dafür sorgen, daß die Übereinstimmung der Koordinaten der verschiedenen Konfigurationen zu gut wie irgend möglich ist; das heißt, es sind Transformationen durchzuführen, die die inneren Beziehungen der jeweiligen Konfigurationen bewahren. Erst dann ist ein Maß für die Übereinstimmung der Konfigurationen im Sinne der Prokrustes-Analyse zu berechnen. Die genannten Datenmanipulationen umfassen:
Die Variablen der zu vergleichenden Ausgangsmatrizen sind möglicherweise vor der Prokrustes-Analyse zu standardisieren. Besitzen unterschiedliche Matrizen eine unterschiedliche Anzahl an Spalten, so gilt, daß die Matrizen, deren Variablenzahl <
ist, durch Nullspalten ergänzt
50
werden. Die Prokrustes-Analyse hat starke Impulse von GOWER, 1975 und 1995a, erhalten und wird in der Folge im Sinne dieser Referenzen dargestellt.Liegen zwei Konfigurationen in Form der (n x p) Matrizen X und
vor, mit den Elementen
und
, so ist
als Maß für die Abweichung der einen Konfiguration von der anderen Konfiguration wie folgt definiert:
. Vor Berechnung dieser Maßzahl sind die oben angesprochenen Transformationen durchzuführen.
Die Translation wird erreicht durch die Mittelwertszentrierung der Ausgangsmatrizen X und
. Sie führt dazu, daß der Zentroid von X,
gleich dem Mittelwertsvektor von
,
ist und es gilt:
, das heißt, beide Konfigurationen haben denselben Zentroid, gelegt am Ursprung. Mögliche Unterschiede zwischen den Mittelwertsvektoren der Konfigurationen werden durch die Translation also entfernt. Sind diese von Interesse, kann vor der Translation eine multivariate Varianzanalyse durchgeführt werden, die jedoch in dieser Arbeit nicht betrachtet wird.
Rotation und Dilation werden nach Translation beider Matrizen derart durchgeführt, daß eine Matrix als fix (zum Beispiel X) die andere Matrix als beweglich (zum Beispiel
) angenommen wird. Da die Dilation nicht symmetrisch ist (das heißt der Faktor c, der
minimiert, bei Skalenveränderung von
gegeben X , ist nicht notwendigerweise gleich dem Faktor
, der
minimiert, bei Skalenveränderung von X gegeben
), werden die Variablen in der Regel so standardisiert, daß gilt
. Als Konsequenz ergeben sich
und
. Werden mehrere Konfigurationen paarweise miteinander verglichen, so können die jeweiligen
-Werte der Paarvergleiche als Proximitätsmaß betrachtet werden und zum Beispiel einer Hauptkoordinatenanlyse unterzogen werden, die dann wiederum eine Konfiguration erzeugt, die die Lage der unterschiedlichen, paarweise miteinander verglichenen Konfigurationen aufzeigt.
Die Generalisierung der einfachen Prokrustes-Analyse für den gleichzeitigen Vergleich von mehr als zwei Konfigurationen erfolgt (nach Mittelwertszentrierung) im Gegensatz zur einfachen Prokrustes-Analyse auf iterativem Weg, da zur Ermittlung der Dilationsfaktoren und der Rotationsmatrizen, die die Abweichungen minimieren, die mittlere Endkonfiguration bekannt sein muß. Da sie das natürlich nicht ist, kann man sich ihr nur bis zu einem gewissen Konvergenzkriterium nähern. Die mittlere Konfiguration nach Abschluß der Datenmanipulationen im Rahmen der Prokrustes-Analyse, wird als Konsens-Konfiguration bezeichnet.
Um die unterschiedlichen Begriffe in der Prokrustes-Analyse noch einmal zu verdeutlichen und die Einbindung der Ergebnisse einer Prokrustes-Analyse in ein varianzanalytisches Schema aufzuzeigen, sei nach GOWER, 1995a, folgendermaßen definiert:
51
es liegen g (n x
(Total = Translation + Residuen).
Duch die Translation werden die Mittelwertsvektorunterschiede eliminiert und die Konfigurationen zu einem gemeinsamen Ursprung O überführt. Als Varianzanalyse-Modell läßt sich dann schreiben:
(Total = Konfigurationseffekt + individuelle Differenzen (Residuen)), wobei
der Zentroid von Objekt i für alle Konfigurationen t ist. Die Gesamtstreuung um den Ursprung wird also aufgeteilt in zwei Orientierungseffekte. Zum einen die Abweichung der Zentroide der Konfigurationen der Objekte vom Ursprung (erster Orientierungseffekt, Konfigurationseffekt), zum anderen die Abweichung der Koordinaten der Objekte vom jeweiligen Konfigurationszentroid (zweiter Orientierungseffekt, individuelle Differenzen). Der erste Orientierungseffekt kann nur objektbezogen, der zweite Orientierungseffekt sowohl objekt- als auch konfigurationsbezogen ermittelt werden. So gilt also objektbezogen zum Beispiel für Objekt 1
(Total = Konfigurationseffekt + individuelle Differenzen). Konfigurationsbezogen errechnet sich das Residuum zum Beispiel für Konfiguration 1 durch
. Ein Konfigurationseffekt kann bei der konfigurationsbezogenen Betrachtung natürlich nicht berechnet werden.
Ein großes Objektresiduum weist darauf hin, daß Objekte in Konfigurationen stark voneinander abweichen. Ein großes Konfigurationsresiduum weist darauf hin, daß die Unterschiede der Konfigurationen von der Konsens-Konfiguration erheblich sind. Ein starker Translationseffekt ist ein Indiz für Unterschiede der Mittelwertsvektoren der Ausgangsmatrizen. Unterschiede bei den Dilationsfaktoren deuten auf Unterschiede in der absoluten Skala der Variablen der verschiedenen Konfigurationen hin (zum Beispiel durch unterschiedlich starke Variabilität in den verschiedenen Konfigurationen).
52
Ein der Prokrustes-Analyse vergleichbares Verfahren stellt die gewichtete mehrdimensionale Skalierung dar, die auf eine Arbeit von CAROLL & CHANG, 1970, zurückgeht. Sie wird häufig auch als individuelle Differenzskalierung bezeichnet. Neben den Koordinaten der Objekte in q Dimensionen erzeugt die gewichtete mehrdimensionale Skalierung in Form von Gewichtungswerten Maßzahlen für die Bedeutung der jeweiligen Dimension für die verschiedenen Gruppen und erlaubt somit einen Vergleich derselben. Die gewichtete mehrdimensionale Skalierung ist mit Hilfe eines iterativen Algorithmus zu lösen, ist somit der ordinalen mehrdimensionale Skalierung nahe. Sie kann aber im wesentlichen als Generalisierung der Hauptkoordinatenanalyse für mehr als eine Proximitätsmatrix angesehen werden und beinhaltet demnach auch Aspekte dieses Verfahrens. Der gewichteten mehrdimensionalen Skalierung liegt der Gedanke zugrunde, daß sich alle Gruppen durch ein gemeinsames Achsensystem beschreiben lassen und die Unterschiede zwischen den Gruppen durch das Gewicht, das die einzelnen Gruppen den jeweiligen gemeinsamen Achsen zuordnen, gegeneinander abgegrenzt werden können und daß, durch Verwendung von gruppenspezifischen Gewichtungswerten, aus dem gemeinsamen q-dimensionalen Raum (q
n) ein jeweils gruppenspezifischer Raum (mit
q Dimensionen) errechnet werden kann. Einige Kennwerte der gewichteten mehrdimensionalen Skalierung sind (CARROL, 1972, SCHIFFMANN et al., 1981):
53
Länge des jeweiligen Vektors ist ein Maß für die Anpassungsgüte von jeweiliger Gruppenkonfiguration und Gesamtkonfiguration. WennAbschließend soll darauf hingewiesen werden, daß die Ergebnisse der gewichteten mehrdimensionalen Skalierung keiner Rotation unterzogen werden dürfen und daß negative Gewichtungswerte zwar grundsätzlich möglich, in der Anwendung jedoch sehr selten sind.
Die kanonische Variablenanalyse geht von einer, am Ursprung zentrierten, in g Gruppen aufgeteilten (n x p) Datenmatrix X aus. Gesucht wird nach der Linearkombination der p Variablen, die das Verhältnis von der SSP (Sums of Squares and Products)-Matrix B (Between, zwischen den Gruppen) zu der SSP-Matrix W (Within, innerhalb der Grupppen) maximiert, und damit eine Funktion erzeugt, die die vorhandenen Gruppen im Sinne einer kleinsten-Quadrate-Lösung, optimal zu trennen in der Lage ist<26>. Diese Lösung wird erzielt durch die Eigenwertanalyse von
. Der mit dem ersten Eigenwert von
assoziierte Eigenvektor bestimmt die Richtung im p-dimensionalen Raum an dem die Variabilität zwischen den Gruppen am größten ist, im Vergleich zur Variablität innerhalb der Gruppen. In Analogie zur Hauptkomponentenanalyse bestimmen die folgenden Eigenvektoren die nächstwichtigen Dimensionen im Sinne der Maximierung des Verhältnisses von Between-Streuung zu Within-Streuung. Sowohl die Objekte als auch die Gruppenmittelwertsvektoren lassen sich mit Hilfe der Eigenvektoren in den Raum der kanonischen Variablen projizieren und damit in wenigen Dimensionen graphisch abbilden (CHATFIELD & COLLINS, 1980). Der unterschiedlichen Variablität der einzelnen Variablen wird in der kanonischen Variablenanalyse dadurch Rechnung getragen, daß als zugrunde liegendes Proximitätsmaß die Mahalanobis-Distanz verwendet wird, und diese durch euklidische Distanzen repräsentiert beziehungsweise approximiert (wenn q < p) wird (GOWER & HAND, 1996). Obwohl die kanonische Variablenanalyse in dieser Arbeit ausschließlich deskriptiv eingesetzt wird, ist zu beachten, daß der Methodik die Annahme der Varianzhomogenität, das heißt der Gleichheit der Kovarianzmatrizen der einzelnen Gruppen, inhärent ist, da eigentlich nur dann die Bildung einer gepoolten SSP-Matrix W für die Streung innerhalb der Gruppen sinnvoll ist (KRZANOWSKI, 1988a).
54
Die nichtlineare, generalisierte, kanonische Analyse, die auf GIFI, 1990, zurückgeht, kann als Verallgemeinerung der kanonischen Korrelationsanalyse verstanden werden; das heißt, es geht um die Bestimmung der Beziehungen von Variablensets, also um den Versuch durch die gleichzeitige Betrachtung der Beziehungen der Variablensets untereinander, so viel wie möglich der vorhandenen Variabilität durch Linearkombinationen der Variablensets zu ‘erklären. Im Gegensatz zur linearen Korrelationsanalyse können aber mehr als zwei Variablensets gleichzeitig betrachtet werden und Variablen, die auf beliebigen Skalenniveaus vorliegen, können in die Analyse miteinbezogen werden, nicht nur intervall- und verhältnisskalierte Variablen wie in der linearen, kanonischen Korrelationsanalyse (HEISER & MEULMANN, 1995). Eine Umsetzung der Methodik in statistische Software liegt mit dem Programm OVERALS vor (SPSS, 1994).
Die generalisierte kanonische Analyse zählt zu den Verfahren der optimalen Skalierung, die im wesentlichen durch drei Aspekte charakterisiert sind (GIFI, 1990). Zum einen beinhalten diese Verfahren beliebige, nichtlineare Transformation der Ausgangsvariablen, die zuvor in eine Indikatormatrix (siehe 2.1.3) umgewandelt werden. Liegen die Variablen nicht ursprünglich nominal- oder ordinalskaliert vor ist also eine entsprechende Klassenbildung vorzunehmen, zum Beispiel eine einfache Rangtransformation. Das zweite Charakteristikum ist die Verwendung eines alternierenden, kleinste Quadrate Algorithmus zur Ermittlung der Objektwerte<27> und Variablenquantifikationen, das heißt der optimalen Transformation für die Ausgangsvariablen. Die Ermittlung der Variablenquantifikationen errfolgt auf iterativem Weg, wobei die Abweichungen zwischen Objektwerten und den Werten der quantifizierten Ausgangsvariablen in einer gewählten Dimensionalität minimiert werden. Schließlich, und das ist der dritte Aspekt, können in der Analyse bestimmte Begrenzungen im Rahmen der Transformationen vorgegeben werden, je nachdem auf welchem Skalenniveau die Daten analysiert werden sollen, unabhängig vom Skalenniveau, auf dem sie gemessen werden. Unterschieden wird zwischen numerischem und ordinalen, sowie einfach und mehrfach nominalen Skalenniveau (genaue Definition siehe SPSS, 1994, KRZANOWSKI & MARRIOTT, 1994). Zur Interpretation der Lösung der nichtlinearen kanonischen Analyse kann die multiple Anpassung (multiple fit) der Variablen berechnet werden, die angibt, wie stark die Dimensionen durch die einzelnen Variablen beeinflußt werden und welche Variablen den stärksten diskriminatorischen Beitrag zur Trennung der Objekte liefern. Ebenfalls informativ sind die Komponentenladungen, die gleich den Korrelationen der quantifizierten Ausgangsvariablen und der Objektwerte sind. Die Loss-Werte je Variablenset geben schließlich an, wie gut beziehungsweise wie schlecht die Übereinstimmung zwischen den im Algorithmus ermittelten Objektwerten und den Objektwerten bei Verwendung der optimal quantifizierten Variablen ist. Die Minimierung dieses
55
Unterschieds ist das Ziel des Iterationsprozesses der nichtlinearen kanonischen Analyse. Das Gegenstück zum Loss ist der Fit der Analyselösung. Loss und Fit summieren sich zur Anzahl der betrachteten Dimensionen. Die Loss-Werte sind, ähnlich wie die stress-Werte in der ordinalen mehrdimensionalen Skalierung, ein Maßstab für die Güte der dimensionserniedrigten Darstellung, je niedriger der Loss ist, desto besser ist die Darstellung.56
Ein Begriff wird in der Philosophie als eine gedankliche Einheit mit einem bestimmtem Begriffsinhalt und einem bestimmten Begriffsumfang verstanden. In der formalen Begriffsanalyse geht es um die mathematische Formalisierung dieses Begriffsverständnisses mit der Bereitstellung eines flexiblen Instruments der Wissenskommunikation. WILLE, 1982, gilt als Begründer der formalen Begriffsanalyse, die von ihm und der Forschungsgruppe Begriffsanalyse der Technischen Hochschule Darmstadt kontinuierlich weiterentwickelt wird. Von ihren Entwicklern wird die formale Begriffsanalyse als eine in der pragmatischen Philosophie verwurzelte Methode verstanden, die ein besonderes Augenmerk darauf richtet, daß die entwickelte Methodik immer und nachvollziehbar im Bezug zur Wirklichkeit steht. Die formale Behandlung von Daten soll sich demnach nicht vom allgemeinen Verständnis der Daten lösen. Auf eine einfache Rekonstruktion der in der Analyse verwendeten Orginaldaten wird Wert gelegt, damit bei der Interpretation der Analyseergebnisse der ursprüngliche, inhaltliche Zusammenhang immer faßbar bleibt (KOLLEWE et al., 1994).
Zunächst sollen die konzeptionellen Grundlagen der formalen Begriffsanalyse kurz dargestellt werden (2.4.1.1). Die für die Datenanalyse wichtigen Liniendiagramme, die das wesenliche Kommunikationsintrument der formalen Begriffsanalyse sind, werden unter 2.4.1.2 erläutert. Umfangreiche Datensätze lassen sich zweckmäßiger mit gestuften als mit einfachen Liniendiagrammen nach erfolgter begrifflicher Skalierung visualisieren (siehe 2.4.1.3). Die Darstellung in den folgenden Kapiteln erfolgt in Anlehnung an den Sprachgebrauch der Forschungsgruppe Begriffsanalyse.
Ein Begriff ist gekennzeichnet durch einen gewissen Begriffsumfang, das heißt durch alle Objekte oder Gegenstände, die zum Begriff gehören, beziehungsweise durch alle Merkmale oder Variablenausprägungen, die zum Begriff zählen. Werden alle Gegenstände g als Elemente einer Menge G und alle Merkmale m als Elemente einer Menge M bezeichnet, so ist ein formaler Kontext definiert durch K:=(G,M,I), wobei I für die binäre Relation zwischen den Elementen G und M steht und geschrieben werden kann gIm, sprich der Gegenstand g besitzt das Merkmal m. Ein formaler Begriff des formalen Kontext (G,M,I) mit dem Begriffsumfang A und dem Begriffsinhalt B, ist das Paar (A,B), für das gelten: A
G (sprich: A Teilmenge von G) und B
M, sowie A = B und B = A, wobei B in dieser Definition die Menge der gemeinsamen Merkmale der Gegenstände A (des Begriffsumfangs) ist, und A die Menge der Gegenstände, die alle die Merkmale B, das heißt den gleichen Begriffsinhalt, besitzen. Ein formaler Kontext ist also dadurch gekennzeichnet, daß man immer von der Menge der gemeinsamen Merkmale der Gegenstände eines Begriffes, zur Menge der Gegenstände, die diese Merkmale gemeinsam besitzen, gelangt.
Die Darstellung eines formalen Kontextes erfolgt als Kreuztabelle, wie zum Beispiel in Tabelle 4.
57
Tabelle 4: Beispiel einer Kreuztabelle eines formalen Kontext
|
Topfkultur |
Schnittkultur |
Kultur < 1 Jahr |
Kultur > 1 Jahr |
|
|
|
|
|
Gerbera |
|
x |
|
x |
Dianthus |
|
x |
|
x |
Chrysanthemum |
|
x |
x |
|
Pelargonium |
x |
|
x |
|
Lilium |
|
x |
x |
|
Ist nun zum Beispiel A {Gerbera, Dianthus}, so ist A {Schnittkultur, Kultur > 1 Jahr}. Für B {Schnittkultur, Kultur > 1 Jahr} gilt B {Gerbera, Dianthus}. Der Begriff (A,B), in diesem Beispiel, hat also den Begriffsumfang Gerbera und Dianthus und den Begriffsinhalt Schnittkultur mit mehr als einem Jahr Kulturdauer.
Weiter gilt, daß es unter allen Begriffen eines Kontextes eine hierarchische Ordnung in Ober- und Unterbegriffe mit folgender Beziehung gibt:
, das heißt also, wenn der Begriff
ein Unterbegriff des Begriffes
ist, so folgt daraus, das die Gegenstandsmenge
die Gegenstandsmenge
einschließt, und die Merkmalsmenge
die Merkmalsmenge
einschließt. So ist im Beispiel der Begriff
{Gerbera, Chrysanthemum, Dianthus},
{Schnittkultur}, ein Oberbegriff von
{Chrysanthemum},
{Schnittkultur, Kultur < 1 Jahr}. Die Ordnung aller Begriffe eines formalen Kontext ergibt einen Begriffsverband, der durch ein beschriftetes Liniendiagramm darstellbar ist, das in der Regel durch spezielle Algorithmen am Computer, und nur in sehr kleinen Datensätzen mit der Hand erstellt wird (ESZ, 1996, WILLE, 1987, WOLFF, 1988 und 1993).
WILLE, 1987, gibt einige Hinweise zum möglichen Einsatz von Begriffsverbänden, so unter anderem die hierarchische Klassifikation von Gegenständen (Objekten), die Untersuchung von Merkmalsimplikationen, die Bereitstellung einer Struktur zur Darstellung und Abfrage von Wissen oder die Bestimmung von Gegenständen. Der Ansatz der Klassifikation und Gruppierung von Gegenständen ist für die Datenanalyse neben der strukturierten Bereitstellung von Wissen wohl der wichtigste Bereich. Beispiele für praktische Anwendungen bieten SPANGENBERG & WOLFF, 1991, WOLFF, 1993, und WOLFF & STELLWANGEN, 1992. SPANGENBERG & WOLFF, 1991 stellen dabei Biplots und formale Begriffsanalyse in psychologischen Untersuchungen einander
58
gegenüber. LENGNINK, 1993, gibt eine Darstellung zur Behandlung von Proximitätsmatrizen.Ein Liniendiagramm ist die graphische Realisation eines Begriffsverbandes. Ein Beispiel, aufbauend auf dem Kontext in Tabelle 4 zeigt Abbildung 1. Die Punkte des Liniendiagrammes stehen für die Begriffe des Kontextes, die Linien zwischen den Punkten verdeutlichen die hierachische Ordnung des Begriffsverbandes, das heißt eine aufsteigende Linie verbindet Unterbegriff mit Oberbegriff. Der oberste Punkt steht für einen alle Merkmale und Gegenstände umfassenden Begriff, der
Abbildung 1: Einfaches Liniendiagramm, Daten aus Tabelle 4
unterste Punkt für einen (möglicherweise) weder Gegenstände noch Merkmale beinhaltenden Begriff.
Nicht jeder Begriff des Liniendiagramms muß beschriftet werden. Ein Punkt wird mit einem Gegenstandsnamen versehen, wenn dieser Kreis den Begriff g repräsentiert, das heißt den Begriff mit dem kleinsten Begriffsumfang, der den Gegenstand g enthält. Ebenso wird ein Punkt mit einem Merkmalsnamen versehen, wenn dieser Punkt den Begriff µm repräsentiert, das heißt den Begriff mit dem größten Begriffsinhalt, der das Merkmal m enthält. Es ergibt sich so die Leseregel, daß der Umfang eines Begriffes durch alle Gegenstände definiert ist, die auf einer absteigenden Linie vom Punkt des Begriffes aus zu erreichen sind, und daß der Inhalt eines Begriffes durch alle Merkmale definiert ist, die auf einer aufsteigenden Linie vom Punkt des Begriffes aus erreicht werden können. Im Beispiel in Abbildung 1 ergibt sich also für den mit dem Pfeil gekennzeichneten Begriff der Begriffsumfang pelargonium und der Begriffsinhalt topfkultur und kultur < 1 jahr.
Als Folge der hierarchischen Ordnung ergibt sich zudem, daß ein Gegenstand genau alle diejenigen Merkmale besitzt, die mit einer aufsteigenden Linie vom Begriff, der die
59
Gegenstandsbezeichnung trägt, erreicht werden können, und daß ein Merkmal allen Gegenständen gemein ist, die mit einer absteigenden Linie vom Begriff, der die Merkmalsbezeichnung trägt, erreicht werden können. Das Liniendiagramm bildet somit den formalen Kontext ohne Informationsverlust ab. Je größer die Kontexte werden, desto schwerer lesbar wird jedoch das Liniendiagramm und es bietet sich die Verwendung gestufter Liniendiagramme an (WOLFF, 1993).In der Mehrzahl der auszuwertenden Daten handelt es sich nicht um einwertige, sondern um mehrwertige Kontexte, das heißt ein Merkmal kann zwei oder mehr Ausprägungen annehmen. Dies betrifft sowohl nominalskalierte und ordinalskalierte als auch, und in besonderem Umfang, verhältnis- oder intervallskalierte Variablen. Während jedoch bei nominal- und ordinalskalierten Variablen die einzelnen Merkmalsausprägungen bereits vorgegeben sind, ist bei der Bearbeitung von intervall- oder verhältnisskalierten Variablen eine gesonderte Klassenbildung vorzunehmen. Die Klassenbildung und die Bearbeitung des Kontexts im Sinne der Klassenbildung wird in der formalen Begriffsanalyse als begriffliche Skalierung bezeichnet. Die Auswahl einer geeigneten Skala richtet sich nach der Fragestellung in der jeweiligen Untersuchung. Die begriffliche Skalierung erfordert daher eine enge Zusammenarbeit zwischen dem sogenannten Präparator, der die technische und mathematische Aufarbeitung durchführt und dem eigentlichen Nutzer, der primär an den inhaltlichen Ergebnissen interessiert ist.
Der erste Schritt stellt die Entwicklung abstrakter Skalen dar. Verschiedene Grundtypen abstrakter Skalen sind in Tabelle 5 und Abbildung 2 kurz aufgeführt. Diese Auflistung ist natürlich nicht vollständig, und im Prinzip ist eine beliebig große Anzahl unterschiedlicher Skalentypen denkbar. Werden die abstrakten Skalen mit Bezeichnungen der Merkmale einer konkreten Datenbasis und den Deskriptoren<28> der Gegenstände versehen, so entstehen die konkreten Skalen (häufig führt natürlich auch der Weg von der konkreten zur abstrakten Skala). Die Zuordung von Gegenständen zu den Deskriptoren, entsprechend des mehrwertigen Kontexts, führt dann zu der realisierten Skala.
Die Gesamtheit der für den zu untersuchenden Kontext zutreffenden realisierten Skalen kann in Form gestufter Liniendiagramme dargestellt beziehungsweise nach und nach erkundet werden. Ein gestuftes Liniendiagramm entsteht, zum Beispiel im Fall von zwei Variablen, durch Ineinanderfügen mehrerer Begriffsverbände in der Art, daß das Liniendiagramm der einen Variablen ‘aufgeblasen wird (dies ergibt die Grobstruktur), und das Liniendiagramm der zweiten Variablen in dieses erste Liniendiagramm eingefügt wird (dies ergibt die Feinstruktur). Beispiele sind mehrfach in Kapitel 3 zu finden. Die Leseregel bleibt identisch zu der des einfachen Liniendiagramms, das heißt, ein Begriff
60
61
Tabelle 5: Einige typische Skalen in der begrifflichen Skalierung
Ordinalskala |
Merkmal/ Gegenstand |
>=1 |
>= 2 |
>= 3 |
>= 4 |
|
1 |
X |
|
|
|
|
2 |
X |
X |
|
|
|
3 |
X |
X |
X |
|
|
4 |
X |
X |
X |
X |
Biordinalskala |
Merkmal/ Gegenstand |
<= 3 |
<= 2 |
<= 1 |
>= 4 |
>= 5 |
>= 6 |
|
1 |
X |
X |
X |
|
|
|
|
2 |
|
X |
X |
|
|
|
|
3 |
|
|
X |
|
|
|
|
4 |
|
|
|
X |
|
|
|
5 |
|
|
|
X |
X |
|
|
6 |
|
|
|
X |
X |
X |
Interordinal-skala |
Merkmal/ Gegenstand |
billig |
nicht teuer |
mittel |
nicht billig |
teuer |
|
1 |
X |
X |
|
|
|
|
2 |
|
X |
X |
X |
|
|
3 |
|
|
|
X |
X |
Dichotome Skala |
Merkmal/ Gegenstand |
männlich |
weiblich |
|
1 |
X |
|
|
2 |
|
X |
Nominalskala |
Merkmal/ Gegenstand |
blau |
gelb |
grün |
|
1 |
X |
|
|
|
2 |
|
X |
|
|
3 |
|
|
X |
62
Abbildung 2: Einige typische Skalen in der begrifflichen Skalierung
Ordinalskala
|
Biordinalskala
|
Interordinalskala
|
Dihotome Skala
|
Nominalskala
|
|
63
Graphische Modelle dienen der Untersuchung und Darstellung multivariater Beziehungszusamenhänge auf Grundlage der bedingten Unabhängigkeit. Bedingte Unabhängigkeit ist zum Beispiel für die Variablen A, B und C gegeben, wenn gilt: AÐB|C, sprich A unabhängig B, gegeben C. Das Konzept der bedingten Unabhängigkeit überwindet die Probleme, die bei der paarweisen Betrachtung von Variablen auftreten können und die als Paradoxum nach Simpson bekannt sind (SIMPSON, 1951). Die Standardliteratur zu graphischen Modellen gibt verschiedene Beispiele für vorgetäuschte Beziehungen, die sich durch die zusätzliche Betrachtung einer weiteren Variablen als solche herausstellen (siehe zum Beispiel EDWARDS, 1995 oder WHITTAKER, 1990).
Zur Darstellung der Ergebnisse des graphischen Modellbildungsprozeses werden gerichtete oder ungerichtete Graphen oder Graphen mit gerichteten und ungerichteten Verbindungen verwendet, die ihre Quellen in der Graphentheorie haben (LAURITZEN, 1996) <29>. Zwei Variablen in einem graphischen Modell sind bedingt unabhängig, wenn sie nicht durch eine direkte Linie miteinander verbunden sind. Beispiele sind im Auswertungsteil zu finden.
Im Gegensatz zu der Mehrzahl der in dieser Arbeit besprochenen und eingesetzten Methoden, handelt es sich bei graphischen Modellen um im statistischen Sinne echte Modelle, das heißt, es werden Modelle gebildet, die die Beziehungen zwischen den untersuchten Variablen repräsentieren und deren Angemessenheit mit Hilfe probabilistischer Verfahren überprüft wird. Insofern sind graphische Modelle nicht frei von Annahmen, zum Beispiel zur Verteilung der Daten<30>. Vielmehr basiert der Modellbildungsprozeß auf der Durchführung von Signifikanztests zur Auswahl des oder der adäquaten Modelle (siehe unten), wobei die Richtigkeit oder Angemessenheit eines Modells natürlich auch und vor allem unter sachlogischen Gesichtspunkten zu betrachten ist und es das eine und richtige Modell für die zu untersuchenden Daten nicht geben kann. Diese Unsicherheit im Modellbildungsprozeß wird vor allem durch den EH-Algorithmus verdeutlicht (EDWARDS, 1995, siehe unten).
Je nach Datenherkunft lassen sich diskrete, kontinuierliche und gemischte graphische Modelle einsetzen. Diskrete graphische Modelle untersuchen die Wahrscheinlichkeiten der Zellhäufigkeiten von 2-, 3- oder Mehr-Wegetafeln nominal- oder ordinalskalierter Variablen. Sie sind eine
64
Unterordnung aller möglichen log-linearen Modelle (FIENBERG, 1980), deren Besonderheit darin liegt, daß, wenn zwischen zwei Variablen Unabhängigkeit festgestellt wird, also, um in der Sprache der log-linearen Modelle zu bleiben, die Zwei-Faktor-Wechselwirkung auf Null gesetzt wird, alle höherwertigen Wechselwirkungen, die diese Variablen beinhalten, ebenfalls gleich Null gesetzt werden. Höherwertige Wechselwirkungen werden also durch die Zwei-Faktor-Wechselwirkungen bestimmt. Wenn zum Beispiel im Fall der oben genannten drei Variablen A, B und C gilt, daß die Wechselwirkung zwischen B und C (BC) nicht signifikant ist, also gleich Null gesetzt wird, so gilt automatisch, daß die Drei-Faktor-Wechselwirkung ABC auch gleich Null gesetzt wird.Es gibt hierarchische log-lineare Modelle, die nicht graphisch sind. Das log-lineare (gesättigte) Modell ABC mit dem Graphen
ist graphisch, es beinhaltet alle Zwei-Faktor-Wechselwirkungen und damit auch die Drei-Faktor-Wechselwirkung. Das log-lineare Modell AB, AC, BC, ohne Drei-Faktor-Wechselwirkung, aber mit gleichem Graph, ist demgegenüber ein nicht graphisches, hierarchisches log-lineares Modell, da die Drei-Faktor-Wechselwirkung fehlt, obwohl alle Zwei-Faktor-Wechselwirkungen vorhanden sind (EDWARDS, 1995).
Kontinuierliche graphische Modelle dienen zur Analyse multinormalverteilter intervall- oder verhältnisskalierter Variablen, das heißt sie setzen das Vorliegen der Multinormalverteilung voraus. Zwei Variablen in kontinuierlichen graphische Modellen sind voneinander bedingt unabhängig, wenn die partiellen Korrelationen zwischen diesen Variablen, gegeben die übrigen Variablen, nicht signifikant sind, oder, was das gleiche ist, wenn die zu dem Variablenpaar gehörenden Eintragungen in der Inversen der Kovarianzmatrix (in der sogenannten Präzisionsmatrix) gleich Null gesetzt werden können. Im Gegensatz zu den diskreten graphischen Modellen gibt es keine hierarchischen, nicht-graphischen Modelle.
Der Einsatz gemischter graphischer Modelle ergibt sich bei der gleichzeitigen Verrechnung von diskreten und kontinuierlichen Daten. Die angenommene Verteilung der Daten entspricht der CG-Verteilung (Conditional Gaussian); das heißt, es wird angenommen, daß die Wahrscheinlichkeit, daß die diskrete Zufallsvariable I den Wert i annimmt (I = i),
ist, und daß die Verteilung der kontinuierlichen Zufallsvariablen Y, gegeben I = i, multivariat normal ist, mit Mittelwert
und Kovarianzmatrix
, das heißt sowohl der Mittelwert als auch die Kovarianzmatrix sind bedingt durch i.
Um zu einem graphischen Modell zu gelangen, ist ein Modellbildungsprozeß notwendig, der sowohl
65
durch seine Vorgehensweise als auch durch die Auswahl eines bestimmten Hypothesentests charakterisiert ist. An Vorgehensweisen lassen sich die Rückwärts-Elimination, die Vorwärts-Selektion und der EH-Algorithmus unterscheiden. Die Rückwärts-Elimination geht vom vollen Modell aus (das heißt es bestehen Wechselwirkungen zwischen allen Variablen und damit direkte Verbindungen im Graphen) und entfernt sukzessive die am wenigsten signifikanten Verbindungen zwischen zwei Variablen. Der Anpassungsverlust beim Vergleich zweier aufeinanderfolgender, hierarchischer Modelle ist dann ein Maßstab für die Annahme oder Ablehnung des gebildeten Modells. Die Vorwärts-Selektion geht entsprechend vor, wählt jedoch als Ausgangspunkt das Modell völliger Unabhängigkeit zwischen den Variablen und fügt diesem Modell nach und nach die am höchsten signifikanten Variablenverbindungen zu, bis ein weiteres Hinzufügen keine signifikante Verbesserung des Modells mehr erbringt. Es ist offensichtlich, daß mit beiden Methoden zwar Modelle gefunden werden können, die zu einer mit den Daten vereinbaren Darstellung führen, daß aber auch eine Vielzahl an anderen Modellen, die ebensogut an die vorliegenden Daten angepaßt werden könnten, durch das schrittweise Vorgehen übersehen werden können. Eine Alternative bietet der EH-Algorithmus. Es handelt sich um einen Suchalgorithmus, der eine große Anzahl an Modellen untersucht und daraufhin testet, ob die Modelle mit den Daten vereinbar sind oder nicht, und die Modelle dann als mögliche Modelle akzeptiert oder zurückweist (EDWARDS & HAVRÁNEK, 1985 und 1987). Eine Diskussion über die Vor- und Nachteile der unterschiedlichen Selektionsverfahren gibt SMITH, 1992.Schließlich ist eine Teststatistik für den Modellfindungsprozeß zu definieren. Verwendet wird in dieser Arbeit der
-Test.
wird berechnet als Differenz zwischen zwei miteinander zu vergleichenden, hierarchischen diskreten graphischen Modellen durch:
, wobei
die beobachtete Zellhäufigkeit in einer 3-Wege Tafel mit den diskreten Variablen A, B und C ist, die in die Klassen (j = 1 ... a), (k = 1 ... b) und (l = 1 ... c) eingeteilt sind, und
die Maximum Likelihood-Schätzung der Zellhäufigkeit unter Modell 1 (des einfacheren Modells) und
die Maximum Likelihood-Schätzung der Zellhäufigkeit unter Modell 0 (des komplexeren Modells) darstellt.
folgt asymptotisch der Chi-Quadratverteilung mit k Freiheitsgraden, wobei k gleich der Differenz an Freiheitgraden von Modell 0 minus Anzahl an Freiheitsgraden von Modell 1 ist (zu den exakten n Definitionen und Alternativen zu
siehe EDWARDS, 1995). Im Kontext dieser Arbeit ist vor allem zusätzlich darauf hinzuweisen, daß auf Grund der Vielzahl an Variablen und der im Vergleich zu den möglichen Variablenkombinationen geringen Zahl an Objekten, vielfach schwach besetzte Tabellen in diskreten graphischen Modellen mit vielen Zellen mit Nulleinträgen vorkommen. In einem solchen Fall ist auf exakte Testverfahren, zum Beispiel basierend auf Monte Carlo Simulationen, zurückzugreifen (Näheres zu exakten Tests in graphischen Modellen zum Beispiel in WHITTAKER, 1990).
Abschließend ist anzumerken, daß die allgemeinen, dem Verfasser zur Verfügung stehenden
66
Statistikprogramme (Genstat, S-Plus und SPSS), keine zufriedenstellende Behandlung graphischer Modelle ermöglichen. Eine gute Lösung bietet das Programm MIM, das für diese Arbeit nicht verfügbar ist. Da zudem ausschließlich diskrete graphische Modelle eingesetzt werden, erfolgt die Auswertung ausschließlich mit dem Programm DIGRAM (KREINER, 1989).67
Klassifikations- und Regressionsbäume (Baumdiagramme) bieten die Möglichkeit eine Menge von Objekten in möglichst homogene Segmente (Gruppen) zu unterteilen. Insofern besteht eine gewisse Ähnlichkeit zur Clusteranalyse (siehe 2.5.1.2). Baumdiagramme leisten aber, vor allem unter dem Gesichtspunkt der Datenvisualisierung, noch mehr. Die durch die Analyse entstehende Baumstruktur zeigt nämlich nicht nur auf, welche Segmente gebildet werden und welche Objekte den jeweiligen Segmenten zugeordnet werden, sondern auch, welche Variablen diese Segmente in erster Linie charakterisieren und welche Variablen aus der Anzahl aller, in einer Analyse betrachteten, Merkmalen, den stärksten segmentierenden Einfluß haben.
Klassifikations- und Regressionsbäume, die von BREIMAN et al., 1984, beschrieben werden und auch unter der Bezeichnung CART bekannt sind, eignen sich für die Analyse gemischter Datensätze, die sowohl diskrete (nominal- und ordinalskalierte) als auch kontinuierliche (intervall- und verhältnisskalierte) Variablen beinhalten. Um zu einem Baumdiagramm zu gelangen ist es zunächst erforderlich, eine Variable als die Zielvariable zu kennzeichnen. Ist die Zielvariable diskret, so wird von einem Klassifikationsbaum, ist sie kontinuierlich, von einem Regressionsbaum gesprochen. Eine diskrete Zielvariable sollte annähernd multinomialverteilt, eine kontinuierliche Zielvariable annähernd normalverteilt sein. Der Zielvariable gegenüber stehen die Prediktorvariablen, die ein beliebiges Skalenniveau aufweisen können und über die keine Verteilungsannahmen gemacht werden.
Das Verfahren, das zum Aufbau eines Baumdiagramms führt, wird als rekursive Partitionierung bezeichnet. Im ersten Schritt wird die Prediktorvariable gesucht, die bei einer Trennung der Objekte in zwei Gruppen zu einer möglichst großen Homogenität innerhalb und möglichst großen Heterogenität zwischen den Gruppen bezüglich der gewählten Zielvariablen führt. Diese Homogenität kann nach BREIMAN et al., 1984, zum Beispiel mit einem sogenannten Unreinheitsindex bestimmt werden; darüber hinaus existieren verschiedene andere Indizes, um den optimalen Aufspaltungswert zu bestimmen, die aber häufig zu sehr ähnlichen Ergebnissen führen. Die so gebildeten Segmente, die jetzt an einem sogenannten Terminalknoten liegen, werden ihrerseits nun wieder nach demselben Prinzip durch binäre Splits in zwei Untergruppen unterteilt, wobei im Laufe der Bildung des Baumdiagramms ein und dieselben Variablen an verschiedenen Stellen auftauchen können. Der Baum kann solange weiterwachsen, bis an einem Terminalknoten nur noch ein Objekt beziehungsweise nur Objekte mit identischen Werten bei der Zielvariablen vorliegen, so daß eine weitere Aufsplittung nicht möglich ist. Häufig stoppt der Entwicklungsprozeß jedoch schon früher, und zwar wenn eine bestimmte Anzahl Objekte an einem Terminalknoten unterschritten wird. Nach NAGEL et al., 1996, empfiehlt es sich keine weiteren Splits an einem Terminalknoten vorzunehmen, wenn bei n Objekten die Anzahl Objekte an einem Terminalknoten
ist. Der Schätzwert der Zielvariablen in einem Regressionsbaum errechnet sich als der Mittelwert der Zielvariablen der Objekte im Segment. Die Residuen sind die quadrierten Differenzen
68
von Schätzwert und den beobachteten Werten der Objekte. Die Summe der Residuen aller Terminalknoten geteilt durch die Anzahl der Terminalknoten, wird als mittlere Residuendevianz (mean residual deviance) bezeichnet.Um das Baumdiagramm übersichtlicher zu gestalten, ist es angebracht, den Baum zu ‘schneiden, das heißt untere Terminalknoten bis zu einem gewissen Punkt zu entfernen, so daß Segmente an den Terminalknoten entstehen, die noch weiter unterteilt werden könnten, darauf aber verzichtet wird, um die wesentlichen Aspekte des Baumdiagramms stärker hervorzuheben. An welcher Stelle jedoch ein Baumdiagramm optimal ‘geschnitten ist, kann nicht eindeutig beantwortet werden. Ein Hilfsmittel, sich einer sinnvollen Baumgröße zu nähern, ist das sogenannte cost complexity pruning. Je mehr Terminalknoten betrachtet werden, desto geringer ist die mittlere Residuendevianz. Der Grundgedanke des cost complexity pruning ist es nun, eine Abfolge von Baumstrukturen zu finden, die bei einer gegebenen Anzahl an Terminalknoten (in der Regel von maximal bis minimal möglicher Anzahl an Terminalknoten), die jeweilige Struktur mit der geringsten mittleren Residuendevianz sind. Mit Hilfe einer Graphik der mittleren Residuendevianzen auf der y- und der Anzahl an Terminalknoten auf der x-Achse läßt sich dann abschätzen, an welcher Stelle es zu starken Sprüngen, das heißt starken Zunahmen in der mittleren Residuendevianz kommt und ansatzweise entscheiden, ob der Zugewinn an Einfachheit der Darstellung das weitere Anwachsen der mittleren Residuendevianzen noch wert ist (MATHSOFT, 1997). BREIMAN et al., 1984, geben weitere, auch numerische Hilfsmittel für die Auswahl des geeigneten Baumdiagramms.
Der CHAID (Chi Square Automatic Interaction Detector)-Algorithmus kann als Spezialfall der Klassifikations- und Regressionsbäume angesehen werden . Wesentliche Unterschiede lassen sich wie folgt zusammen fassen (KASS, 1980, SPSS, 1993):
69
70
In der Folge werden einige überwiegend graphisch eingesetzte Techniken angesprochen, die die bislang besprochenen Methoden ergänzen. Da sie an verschiedenen Stellen der Datenanalyse in Kapitel 3 eingesetzt werden, ist eine kurze Erwähnung angebracht; eine ausführliche Diskussion erfolgt jedoch nicht. Es werden besprochen
a-Andrews-Kurven
Andrews-Kurven gehen zurück auf ANDREWS, 1972. Jedem Objekt entspricht eine Andrews-Kurve, die als Funktion von
nach dem folgenden Prinzip berechnet wird:
, wobei die Anzahl der Variablen durch die Ordnung des Polynoms
bestimmt wird. Ein Plot mit den Kurven jedes Objekts im Bereich von
bis
ergibt den Andrews-Plot. Wichtige Eigenschaften der Andrews-Kurven sind:
wobei gilt
, mit
als der quadrierten euklidischen Distanz zwischen zwei Funktionen und
als der quadrierten euklidischen Distanz zwischen zwei Objekten<31>. Das heißt also, daß zwei Kurven, die nahe beieinander liegen, auch im Sinne der euklidischen Distanz nahe beieinander sind. So können Andrews-Kurven helfen, Gruppierungen oder sehr aus dem allgemeinen Rahmen fallende Objekte aufzuspüren. Hilfreich ist bisweilen auch der Andrews-Plot an einem bestimmten Punkt
. Als begrenzender Faktor für den Einsatz von Andrews-Kurven ist die Tatsache anzusehen, daß schon bei einer nur moderaten Anzahl an Objekten ein recht undeutliches Bild entstehen kann. Ein zweites Problem liegt darin begründet, daß die Reihenfolge, in der die Variablen in die Funktion eingehen, Einfluß auf den Funktionswert hat. Die ersten
71
Variablen haben in der Darstellung eine stärkeres Gewicht als später folgende Variablen, so daß es ratsam ist die Reihenfolge der Variablen so zu gestalten, daß die wichtigsten Variablen am Anfang stehen. Wo eine natürliche Reihenfolge nicht gegeben ist, ist die Durchführung einer Hauptkomponentenanalyse und die Bildung der Andrews-Kurven auf Grundlage der Hauptkomponentenwerte in Erwägung zu ziehen. Ein Beispiel für dieses Vorgehen liefert zum Beispiel ROVAN, 1994.b-Parallelkoordinatenplots
In Parallelkoordinatenplots (WEGMAN, 1990) werden die Variablen durch parallele, vertikale oder horizontale Achsen dargestellt. Die Werte, die ein Objekt bei den jeweiligen Variablen einnimmt, werden durch eine Linie miteinander verbunden. So ist es möglich die Informationen zu einer Vielzahl von Variablen und Objekte ohne Informationsverlust in einer Abbildung unterzubringen. Je nach Variablenstruktur können die Originalwerte oder transformierte Werte beziehungsweise die absoluten oder die prozentualen Werte verwendet werden.
Parallelkoordinatenplots ermöglichen einen Einblick in die Korrelation der Variablen untereinander. Kommt es zum Überkreuzen der Objektlinien, so spricht dies für eine negative Korrelation; liegt ein paralleler Verlauf vor, so läßt dies den Schluß auf positive Korrelation zu. Da allerdings nahe beieinander liegende Parallelkoordinatenachsen (der Variablen) leichter Aufschluß über Korrelationen geben als weiter entfernt liegende, empfiehlt sich die Permutation der Variablenachsen. Um einen guten Überblick über mögliche Korrelationen zu erhalten, ist es allerdings nach KARAMAN, 1995, nicht erforderlich alle p! Permutationen der Variablenpaare von p Variablen abzubilden. Wenn erreicht wird, daß jede Variablenachse mindestens einmal neben jeder anderen Variablenachse plaziert wird, ist dies in der Regel ausreichend und bereits mit ungefähr p/2 Abbildungen zu erreichen.
Möglicherweise bei den Objekten vorhandene Gruppierungen lassen sich, ähnlich wie bei Andrews-Kurven, durch vergleichbare Linienverläufe unterschiedlicher Objekte identifizieren. Wie beim Andrews-Plot führt aber die Unübersichtlichkeit der Abbildungen bei vielen Objekten und die Vielzahl der Permutationen der Variablen zu einer begrenzten Nutzbarkeit der Parallelkoordinatenplots, sofern nicht interaktive Explorationsmöglichkeiten, wie sie zum Beispiel INSELBERG, 1997, beschreibt, eingesetzt werden können.
a-Dendrogramme und Clusteranalyse
Dendrogramme verdeutlichen graphisch die Ergebnisse einer hierarchischen Clusteranalyse<32>. Je
72
nach Clusterverfahren ergeben sich unterschiedliche Dendrogrammstrukturen, die sowohl Informationen zur Nähe beziehungsweise Entfernung von Objekten zueinander geben, als auch Aufschlüsse über mögliche Gruppierungen zulassen. Ein Dendrogramm ordnet die Objekte so an, daß einander ähnliche Objekte nahe beieinander, einander weniger ähnliche Objekte weiter von einander entfernt auf einer Linie liegen.Es ist hierarchisch aufgebaut, das heißt Objektgruppierungen größerer Unähnlichkeit schließen Objektgruppierungen geringerer Unähnlichkeit ein. Geht die Gruppierung von einer Gesamtgruppe aus, die alle Objekte umfaßt und die nach und nach in Untergruppen unterteilt wird, so wird von einem divisiven Clusterverfahren gesprochen; geht die Gruppierung von einer der Anzahl der Objekte entsprechenden Zahl von Einzelgruppen (jedes Objekt entspricht also einer Gruppe) aus, die nach und nach durch weitere Objekte ergänzt wird, so liegt ein agglomeratives Clusterverfahren vor. Agglomerative Verfahren beherrschen die gängigen Vorgehensweisen in der Clusteranalyse, da sie weniger rechenintensiv als die divisiven Verfahren sind.
Ausgangspunkt für die Erstellung eines Dendrogramms ist eine, auf einem entsprechenden Proximitätsmaß beruhende, Proximitätsmatrix. Beim agglomerativen Vorgehen werden im ersten Schritt die beiden Objekte mit der geringsten Unähnlichkeit zu einer Gruppe zusammengefaßt; anschließend wird eine neue Proximitätsmatrix mit der neuen Gruppe an Stelle der zusammengefaßten Objekte berechnet und erneut auf der Grundlage dieser Proximitätsmatrix eine Zusammenführung von Objekten durchgeführt. Diese Schritte werden so lange wiederholt, bis nur noch eine Gruppe, die alle Objekte beinhaltet, vorliegt. Unterschiede zwischen hierarchischen Clusterverfahren beruhen nun auf unterschiedlichen Wegen, wie die Neuberechnung der Proximitätsmatrix nach der Zusammenführung von Objekten (wobei hier nun ein Objekt auch eine Gruppe von Objekten meinen kann) erfolgt. Einige Agglomerationskriterien sind in Tabelle 6 zusammengefaßt.
Weitere clusteranalytische Ansätze sind verschiedene Verfahren der modellbegründeten Clusteranalyse (BANFIELD & RAFTERY, 1992), sowie die nicht-hierarchische Klassifikation (Partitionierung um Medoide) und Fuzzy Clustering (KAUFMANN & ROUSSEEUW, 1990).
In der modellbegründeten Clusteranalyse wird mit Hilfe einer Maximum Likelihood Prozedur die Zuordnung eines Objekts zu einem Cluster (bei vorgegebener Clusterzahl) so vorgenommen, daß ein spezielles Kriterium optimiert wird, wobei das bekannteste wohl das Kriterium nach Ward ist, das zu einer Minimierung der Varianz innerhalb der gewählten Cluster führt. Andere Kriterien sind MATHSOFT, 1997, zu entnehmen. Die Anwendung unterschiedlicher Kriterien setzt unterschiedliche Annahmen zur Verteilung der Daten voraus (das Ward-Verfahren zum Beispiel die
73
Multinormalverteilung) und führt zu optimalen Ergebnissen unter der Annahme bestimmter Orientierungs-, Größen- und Formmerkmale der Cluster.In der Partition um Medoide erfolgt die Clusterung, bei Vorgabe der gewählten Clusteranzahl, um spezielle, in den verschiedenen Clustern ‘zentral angeordnete, repräsentative Objekte, den Medoiden. Diesen Medoiden werden weitere Objekte zugeordnet, die ihnen am ähnlichsten sind. Der Vorgang wird solange wiederholt, bis alle Objekte einem Cluster zugeordnet sind, und ein Austausch von Objekten zwischen unterschiedlichen Clustern zu keiner Verringerung der Summe der Unähnlichkeiten aller Objekte eines Clusters zum zugehörenden Medoid führt. K-means Clusterung geht entsprechend vor, verwendet aber statt einer Proximitätsmatrix die Originaldatenmatrix und minimiert nicht die Summe der Unähnlichkeiten, sondern die Summe der quadrierten, euklidischen Distanzen. Nach MATHSOFT, 1997, ist sie daher weniger robust als die Partition um Medoide.
Bei der Fuzzy Clusterung schließlich handelt es sich um eine unscharfe Gruppenzuordnung, das heißt die Objekte werden einem Cluster nur mit einer gewissen Wahrscheinlichkeit zugeordnet.
Da unterschiedliche Clusterverfahren zu unterschiedlichen Gruppierungen führen, unterliegen die Ergebnisse einer gewissen Beliebigkeit. Es gibt keine eindeutige Regel für das im Einzelfall geeig-nete und richtige Verfahren. Es ist zu beachten, daß die Clusteranalyse immer Objekte zu Gruppierungen zusammenfaßt, auch wenn den Objekten in Wirklichkeit überhaupt keine Gruppenstruktur zugrunde liegt. Jede Clusteranaylse teilt also eine (strukturierte oder unstrukturierte) Population in Gruppen ein. Zwei Fragen, die es daher vor Durchführung einer Clusteranalyse zu beantworten gilt, sind: Kann überhaupt von einer Clusterung der Population ausgegangen werden?, und wenn ja: Wieviel Cluster beschreiben die Population am besten?.
Eine Möglichkeit in der modellbegründeten Clusteranalyse die Anzahl der vorhandenen Cluster zu bestimmen und zu entscheiden, ob überhaupt eine Clusterstruktur vorliegt oder nicht, bietet die Berechnung sogenannter AWE<33>-Werte für jede Anzahl an möglichen Clustern (also von 1 bis n, mit n als der Anzahl der Objekte). Der höchste positive AWE-Wert gilt als Indiz für die Anzahl der in der Population tatsächlich vorhandenen Cluster. Liegen alle AWE-Werte unter Null, so ist dies ein Indiz, daß keine Clusterstruktur vorliegt.
Im Bereich der nicht-hierarchischen Klassifikation und der Fuzzy Clusterung kann die Erstellung von Silhouettenplots für eine unterschiedliche Anzahl von Clustern vorgenommen werden. Die Silhouettenbreite s(i) eines Objekts errechnet sich nach:
, mit a(i) als der mittleren Unähnlichkeit von Objekt i zu dem Cluster, dem es zugeordnet ist. Um b(i) zu berechnen ist es zunächst erforderlich die durchschnittliche Unähnlichkeit von Objekt i zu allen
74
übrigen gebildeten Clustern zu bilden. b(i) ist dann das Minimum dieser Unähnlichkeiten. Ein Wert vons(i) = 1 entspricht einer sehr guten, ein Wert von s(i) = -1 einer sehr schlechten Klassifikation und der Wert s(i) = 0, deutet auf eine Lage des Objekts zwischen zwei Clustern hin. Im Silhouettenplot werden die Objekte nach ihren s(i) Werten sortiert wiedergegeben. Die mittlere Silhouettenbreite aller Objekte ist ein Hinweis auf die Güte Clusterlösung. Liegt sie unter 0,25, so ist dies ein Anzeichen für das Fehlen eine deutlichen Clusterstruktur. In der Fuzzy Clusterung kann zusätzlich der Dunn-Koeffizient betrachtet werden, der anzeigt, wie ‘fuzzy die Lösung ist. Er liegt immer im Bereich von 1/Anzahl Cluster (vollständig ‘fuzzy) bis 1 (vollständig ‘crisp, das heißt deutlich getrennt). Zu Grundlagen und genauer Berechnung der genannten Verfahren siehe MATHSOFT, 1997.
In der hierarchische Clusteranalyse dienen neben den Dendrogrammen auch Bannerplots zur Einschätzung der möglichen Anzahl an vorhandenen Gruppen. Heben sich Cluster sehr deutlich voneinander ab, so erscheint dies im Dendrogramm durch sehr kurze Linien bis zum Verschmelzungspunkt von Objekten eines Clusters und sehr lange Linien bis zum Verschmelzungspunkt eines anderen Clusters. Im Bannerplot werden die Verschmelzungspunkte durch horizontale Balken wiedergegeben. Sie beinhalten somit dieselbe Information wie Dendrogramme. Je stärker der Bannerplot durch diese Balken gefüllt bist, desto größer ist die Ähnlichkeit der verschiedenen Cluster, das heißt, desto geringer ist die Clusterstruktur der Gesamtheit der Objekte. Eine zusätzliche Information liefert der agglomerative Koeffizient. Wenn d(i) die mittlere Unähnlichkeit des Objekts i zu dem Cluster ist mit dem es zuerst verschmolzen wird, geteilt durch die Unähnlichkeit dieses Objekts bei der Verschmelzung im letzten Schritt des Clusteralgorithmus, so ist der agglomerative Koeffizient AC definiert als das Mittel aller 1 - d(i). Ein niedriger AC deutet an, daß eine Vergrößerung der Cluster nur zu einer geringen Zunahme der Unähnlichkeiten in diesen Clustern führt, was wiederum ein Indiz für eine recht undeutliche Clusterstruktur ist. Eine analoge Definition gilt für den divisiven Koeffizienten (MATHSOFT, 1997).
BOCK, 1985, nennt alternative Verfahren zur Bestimmung des Vorliegens einer Clusterstruktur. KRZANOWSKI & LAI, 1988, und MILLIGAN & COOPER, 1985, diskutieren die zweite der oben gestellten Fragen, nämlich die Frage nach der optimalen Anzahl an Clustern (wenn denn eine Clusterstruktur überhaupt vorliegt).
b-Multiple Spanning Trees
Multiple Spanning Trees stellen ebenfalls eine Möglichkeit der Repräsentation einer Proximitätsmatrix dar (GOWER & ROSS, 1969). Der Aufbau erfolgt auf iterativem Weg in der Art, daß jedes Objekt durch einen Punkt dargestellt wird, alle Objektpunkte mit Linien verbunden werden, ohne daß geschlossene Verbindungen entstehen, und die Summe der Längen der Verbindungslinien das Minimum aller möglichen Verbindungen darstellt. Die Länge der einzelnen
75
Liniensegmente entspricht den Werten der Proximitätsmatrix der Objekte. Die Winkel der Verbindungslinien sind in der Regel so zu wählen, daß eine übersichtliche Abbildung entsteht. Allerdings ist auch die Überlagerung des Multiple Spanning Trees über eine zweidimensionale Konfiguration zum Beispiel aus einer Hauptkoordinatenanlyse denkbar (siehe 2.1.2 und Auswertungen in Kapitel 3).Der Multiple Spanning Tree verdeutlicht, ähnlich wie das Dendrogramm, Objektgruppierungen und visualisiert die Elemente einer Proximitätsmatrix. Er liefert dieselben Objektgruppierungen wie das Dendrogramm der Single-Link-Methode. Für die anderen Clusteranalyseverfahren stellt der Multiple Spanning Tree eine Kontrollmöglichkeit der Angemessenheit bestimmter Gruppenbildungen dar. Schließlich bietet sich die Überlagerung des Multiple Spanning Tree über die Objektabbildung, zum Beispiel einer Hauptkoordinatenanlyse, an. Durch die Dimensionserniedrigung schlecht abgebildete Objekte beziehungsweise Objektdistanzen können durch den Multiple Spanning Tree aufgedeckt werden. Liegen zum Beispiel in einer Hauptkoordinatenanlyse-Abbildung zwei Objekte dicht beieinander, während die Verbindung dieser Objekte im Multiple Spanning Tree nicht auf direktem Weg, sondern über Umwege, das heißt über ein oder mehrere andere Objekte erfolgt, so läßt dies den Schluß auf einer Mißrepräsentation der Objektdistanz in der zweidimensionalen Abbildung zu.
Weiterentwicklungen im Bereich der Multiple Spannung Trees, vor allem auch der Einsatz im Bereich der interaktiven Graphik beschreibt SCHILLER, 1996.
a-Scatterplots
Um die Beziehung zweier Variablen zueinander darzustellen, ist der Scatterplot ein vielfach eingesetztes graphisches Mittel. Er gibt Hinweise auf Beziehungen zwischen den Variablen, auf Gruppierungen bei den Objekten, auf die Verteilung der Werte und auf Ausreißer. Speziell um Beziehungen zwischen Variablen zu verdeutlichen, erfolgt häufig eine Kurvenanpassung an den Punkteschwarm im Scatterplot. Darüber hinaus tragen zu einer effektiven Gestaltung eines Scatterplots das Banking, Jittering und Slicing bei (nach CLEVELAND, 1993).
76
Liegt eine weitere, eine dritte Variable vor, so ist eine Scatterplot-Darstellung in drei Dimensionen möglich. Allerdings sind dreidimensionale Scatterplots bei weitem schwerer zu lesen als zweidimensionale. So ist zum Beispiel die Zuordnung von Werten zu einzelnen Punkten im dreidimensionalen Scatterplot recht schwierig. Zu den in Graphikprogrammen üblichen Hilfsmitteln, um auch dreidimensionale Scatterplots besser lesbar zu machen, zählen die Möglichkeiten der Rotation, Farbkodierung, Verknüpfung mit Ausgangsdaten, Rahmengebung und ähnliches.
Häufig übersichtlicher als dreidimensionale Scatterplots sind Scatterplotmatrizen, eine Zusammenfassung aller Scatterplots der drei (oder mehr) betrachteten Variablen in einer Abbildung. Während die Diagonale der Scatterplotmatrix die Variablenbenennungen enthält, sind die einzelnen Scatterplots aller Variablenpaare sowohl oberhalb als auch unterhalb der Diagonalen abgebildet. Die Scatterplots sind mit entsprechenden Skalen und Referenzlinien zu versehen, um die Les- und Interpretierbarkeit zu verbessern. Die Inspektion einer Scatterplotmatrix kann darüber hinaus durch interaktive, graphische Instrumente vertieft werden.
b-Trellis-Displays
Trellis-Displays, die auch als Co-Plots (conditioning plots) bezeichnet werden, erweitern noch die Möglichkeiten der Scatterplotmatrizen, mehrdimensionale Sachverhalte in einer Abbildung
77
aufzuzeigen. Die Grundlagen werden von BECKER et al., 1994, und CLEVELAND, 1993, erläutert. THEUS, 1996, vergleicht Trellis-Displays und interaktive Graphik.Es handelt sich bei Trellis-Displays um eine nach einem bestimmten Schema aufgebaute Anordnung von Einzelgraphiken, die nach THEUS, 1996, Informationen von bis zu acht Variablen auf einer (DIN A4) Seite darstellen können. Zur Spezifikation eines Trellis-Displays gehört die Angabe der verwendeten Daten, die graphische Methode der Einzelgraphiken (zum Beispiel Scatterplots, Linienplots, Boxplots), die Benennung der zwei- (oder drei) Achsenvariablen und die Benennung der konditionierenden Variablen. Die konditionierenden Variablen können nominal- oder ordinalsklierte Variablen, oder intervall- beziehungsweise verhältnisskalierte Variablen sein, die zuvor in Klassen eingeteilt werden, zum Beispiel nach Maßgabe des equal-count-Algorithmus. Durch die konditionierenden Variablen können jeweils Bereiche für diese Variablen festgelegt werden, in denen die Werte der Achsenvariablen abgebildet werden sollen. Die Definition der Variablen als konditionierende Variablen und Achsenvariablen ist im Prinzip beliebig und kann daher zu einer Vielzahl von Trellis-Displays mit jeweils unterschiedlichen Festlegungen führen. Je größer die Variablenzahl, desto schwieriger wird es einen Gesamteinblick, in allen möglichen Variablenkombinationen zu bekommen. Die Klassenbildung bei intervall- oder verhältnisskalierten Variablen unterliegt hier, wie auch in anderen Methoden, zum Beispiel der Korrespondenzanalyse, einer gewissen Subjektivität.
Referenzlinien, die nicht mit bestimmten Achsenwerten übereinstimmen müssen, können hilfreich sein, um Werte zwischen Einzelgraphiken zu vergleichen.
Ein Verfahren, das im Auswertungteil häufig eingesetzt wird, ist die Anpassung sogenannter Loess-Linien an einen Punkteschwarm in den Panels eines Trellis-Displays. Die Loess-Linien werden an Stelle parametrischer Regressionslinien (zum Beispiel einer linearen Kleinste-Quadrate-Regression) gewählt, da sie weniger stark auf Extremwerte und Ausreißer, reagieren. Loess steht für local regression und wird in CLEVELAND, 1993, beschrieben. An Stelle einer einmaligen Kurvenanpassung an alle Werte, erfolgt eine schrittweise, lokale Kurvenanpassung im Bereich jedes einzelnen Punktes, unter Berücksichtigung des Gewichts der ihn umgebenden Punkte, wobei näherliegende Punkte ein höheres Gewicht haben als weiter entfernt liegende. Die lokale Anpassung erfolgt so mit einer gewichteten linearen oder quadratischen Kleinste-Quadrate-Regression und ergibt einen Loess-Schätzer für den gewählten Punkt. Dieser Vorgang wird für alle Punkte wiederholt. Die Loess-Schätzer werden dann durch Liniensegmente miteinander verbunden. Unterschiede in der Kurvenanpassung ergeben sich durch die Festlegung der Loess-Parameter, das heißt des Glättungsparameters, der festlegt wie groß der Bereich von Punkten ist, der in der lokalen Anpassung betrachtet werden soll<35>, und des Regressionsparameters, der bestimmt, ob
78
eine lokal lineare oder eine lokal quadratische Anpassung erfolgen soll. Schließlich können die Residuen zwischen beobachteten und geschätzten Werten noch in die Berechnung miteinbezogen werden wodurch dann auf iterativen Weg eine Minimierung der Residuen erreicht wird. Dieses Verfahren führt zu einer erhöhten Robustheit bei Vorliegen extremer Werte.Der Einsatz interaktiver Graphikprogramme wie zum Beispiel Manet oder Data Desk, ist eine wichtiger Schritt im Bereich der Datenanalyse, um Daten kennenzulernen und zu hinterfragen, beziehungsweise um entsprechende Hypothesen zu den Daten zu entwickeln. UNWIN, 1992, und THEUS, 1996, vermuten eine ständig zunehmende Bedeutung interaktiver Graphiken für die statistische Datenanlyse. Wesentliche Bestandteile interaktiver Graphikprogamme sind (CLEVELAND, 1993, NAGEL et al., 1992, OSTERMANN & WOLF-OSTERMANN., 1992):
Die zunehmende Leistungsgfähigkeit von Computern wird auch die Leistungsfähigkeit interaktiver graphischer Verfahren noch steigern. Die Faszination interaktiver Graphiken läßt sich jedoch nur schwer auf statische Dokumente wie Bücher übertragen. Daher sind sie zur Vermittlung von Untersuchungsergebnissen auf die Darstellung am Computer beschränkt.
Zur Darstellung mehrdimensionaler Sachverhalte im üblichen, zweidimensionalen Publikationsformat geben TUKEY & TUKEY, 1981, eine Vielzahl weiterer Hinweise. Dazu zählen die geeignete Auswahl von Symbolen, der Verzicht auf die Darstellung bestimmter Punkte und die Verwendung von Kontur- und Referenzlinien. Darüber hinaus sind Agglomeration von Punkten ähnlicher Werte möglich. Denkbar ist auch die Aufteilung einer Abbildung in viele einzelne Bereiche, die dann mit zusätzlichen Informationen zu den Werten in diesem Bereich gefüllt werden können (sogenannte multiwindow plots). Auch können die Symbole zweier Variablen mit weiteren Informationen zum Beispiel über eine dritte Variable versehen werden (durch Linien, Polygone,
79
Farben, Zeichenstärke und ähnliches). Eine Anzahl von Variablen lassen sich auch als eigene Symbole darstellen, wobei die Gestaltung des Symbols von den Werten der Variablen abhängt. Hierzu zählen zum Beispiel die Starplots, Cherneyeff Gesichter, Andersons Glyphen, Kleiner-Hartigan-Bäume und viele andere mehr. Farbplots (Dshade-Plots) schließlich können Variablenwerte unterschiedlicher Objekte oder die Werte von Proximitätsmatrizen durch unterschiedliche Farben visualisieren.Darstellungsmöglichkeiten gibt es demnach in großer Zahl. Inwieweit einzelne Vorgehensweisen tatsächlich das Verständnis für die Daten vertiefen beziehungsweise mehrdimensionale Sachverhalte in einfachen Abbildungen zusammenfassen, ist nicht grundsätzlich zu beantworten. Vielmehr sind für den Einzelfall je nach Fragestellung sowie Objekt- und Variablenzahl geeignete Darstellungsformen zu wählen.
80
In den folgenden Kapiteln werden vier Bereiche kurz angesprochen, die von allgemeiner Bedeutung in der multivariaten Datenanalyse sind.
Der Überprüfung von Daten auf Vorliegen der Multinormalverteilung und der Varianzhomogenität kommt vor allem Bedeutung beim Einsatz schließender Verfahren zu (2.5.2.1). Die Verwendung robuster Methoden spielt in erster Linie dort eine Rolle, wo einzelne, untypische Objekte (Ausreißer) einen starken Einfluß auf die Lösung haben (2.5.2.2). Eng verknüpft mit der Thematik der Ausreißer ist die Frage nach dem Umgang mit fehlenden Werten in multivariaten Datensätzen (ebenfalls 2.5.2.2). Schließlich ist die Stabilität einer Analyselösung mit geeigneten Verfahren zu überprüfen (2.5.2.3).
a-Multinormalverteilungstests
Normalverteilungstests lassen sich im univariaten Fall nach KOZIOL, 1986, in vier Gruppen einteilen<36>:
Für den multivariaten Fall gibt es nun verschiedene Generalisierungen für die univariaten Verfahren.
So schlägt ROYSTON, 1983, die Inspektion der Shapiro-Wilk-Statistik für jede einzelne Variable vor und beschreibt ein Verfahren der Kombination der einzelnen Werte, um eine Aussage zur Multinormalverteilung zu treffen.
Auch auf der empirischen Verteilungsfunktion beruhende Verfahren lassen sich für den multivariaten Fall konstruieren, ihre praktische Bedeutung ist aber gering.
Mit der Berechnung von Schiefe und Kurtosis und der Erarbeitung aussagekräftiger Statistiken für die multivariable Fragestellung beschäftigen sich zum Beispiel MACHADO, 1983, MALKOVICH & AFIFI, 1973, und SMALL, 1980.
81
Daneben gibt es Multinormalverteilungstests, die kein univariates Gegenstück besitzen. Hierzu zählen die von GNANADESIKAN, 1977, ausführlich beschriebenen Winkel- und Radientests. Die Einzelheiten der verschiedenen Verfahren sind den angegebenen Quellen zu entnehmen.Ist Multinormalverteilung nicht gegeben und sollen auf der Annahme der Multinormalverteilung beruhende Verfahren eingesetzt werden, bietet sich eine entsprechende Transformation der Variablen an. ANDREWS et al., 1971, beschreiben Möglichkeiten zur Transformation zur Multinormalverteilung. Eine Transformation einzelner, nicht normalverteilter Variablen in normalverteilte transformierte Variablen, reicht in der Regel nicht aus, um zur Multinormalverteilung zu gelangen. Das Vorgehen kann aber zumindest zu einer symmetrischen Verteilung führen. Nach KRZANOWSKI, 1988a, ist die Anwendung schließender, auf der Annahme der Multinormalverteilung beruhender, Verfahren in vielen Fällen möglich, solange die Werte zumindest aus einer zentral symmetrischen Verteilung stammen.
b-Varianzhomogenitätstests
Liegen Daten gruppiert vor, so ist die Frage zu stellen, ob allen Gruppen eine gemeinsame Kovarianzmatrix zugrunde liegt. Die Überprüfung der Varianzhomogenität spielt zum Beispiel in der Diskriminanzanalyse oder in der multivariaten Varianzanalyse eine große Rolle, weniger allerdings in den Verfahren, die überwiegend in dieser Arbeit eingesetzt werden. Die multivariate Variante des Bartlett Tests, der allerdings auch sehr stark auf Abweichnungen von der Multinormalverteilung reagiert, stellt eine Möglichkeit dar, die Gleichheit mehrerer Kovarianzmatrizen zu testen (siehe zum Beispiel HAND & CROWDER, 1996). Ein graphisches Verfahren, aufbauend auf der Biplot-Methodologie, stellen CORSTEN & GABRIEL, 1976, vor.
Zusätzlich kann es zum Beispiel in der Hauptkomponentenanalyse wichtig sein zu klären, ob die einzelnen Variablen in etwa die gleiche Variabilität aufweisen, um eine Entscheidung bezüglich der Notwendigkeit einer Standardisierung der Variablen zu treffen. Verschiedene bekannte Verfahren, die die Homogenität von Varianzen prüfen sind neben dem Bartlett Test der Box-Scheffe-, Levene-, F-, oder Cochran-Test (RASCH et al., 1992, SOKAL & ROHLF, 1981). Diese Tests gehen allerdings vom Vergleich von Varianzen von voneinander unabhängigen Behandlungen aus. Die Überprüfung der Varianzhomogenität in Datensätzen mit untereinander korrelierten Variablen, wie sie in der dieser Arbeit vorliegen, wird zum Beispiel von HARRIS, 1985, besprochen. Er entwickelt vier Teststatistiken
. Im Fall von
und
wird mit der Logarithmus-Transformation gearbeitet und somit eine gewisse Stabilität gegenüber Abweichungen von der Multinormalverteilung, so sie denn vorliegt, Rechnung getragen. In großen Stichproben folgen die Teststatistiken der Chi-Quadrat-Verteilung mit
Freiheitsgraden.
a-Robuste Methoden
82
Häufig tauchen in einem Datensatz zweifelhafte oder untypische Werte auf. Diese können durch falsche Messungen verursacht sein, oder auf Übertragungsfehlern, einer falschen Kommasetzung oder ähnlichem beruhen. Natürlich kann es sich auch um tatsächlich extreme Werte handeln, die zwar richtig aufgezeichnet sind, aber eben aus dem allgemeinen Rahmen der übrigen Werte fallen. Wie richtig mit derartigen Ausreißern umzugehen ist, ist nicht unumstritten. SEBER, 1984, führt verschiedene Standpunkte aus. Eine Möglichkeit - die einzige, die an dieser Stelle vertieft wird - ist die Erarbeitung sogenannter robuster Schätzer beziehungsweise der Einsatz robuster Verfahren. Ein guter robuster Schätzer, zum Beispiel für die Kovarianzmatrix, weist bei einem der Multinormalverteilung folgenden Datensatz ohne untypische Werte eine hohe Effizienz gegenüber des besten unverzerrten Schätzers (also dem Maximum Likelihood Schätzer S fürIm Fall der Hauptkomponentenanalyse kann es daher zum Beispiel angebracht sein, an Stelle der Kovarianzmatrix S eine robuste Variante der Kovarianzmatrix zu verwenden. Verschiedene Vorschläge, wie man zu einem robusten Schätzer der Kovarianzmatrix gelangt, geben JACKSON, 1991, KRZANOWSKI & MARRIOTT, 1994, oder SEBER, 1984. Die Methode von CAMPBELL, 1980, soll kurz ausgeführt werden. Untypische Werte werden derart gehandhabt, daß ihnen ein geringes Gewicht
zufällt. Erhalten alle Objekte das Gewicht
so werden alle Objekte gleich und voll gewichtet. Erhält eine Objekt zum Beispiel das Gewicht
, so wird dieses Objekt überhaupt nicht berücksichtigt. Je untypischer ein Objekt ist, desto geringer ist
im Bereich von 0 bis 1. Es ergeben sich dann mit den Gewichten als robuste Schätzer für den Mittelwertsvektor
und die Kovarianzmatrix
,
und
. Die Gewichte errechnen sich auf iterativem Weg. Es erfolgt zunächst die Berechnung der Mahalanobis-Distanz
für Objekt i vom Zentroid nach
und daraus dann
, mit
beziehungsweise
, wobei für
gilt:
. Mit den Gewichten werden dann Zentroid und Kovarianzmatrix, sowie die daraus resultierende Mahalanobis-Distanz erneut berechnet und dieser Vorgang bis zur Konvergenz wiederholt. Für den Iterationsprozeß sind nun noch die Parameter
und
festzulegen. CAMPBELL, 1980, empfiehlt die folgenden Varianten:
83
Die Identifikation der untypischen Objekte erfolgt zum Beispiel durch die entsprechenden, geringen Gewichte. Als Faustzahlen für untypische Werte nennt CAMPBELL, 1980, ein Gewicht von < 0,3 bei
und
. Demgegenüber ist ein Gewicht von > 0,7 bei
und
ein Indiz für eine typische, nicht aus dem Rahmen fallende Einheit. Eine weitere Möglichkeit ist die Erstellung einer Graphik mit den der Größe nach geordneten Werten für
gegen die Quantile der Normalverteilung. Untypische Objekte können wie im normalen q-q-Plot auch durch Abweichungen vom linearen Verlauf erkannt werden.
Für die ordinale mehrdimensionalen Skalierung schildern SPENCE & LEWANDOWSKI, 1989, ein robustes Vorgehen, wobei es hier jedoch nicht um die Berechnung eines robusten Schätzers für die Proximitätsmatrix, sondern um die Anwendung eines robusten Algorithmus geht. Mit dem Programm TUFSCAL kann diese robuste Version der ordinalen mehrdimensionalen Skalierung durchgeführt werden.
b-Fehlende Werte
Treten fehlende Werte auf, so ist eine Möglichkeit ist der Verzicht auf alle Objekte, die bei einer Variablen einen fehlenden Wert aufweisen. Dies kann jedoch unter Umständen dazu führen, daß ein Großteil der vorhanden Informationen verworfen wird.
Eine zweite, ebenfalls unbefriedigende Lösung, ist die Verwendung der jeweiligen Mittelwerte der einzelnen Variablen an Stelle der fehlenden Werte. Insbesondere bei der Berechnung von Proximitätsmatrizen warnt KRZANOWSKI, 1988a, vor einem einfachen Ersatz der fehlenden Werte durch die Variablenmittelwerte, da diese fast immer zu einer Unterschätzung der tatsächlichen Proximitäten führen. Besser ist es dann schon für die Berechnung der Proximität zwischen zwei Objekten nur die Variablen ohne fehlende Werte zu verwenden, das heißt nur q von p Variablen zu verwenden (
), und dann den errechneten Wert mit dem Faktor
zu multiplizieren.
Daneben gibt es verschiedene Vorgehensweisen, die auf iterativem Weg einen geeigneten Wert für den fehlenden Wert suchen. Unter der Annahme der Multinormalverteilung ist zum Beispiel die Methode nach BEALE & LITTLE, 1975, zu nennen. Ohne Verteilungsannahmen kommt die direkt mit der Eigenwertzerlegung der Ausgangsmatrix arbeitende Methode von KRZANOWSKI, 1988b, aus. Einzelheiten dieser, oder anderer Möglichkeiten werden hier nicht angesprochen.
Eine Analyse wird als stabil bezeichnet, wenn ‘geringe Veränderungen in den Daten zu ‘geringen Veränderungen bei den Ergebnissen führen. GIFI, 1990, unterscheidet verschiedene Formen der Stabilität, so die analytische und algebraische sowie die Wiederholungsstabilität. Daneben weist er auf Stabilitätsgesichspunkte bezüglich der Daten- und Modellselektion hin. GREENACRE, 1984,
84
stellt interne Stabilität (Ausreißer) der externen Stabilität (Wiederholungsstabilität) gegenüber (siehe 2.1.3).Zwei Verfahren, die zur Überprüfung der Stabilität eingesetzt werden können, sind das Jackknifing und das Bootstrapping (SHAO & TU, 1996). Im Fall des Jackknifinig werden n Analysen mit jeweils
Objekten durchgeführt, das heißt nacheinander werden die Ausgangsdaten ohne die erste, dann ohne die zweite, dann ohne die dritte Einheit und so weiter analysiert. Beim Bootstrapping hingegen wird aus den Ausgangsdaten k-mal eine Stichprobe vom Umfang n mit Zurücklegen gezogen. Da zurückgelegt wird und alle Objekte die gleiche Wahrscheinlichkeit
haben in die Bootstrap-Stichprobe zu gelangen, werden in der Regel einige Objekte häufiger vertreten sein als andere.
Bei Verwendung von Hauptkomponenten- oder Korrespondenzanalyse können die Jackknife oder Bootstrap Lösungen, das heißt die bei den einzelnen Wiederholungen errechneten Ergebnisse der Objektwerte im dimensionserniedrigten Raum (in zwei Dimensionen), in die Konfiguration der Analyse aller Werte der Ausgangsmatrix projiziert werden. Durch Linien, die die äußersten Objektwerte eines Objekts miteinander verbinden, ergeben sich dann je Objekt konvexe Hüllen, die bei Bedarf noch ‘geschält werden müssen, um auf instabile Jackknife- oder Bootstrap-Stichproben zu reagieren (GREEN, 1981). Im Fall von Optimierungsverfahren ist eine einfache Projektion neuer Objektwerte in die ursprüngliche Objektkonfiguration nicht möglich. Allerdings können die Ergebnisse der wiederholten Analysen mit Hilfe der Prokrustes-Analyse miteinander verglichen werden. Dies empfiehlt sich auch dann, wenn viele Objekte vorliegen, da die Überlagerung einer Vielzahl von Stichproben letztlich zu einer großen Unübersichtlichkeit führen würde.
Daneben können Jackknife- und Bootstrap-Schätzer der Korrelations- oder Kovarianzmatrix auch den Ausgangspunkt einer Hauptkomponentenanalyse oder Faktoranalyse darstellen und somit eine robuste Alternative zu dem unter 2.5.2.2 vorgestellten Verfahren bieten.
85
Tabelle 6: Agglomerationskriterien unterschiedlicher Clusterverfahren
|
|
|
|
Clusterverfahren |
Agglomerationskriterum |
|
Single-Link-Methode |
Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die kleinste Unähnlichkeit zwischen zwei Objekten unterschiedlicher Objektgruppierungen (wobei anfänglich eine Objektgruppierung auch aus einem einzigen Objekt bestehen kann), das Minimum aller Unähnlichkeiten zwischen allen Objektgruppierungen darstellt. |
|
Complete-Link-Methode |
Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die größte Unähnlichkeit zwischen zwei Objekten unterschiedlicher Objektgruppierungen (wobei anfänglich eine Objektgruppierung auch aus einem einzigen Objekt bestehen kann), das Minimum aller Unähnlichkeiten zwischen allen Objektgrupppierungen darstellt. |
|
Group-Average-Methode |
Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die mittlere Unähnlichkeit zwischen zwei Objekten unterschiedlicher Objektgruppierungen (wobei anfänglich eine Objektgruppierung auch aus einem einzigen Objekt bestehen kann), das Minimum aller Unähnlichkeiten zwischen allen Objektgrupppierungen darstellt. |
|
Zentroid-Methode |
Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die quadrierte euklidische Distanz zwischen zwei Objekten unterschiedlicher Objektgruppierungen (wobei anfänglich eine Objektgruppierung auch aus einem einzigen Objekt bestehen kann), das Minimum aller Unähnlichkeiten zwischen allen Objektgrupppierungen darstellt. |
|
Median-Methode |
wie die Zentroid-Methode. Allerdings wird bei der Neuberechnung der Variablenwerte einer entstandenen Objektgruppierung nicht der Mittelwert (wie in allen übrigen Methoden auch), sondern der Median verwendet. |
|
Minimum-Variance-Methode |
Zwei Objekte oder Objektgruppierungen werden zu einer neuen Gruppierung zusammengefaßt, wenn die Zunahme der Varianz einer Objektgruppierung durch Hinzunahme einer weiteren Objektgruppierung das Minimum aller möglichen Agglomerationen darstellt. |
|
|
|
Fußnoten: | |
---|---|
Im wesentlichen Hypothesentests (zum Beispiel Test auf Gleichheit eines Eigenvektors der Stichprobe mit einem hypothetischen Eigenvektor der Grundgesamtheit) und die Berechnung von Vertrauensintervallen (zum Beispiel für den größten Eigenwert); siehe zum Beispiel ANDERSON, 1963, BARTLETT, 1950 & 1954, LAWLEY, 1956, SCHOTT, 1988. | |
RAMSAY, 1977, 1978, 1980 und 1982 sowie BRADY, 1985, geben einige Anregungen, wie die mehrdimensionale Skalierung durch schließende Verfahren erweitert werden kann. Das von Ramsay entwickelte Programm Multiscale beinhaltet viele dieser Erweiterungen (SCHIFFMAN et al., 1981). | |
Zu Grundlagen von Proximitätsmaßen siehe zum Beispiel JARDINE & SIBSON, 1972. | |
Speziell bei Untersuchungen, die auf Gruppierungen von Objekten hinzielen ist dies problematisch, da das Proximitätsmaß von einer gemeinsamen Kovarianzmatrix für alle Objekte ausgeht, es aber durchaus denkbar ist, daß unterschiedliche Gruppen - die aber a priori nicht bekannt sind - unterschiedliche Kovarianzmatrizen besitzen (GORDON, 1981). | |
Zur Verwendung der Bezeichnungen und Indices: d steht für ein Unähnlichkeitsmaß; die Indices r, u und t kennzeichnen drei Objekte. | |
Minimum Spanning Trees werden gesondert in 2.5.1.2 angesprochen. | |
Danach gilt zum Beispiel ein stress-Wert von 0,1 als befriedigend, von 0,05 als gut und von 0,025 als exzellent. | |
Besser und schlechter im Sinne der Anpassung der Konfiguration nach der Analyse an die wahre Konfiguration der Ausgangsdaten. | |
Grundsätzlich sind diese Gedanken natürlich auch auf die Lösungen anderer dimensionserniedrigender Analysen übertragbar. | |
Darüberhinaus spielt die Selektion der Variablen mit der größten Bedeutung, ähnlich wie in der multiplen Regressions- oder linearen Diskriminanzanalyse, eine Rolle. KRZANOWSKI, 1993, stellt verschiedene Verfahren zur Variablenselektion in der Korrespondenzanalyse vor, auf die in dieser Arbeit jedoch nicht eingegangen werden soll. | |
Neben der Faktoranalyse spielt auch die latente Strukturanalyse nominalskaliereter Variablen (BARTHOLOMEW, 1980, LAZARSFELD & HENRY, 1968) und die Analyse linearere Strukturgleichungsmodelle (JÖRESKOG & SÖRENBOM, 1993, PFEIFFER & SCHMIDT, 1987) in der Analyse von Modellen mit latenten Variablen eine Rolle. | |
Maximum Likelihood Factor Analysis; zu Einzelheiten der Berechnung der latenten Variablen, spezifischen Varianzen und der Faktorwerte, sowie der Modellannahmen siehe zum Beispiel KRZANOWSKI, 1988a. | |
Je nach Spannweite und Variablenart ergeben sich hier entsprechende Werte zum Beispiel in 10er oder 100er Schritten. | |
| |
An dieser Stelle wird nach wie vor von einer Distanzmatrix mit euklidischen Distanzen ausgegangen, das heißt es handelt sich bei D um eine Distanzmatrix euklidischer Distanzen. Werden nicht-euklidische, aber euklidisch-einbettbare Distanzen verwendet, sind nichtlineare Biplots zu berechnen (siehe 2.2.3). | |
Andere Distanzmaße als die Chi Quadrat-Distanz sind natürlich auch in der Korrespondenzanalyse möglich. Die Wichtung der Ausprägungen umgekehrt proportional zur Häufigkeit ihres Eintreffens - wie sie durch die Chi-Quadrat-Distanz erfolgt - ist sicher nicht in jedem Fall sinnvoll (GREENACRE, 1990). | |
Eine (notwendige) Bedingung für die euklidische Einbettbarkeit einer Distanzmatrix D ist, daß die zentrierte Matrix | |
Proximitätsmaße werden als additiv bezeichnet, wenn jede Variable unabhängig von den anderen Variablen einen Beitrag zum Proximitätsmaß liefert. Ein Proximitätsmaß wie die Mahalanobis-Distanz, die auch die Kovarianzen der Variablen untereinander berücksichtigt, ist also zum Beispiel in diesem Sinn nicht additiv. | |
Dieser Gedanke kann noch vertieft werden durch die sogenannte Winkel-Varianzanalyse (analysis of angular variation), wenn sich die Gruppen inhaltlich sinnvoll in Obergruppen einteilen lassen (J53ONES, 1983, SCHIFFMANN et al., 1981). | |
Daher auch die Bedeutung der kanonischen Variablen in der Diskriminanzanalyse, auf die in dieser Arbeit jedoch nicht eingegangen wird (siehe zum Beispiel KRZANOWSKI & MARRIOTT, 1994 und 1995) | |
Vergleichbar den Hauptkomponentenwerten für die Objekte in der Hauptkomponentenanalyse. | |
23 Deskriptoren stehen für eine Anzahl von Gegenständen, auf die über die Deskriptoren zugegriffen werden kann. | |
In dieser Arbeit werden, bedingt durch die zu untersuchenden Daten (siehe Kapitel 3), ausschließlich ungerichtete Graphen eingesetzt. Eine ausführliche Behandlung gerichteter Graphen geben COX & WERMUTH, 1996. | |
Über die geringe Qualität der in dieser Arbeit untersuchten Daten wird bereits in der Einführung hingewiesen. Die verrechneten Daten stellen in keinem Fall eine repräsentative Stichprobe einer hypothetischen Grundgesamtheit dar. Insofern sind die graphischen Modelle im Auswertungsteil auch ausschließlich deskriptiv und explorativ zu verstehen. | |
und zwar | |
Die Clusteranalyse stellt ein sehr umfangreiches Gebiet dar, das zum Beispiel von BACHER, 1994, ausführlich bearbeitet wird. Vorrangiges Ziel der Clusteranalyse ist die Gruppierung von Objekten aufgrund gemesener und beobachteter Merkmale. Methodische Einzelheiten werden in dieser Arbeit nicht besprochen. | |
AWE = Approximate Weight of Evidence | |
| |
Der Glättungsparameter liegt in der Regel zwische 0,25 und 1. Ein Glättungsparameter von 0,5 bedeutet zum Beispiel, daß bei Vorliegen von 20 Werten, 10 Werte zur lokalen Anpassung ausgewählt werden, und zwar die 10, die dem Wert, für den der Schätzer berechnet werden soll, am nächsten liegen. | |
Es ist anzumerken, daß für den Fall, daß Multinormalverteilung zutrifft, gilt, daß alle Variablen univariat normalverteilt sein müssen, daß aber die univariate Normalverteilung aller Variablen, allein noch kein ausreichender Hinweis auf das Vorliegen der Multinormalverteilung ist. |
© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 2.0 |
Zertifizierter Dokumentenserver der Humboldt-Universität zu Berlin |
HTML - Version erstellt am: Wed May 24 16:40:53 2000 |