Krusche, Stefan: Visualisierung und Analyse multivariater Daten in der gartenbaulichen Beratung - Methodik, Einsatz und Vergleich datenanalytischer Verfahren |
1
Die vorliegende Arbeit befaßt sich mit der Visualisierung, also der graphischen Abbildung, und der Analyse multivariater Daten. Sie ist motiviert durch die Vielzahl an multivariaten Datensätzen, mit denen die Beratung im Gartenbau, in der der Verfasser seit 1992 tätig ist, konfrontiert wird. Die verwendeten Daten, die mit den Methoden visualisiert und analysiert werden, stammen im weitesten Sinne aus der gartenbaulichen Beratung. Multivariate Datensätze tauchen unter anderem im gartenbaulichen Versuchswesen (Sortenversuche), im Einzelhandelsgartenbau-Marketing (Kundenstrukturanalysen), in der Düngerberatung (Substratanalysen), in der Betriebswirtschaft (Kennzahlenvergleiche) oder auch in so beratungstypischen Feldern wie betriebsbegleitenden Untersuchungen auf. Die Qualität der Daten, zum Beispiel im Hinblick auf Repräsentativität, Vollständigkeit oder Vorliegen der Multinormalverteilung, ist allerdings häufig gering. Aus diesem Grund beschränkt sich die Arbeit überwiegend auf beschreibende, nicht schließende Verfahren und ein exploratorisches Vorgehen (siehe 1.2).
Zum Einsatz kommen verschiedene, noch recht junge datenanalytische Verfahren, die zur Visualisierung eingesetzt werden können. Ziel der Arbeit ist es, diese weniger bekannten, datenanalytischen Verfahren für den Gartenbau zu erschließen und sowohl durch ihren Einsatz einen vertieften Einblick in die vorhandenen, gartenbaulich relevanten Daten zu gewinnen, als auch auf Grundlage der gewonnen Erfahrungen eine Beurteilung der Verfahren vornehmen zu können.
Zur Illustration der vorgestellten Methoden dienen:
Um die in diesen Daten enthaltenen Informationen zusammenzufassen und darzustellen und um die wesentlichen Aspekte von den unwesentlichen Aspekten zu trennen, gibt es eine Vielzahl von Verfahren, die in ihrer Mehrzahl der multivariaten Statistik zugerechnet werden. Mit ihrer Hilfe gelingt es, graphische Abbildungen zu entwickeln, die die unüberschaubare Datenfülle erfaßbar und interpretierbar macht.
Die Analyse multivariater Daten stellt ein sehr großes Teilgebiet der (statistischen) Datenanalyse dar. Einen umfassenden Überblick über die Vielzahl der Methoden geben KRZANOWSKI & MARRIOTT, 1994 und 1995. Neue Entwicklungen, vor allem auf dem Gebiet der beschreibenden, multivariaten Statistik, werden in KRZANOWSKI, 1995, diskutiert. Vor allem graphische Verfahren der Datenanalyse werden in NAGEL et al., 1996, besprochen. Die für diese Arbeit ausgewählten Methoden stellen nur einen Ausschnitt aus dem Bereich entsprechender Verfahren dar. Bei der
2
Methodenwahl wird vor allem Wert darauf gelegt, daß sich die Methoden zur Visualisierung eignen und somit:Da darüber hinaus in den vorliegenden Daten sowohl Objekte als auch Variablen in Objekt- beziehungsweise Variablengruppen vorliegen, oder eine derartige Gruppenbildung möglich und sinnvoll ist, widmet sich die Arbeit auch Methoden, die die Analyse gruppierter Daten in den Vordergrund stellen<1>. Schließlich ist der Überprüfung der Modellvoraussetzungen (soweit erforderlich), der Beurteilung der Darstellungsgüte, und der Einschätzung der Stabilität von graphischen Darstellungen Beachtung zu schenken.
Es werden daher besprochen und eingesetzt:
Verfahren der Gruppierung und Klassifizierung, wie zum Beispiel Clusteranalyse, Diskriminanzanalyse oder neuronale Netze, deren graphische Elemente eher von untergeordneter Bedeutung sind<2>, sowie multivariate Varianz- und Regressionsanalyse, deren konfirmatorische Bestandteile, zum Beispiel Hypothesentests für die Gleichheit von Mittelwertsvektoren unterschiedlicher Behandlungen, Modellannahmen machen, die durch die Beispielsdaten in der Regel verletzt werden, bleiben weitgehend unberücksichtigt.
Die Arbeit hat drei Schwerpunkte:
3
Für die exploratorische Datenanalyse im Rahmen dieser Arbeit werden die folgenden Arbeitshypothesen formuliert:
Die exploratorische Datenanalyse führt zu:
Für den weiteren Ablauf der Arbeit wird das folgende Vorgehen gewählt: nach einer kurzen Darstellung dessen, was unter exploratorischer Datenanalyse verstanden wird (im folgenden Abschnitt, 1.2), erfolgt zunächst die Betrachtung der Methodik der ausgewählten Verfahren (Kapitel 2); die besprochenen Methoden werden dann zur Analyse der oben genannten Datensätze eingesetzt (Kapitel 3); schließlich werden die Ergebnisse unter inhaltlichen und methodischen Gesichtspunkten diskutiert (Kapitel 4). Der sehr umfangreiche Bestand an Ergebnistabellen und Ergebnisabbildungen, der ein wesentliches Merkmal der Arbeit darstellt, ist separat im Anhang Teil I und Teil II zusammengefaßt, um den Text leichter lesbar zu gestalten. Einzelne methodische Bereiche, die durch die dem Verfasser vorliegende Software nicht zufriedenstellend gelöst werden können, werden durch Genstat-Codes aufgearbeitet und ergänzen somit das bereits in Genstat vorhandene multivariate Methodenspektrum<3>. Sie sind im Anhang Teil III zu finden (einschließlich der entsprechenden Codes und der Originaldaten).
4
Da sich die vorliegende Arbeit als Beitrag zur explorativen Datenanalyse gartenbaulicher Daten versteht, gilt es nun den Begriff explorative beziehungsweise exploratorische Datenanalyse zu definieren<4>. Als exploratorische Datenanalyse wird in dieser Arbeit eine Vorgehensweise in der Auswertung von Daten verstanden, in der es primär darum geht, die vorhandenen Daten kennenzulernen, sie aufzubereiten und darzustellen und aus den vorhandenen Daten Hypothesen und Fragestellungen zu entwickeln. Dabei wird in der Regel nicht von einem Wahrscheinlichkeitsmodell ausgegangen, obwohl einige der verwendeten Verfahren durchaus, zumindest implizit, bestimmte Modellannahmen machen (zum Beispiel die kanonische Variablenanalyse, siehe 2.3.3.2). Eine strenge Abgrenzung von Statistik und Datenanalyse, wie sie zum Beispiel von GIFI, 1990, formuliert wird, wird in dieser Arbeit nicht angestrebt. Vielmehr wird der Ansatz von CHATFIELD, 1995, der ein immer stärkeres Ineinanderfließen von explorativer und modellbegründeter, schließender Statistik, für wünschenswert und unvermeidbar hält, vertreten. Die Unterscheidung zwischen EDA (exploratory data analysis) und IDA (initial data analysis), die CHATFIELD, 1995, vornimmt, scheint aber eher künstlich zu sein. Folgt man den für die EDA aufgeführten Methodenkatalogen von BOCK, 1992, oder JAMBU, 1991, und vergleicht diese mit dem im Rahmen der IDA aufgeführten Katalog nach CHATFIELD, 1995, so ergeben sich sehr große Überschneidungen. Zudem ist die Festlegung auf ein bestimmtes Methodenspektrum zur Definition einer datenanalytischen Vorgehensweise ohnehin problematisch, da durch die ständige Weiter- und Neuentwicklung der Methodik, eine ständige Weiterentwicklung der entsprechenden Kataloge erfolgen muß. Wenn zum Beispiel BOROVCNIK, 1992, die Hauptkomponentenanalyse noch als nicht exploratorisch bezeichnet, da ihr die Interaktion zwischen Substanzwissen und mathematischer Darstellung fehlt, so ist dieser Einwand spätestens seit der Weiterentwicklung der Hauptkopmponentenanalyse-Biplots nach GOWER & HAND, 1996, überholt (siehe 2.2). Statt einer Abgrenzung zwischen unterschiedlichen Methodenspektra, wird vielmehr ein stark miteinander verbundenes Analysekonzept entwickelt. Durch die Integration der Computer in die Datenanalyse und die dadurch ständig wachsenden Möglichkeiten, vor allem in der graphischen Datenanalyse, bietet sich eine Durchmischung traditioneller, modellbegründeter, statistischer Verfahren, die von BOCK, 1992, unter dem Begriff CDA (confirmatory data analysis) zusammengefaßt werden, mit parameterfreien, graphischen, und rein deskriptiven Ansatzpunkten in der Auswertung von Daten an<5>.
5
Wie nahe sich explorative und konfirmatorische datenanalytische Ansätze sind, mag die Beschreibung der explorativen Datenanalyse (EDA) nach BOROVCNIK, 1992, verdeutlichen. Als wichtige Merkmale der EDA werden genannt: der Verzicht auf eine Trennung zwischen Theorie und Realität, weitgehende Freiheit von Annahmen, schlechte Eignung für arbeitsteilige Analyse, sowie Probleme bei automatischer Datenanalyse mit nachfolgender Interpretation. Mit Ausnahme der Freiheit von Modellannahmen, die aber eher die Eigenschaft einzelner Verfahren und weniger das Erkennungsmerkmal eines datenanalytischen Ansatzes ist, sind doch für eine Datenanalyse, mit welchen Werkzeugen auch immer, eine automatische Analyse ohne Interaktion zwischen Anwender und Datenanalytiker, oder eine Trennung von Theorie und Realität, die ja nur möglich ist, wenn bewußt an der Realität vorbeigedacht wird, kein wünschenswertes Vorgehen. Ob die explorative Datenanalyse tatsächlich durch eine andere Haltung zur Auswertung von Daten geprägt ist als die konfirmatorische Analyse, wie WOLF, 1992, es darzustellen versucht, mag ebenfalls bezweifelt werden. Das Modell der fünf Explorationsschritte in WOLF, 1992 (Seite 322), entspricht fast vollständig dem Vorschlag zum sinnvollen statistischen Arbeiten, den CHATFIELD, 1995 (Seite 7 und 8), formuliert.Eine Aufwertung schlampiger Analysen im Nachhinein durch Bezeichnung als explorative Studie ist nach BOCK, 1992, Seite 32, eine berechtigte Befürchtung. Darüber hinaus treten als besondere Probleme exploratorischer Analysen auf (BOCK, 1992): Überanpassung, Methodenartefakte, artifizielle interne Widersprüche, Übersehen komplizierter Zusammenhänge, Unschärfe der Begriffswahl und geringe Qualität der Daten, wobei die Frage berechtigt ist, ob dies wirklich ausschließlich und speziell Probleme explorativer Datenanalysen sind. Ebenso sollte die Forderung nach einer Ethik exploratorischer Datenanalyse (BOCK, 1992, Seite 31) nicht auf die explorative Datenanalyse beschränkt bleiben (oder geht BOCK, 1992, davon aus, daß diese Ethik im Bereich der CDA per se gegeben ist?).
Wenn sich das Konzept der hier vorgelegten Arbeit im wesentlichen im Bereich dessen bewegt, was gemeinhin als exploratorische Datenanalyse beschrieben wird, so ist diese Vorgehensweise in erster Linie durch die Herkunft der Daten vorgegeben, die eine andere Art der Analyse gar nicht in Betracht kommen läßt. Die Arbeit ist somit ‘data driven (SPRENT, 1997), sowohl in ihrer Konzeptionierung als auch in ihrer Durchführung. Andere Datenqualitäten mögen zu anderen datenanalytischen Vorgehensweisen führen und auch sehr viel konkretere Fragestellungen zu beantworten suchen. Insofern stellt sich für diese Arbeit nicht die Frage, ob die Analyse explorativ oder konfirmatorisch erfolgen soll, sondern vielmehr, ob sie explorativ und/oder konfirmatorisch erfolgen kann.
6
In dieser Arbeit wird der Standpunkt vertreten, daß die Grenzen zwischen unterschiedlichen datenanalytischen Ansätzen fließend sind, daß es in jeder Datenanalyse darauf ankommt, die in den Daten enthaltenen Informationen zu entdecken, zu beschreiben und darzustellen, und daß die Auswertungsmethodik vor allem durch Herkunft, Qualität und Struktur des Datenmaterials, sowie durch die zu beantwortenden Fragestellungen bestimmt wird. Es ist allerdings zu klären, ob die Vielzahl der verfügbaren datenanalytischen Verfahren, in der Lage ist, wichtige Informationen zu liefern, oder ob sie nicht auch zu Beliebigkeit und zunehmender Unklarheit der Ergebnisse führt. In diesem Zusammenhang ist darauf hinzuweisen, daß die Arbeit auch Merkmale aufweist, die der modellfreien Analyse derartig wenig ‘perfekter Daten inhärent sind, das heißt, es ist nicht zu erwarten, daß unterschiedliche Analyseschritte zu ausschließlich widerspruchsfreien Ergebnissen und immer eindeutig ‘richtigen Interpretationen führen. Sie ist in gewissem Sinne auch ein ‘data mining, das auf den verschiedensten Wegen versucht, interessante Aspekte in den Daten zu entdecken, ohne einen Allgemeingültigkeitsanspruch geltend machen zu können<6>.Als Schlußfolgerung ist für diese Arbeit und generell für das Vorgehen in der (explorativen) Datenanalyse festzuhalten:
Um diesen Anforderungen gerecht zu werden, ist dem Kapitel 3 (der Ergebnisdarstellung), das Kapitel 2 mit der Erläuterung der methodischen Grundlagen der verwendeten Verfahren vorangestellt.
Abschließend sollen einige Arbeiten aus dem Gartenbau erwähnt werden, die sich multivariater Verfahren bedienen und im weitesten Sinne als explorativ verstanden werden können. Die Diskussion um Sinn oder Unsinn multivariater Verfahren in Gartenbau und Landwirtschaft ist nicht neu und wird zum Beispiel bereits von FINNEY, 1956, oder PEARCE & HOLLAND, 1960, kontrovers geführt. FINNEY, 1956, folgert bezüglich des Einsatzes von multivariater Varianzanalyse und kanonischer Variablenanalyse (unter Bezugnahme auf eine Arbeit von STEEL, 1955):
... in field experiments and in many other research problems the type of multivariate analysis illustrated by Steel is usually inappropriate and often actively misleading. (Seite 71).
7
Demgegenüber äußern PEARCE & HOLLAND, 1960, mit Blick auf Hauptkomponenten- und Faktoranalyse in der Auswertung von Gehölzdaten die Meinung: It does appear, therefore, that multivariate methods can form a useful extension of the more accepted methods and can lead to a better understanding of the tree as a whole. (Seite 7). Unabhängig von diesen sehr unterschiedlichen Bewertungen ist festzustellen, daß multivariate Verfahren in vielen Bereichen Eingang in die gartenbauliche Forschung gefunden haben. Als Beispiele seien genannt: die Arbeiten von BAUER & TEUTTER, 1992, BENNE, 1990, CRUZ-CASTILLO et al., 1994, FISCHER, 1993, RATH, 1996, und STEINBACHER et al., 1995, im Bereich der Klassifikationsverfahren (Diskriminanzanalyse und neuronale Netze) zur Unterscheidung von zum Beispiel Sorten oder Wachstums- und Entwicklungsstadien; die Arbeiten von BEYL et al.,1995, DEGANI et al., 1995, FABBRI et al., 1995, NOVI et al., 1996, PEREIRA-LORENZO et al, 1996a und 1996b, und REN et al., 1995, die die Clusteranalyse und Dendrogramme auf dem Gebiet der Pflanzenzüchtung einsetzen; die Arbeiten von DEVER et al., 1996, FERNANDEZ et al., 1996, NIENHUIS et al., 1996, PARENT et al, 1994, PLOTTO et al., 1997, RUMAYOR-RODRÍGEZ, 1995, und TIVANG et al., 1996, in denen Verfahren der Dimensionserniedrigung und rudimentär auch Biplots, eingesetzt werden, um Nährstoffgehalte zu analysieren, unterschiedliche Genotypen zu identifizieren oder um die Ergebnisse von Geschmacksanalysen sichtbar zu machen. Umfassendere Studien, die mit einer Vielzahl von Verfahren arbeiten, und damit den explorativen Ansatz ihrer Arbeiten deutlich machen, sind zum Beispiel THOMAS, 1992, oder BARÁTH, 1993. Weitere Beispiele, die einen konkreten inhaltlichen Bezug zu den Auswertungen in dieser Arbeit haben, werden in Kapitel 3 angesprochen.Fußnoten: | |
---|---|
Datensätze, die eine Objekt- oder Variablengruppierung aufweisen werden in der vorliegenden Arbeit als gruppierte Daten bezeichnet. | |
Natürlich beinhaltet zum Beispiel die Clusteranalyse auch graphische Elemente, die durchaus in der Analyse genutzt werden (siehe 2.5.1.2). Primäres Ziel clusteranalytischer Verfahren ist aber nach BACHER, 1994, Seite 1, ... das Auffinden einer empirischen Klassifikation, und nicht die graphische Abbildung multivariater Daten. | |
Genstat ist ein in FORTRAN und C++ programmiertes, allgemeines Statistikpaket, das durch seine Flexibilität und Leistungsfähigkeit für die gegebene Arbeit angemessen ist. Die Möglichkeit der Implementierung eigener Befehlsabläufe in Form sogenannter Prozeduren ermöglicht eine sehr effiziente Einbindung neuer Methodologie in bestehende Programmstrukturen. Andere statistische Programme sind in der Lage ähnliches zu leisten (zum Beispiel SAS oder S-Plus) und der Einsatz von Genstat ist vor allem auf eine persönliche Präferenz des Verfassers zurückzuführen. | |
Exploratorisch und explorativ werden synonym gebraucht. | |
Die vorliegende Arbeit verzichtet allerdings fast vollständig auf die Anwendung schließender, statistischer Verfahren, wie zum Beispiel Signifikanztests (bis auf Ausnahmen, zum Beispiel in der Konstruktion von graphischen Modellen oder Klassifikations- und Regressionsbäumen, siehe 2.4.2 und 2.4.3), da die nicht nach auswertungstechnischen Gesichtspunkten gewonnenen Daten (keine Zufallsstichproben, keine Repräsentativität), nicht zu verallgemeinerten Schlüssen über hypothetische Populationen herangezogen werden sollen. Insofern bleiben selbst da, wo methodenbedingt Signifikanztests verwendet werden, diese ein exploratives Hilfsmittel. Das heißt aber nicht, daß nicht auch im Rahmen der explorativen Datenanalyse, so wie sie in dieser Arbeit verstanden wird, konfirmatorische Verfahren ihren Platz haben können, wenn die Annahmen für ihre Anwendung gegeben sind. | |
Allerdings wird der Begriff ‘data mining in der Regel im Zusammenhang mit noch sehr viel größeren Datensätzen als sie hier vorliegen, verwendet (CHATFIELD, 1997). |
© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 2.0 |
Zertifizierter Dokumentenserver der Humboldt-Universität zu Berlin |
HTML - Version erstellt am: Wed May 24 16:40:53 2000 |