Krusche, Stefan: Visualisierung und Analyse multivariater Daten in der gartenbaulichen Beratung - Methodik, Einsatz und Vergleich datenanalytischer Verfahren |
140
Der vorliegenden Arbeit liegt die Erwartung zugrunde, daß mit Hilfe explorativer datenanalytischer Verfahren einerseits aussagekräftige graphische Repräsentationen multivariater Daten geschaffen werden und andererseits inhaltliche Zusammenhänge aufgespürt, Hypothesen aufgestellt, voreilige Schlüsse vermieden und interessante Strukturen aufgedeckt werden können. Kapitel 4.1 faßt daher die inhaltlichen Ergebnisse aus Kapitel 3 noch einmal zusammen und formuliert Fragestellungen, die Anlaß zu weiteren Untersuchungen geben. Darüber hinaus ist eine Einschätzung der eingesetzten Methoden im Hinblick auf ihre ‘Nützlichkeit bei der Analyse der vorliegenden Daten erforderlich. Kapitel 4.2 faßt daher die methodischen Ergebnisse aus Kapitel 3 zusammen und diskutiert Stärken und Schwächen, sowie Möglichkeiten und Grenzen des eingesetzten Methodenspektrums, sofern dies nicht schon in Kapitel 2 geschehen ist. Kapitel 4.3 schließlich befaßt sich mit den Grenzen der vorgelegten Arbeit. Es erfolgt eine kritische Betrachtung des gewählten Vorgehens und eine Ausarbeitung von Vorschlägen für an diese Arbeit anschließende mögliche Fragestellungen und Forschungsprojekte.
Ziel in der Auswertung der Daten der betriebsbegleitenden Untersuchung bei Cyclamen (3.1) ist die Suche nach aussagekräftigen Darstellungsformen der gewonnenen Daten, die sowohl interessante Beobachtungen aufdecken als auch Diskussionen über die inhaltlichen Ergebnisse anregen, ohne sich von einzelnen auffälligen Werten blenden zu lassen. Alle gewählten Verfahren werden also in dem Sinne eingesetzt, daß sie zu einer Visualisierung der Daten beitragen. Das eine derartige Untersuchung nicht zu allgemeinen Schlußfolgerungen zur betrachteten Kultur dienen kann, wird bereits in Kapitel 3.1.1 erwähnt. Ein allgemeingültiger, erklärender Charakter der Beobachtungen wird nicht erwartet. Das die Auswahl der Verfahren notwendigerweise unvollständig bleiben muß, wird schon in der allgemeinen Einführung angesprochen. Die Methodenwahl folgt einer subjektiven Einschätzung des Verfassers, wie die Visualisierung und Analyse am besten vorangebracht werden kann. Als wichtige Ergebnisse der unterschiedlichen graphischen Verfahren treten hervor:
als allgemeine Ergebnisse in einer Vielzahl von Abbildungen:
141
einschätzbar.Auf dem Gebiet der Qualitätsbeurteilungen:
142
Auf dem Gebiet der Substratanalysewerte:Auf dem Gebiet der Kulturmaßnahmen:
Auf dem Gebiet der Strukturmerkmale:
Beim simultanen Vergleich aller Variablensets:
143
Variablen zwischen den Betrieben (3.1.2.5 b-);Die Auflistung zeigt, daß sich aus der Analyse der Daten eine Vielzahl Feststellungen ergibt, die in fast allen Fällen direkt aus der Betrachtung der gewählten Graphiken resultieren. Insofern wird das Ziel einer reichhaltigen und informativen Visualisierung erfüllt.
Einzelne Beobachtungen geben darüber hinaus Anregungen gezielte Versuche durchzuführen, zum Beispiel zur Steuerung der Schattierung, dem optimalen Endstand oder dem vorteilhaftesten Rückverhalten.
Allerdings verdeutlicht die betriebsbegleitende Untersuchung auch, daß einerseits die verschiedensten Kulturbedingungen in der Lage sind, vergleichbare Qualitäten zu produzieren, und andererseits sehr unterschiedliche Qualitäten aus Betrieben mit ähnlichen Kulturführungen stammen können. Effekte scheinen sich also gegeneinander aufzuheben, und partielle Rezepte, die in einem Betrieb zum Kulturerfolg führen, tun dies im anderen Betrieb noch lange nicht. Betriebsbegleitenden Untersuchungen kann in der Aufdeckung dieser Wechselwirkungen der Kulturbedingungen eine große Bedeutung zukommen, wenn es um die Verstehen von Kulturabläufen geht. Durch die Erfassung der Reaktion der Kultivateure auf unvorhergesehene Ereignisse läßt sich das Expertenwissen der Gärtner formalisieren. Eine erhebliche Grenze Neues durch betriebsbegleitende Untersuchungen zu lernen ist allerdings dadurch gegeben, daß jeder Betrieb, die ihm zur Verfügung gestellten Pflanzen so gut wie möglich kultivieren und letztendlich auch verkaufen will. Experimente in Betrieben, bei denen die Pflanzen Schaden nehmen könnten, ließen sich daher wohl nur mit zusätzlichen finanziellen Anreizen durchführen. Die Nachkontrolle experimenteller Ergebnisse in der betrieblichen Wirklichkeit durch betriebsbegleitende Untersuchungen kann aber zu einem erheblichen Zugewinn an Wissen über das Verhalten der Pflanzen und der Produzenten im Erzeugungsprozeß führen. Allerdings sind dann einige Anforderungen an die betriebsbegleitenden Untersuchungen zu stellen, die durch hier besprochene Untersuchung mit Cyclamen, nicht erfüllt werden. Dazu zählen: deutliche Erhöhung der Anzahl der beteiligten Betriebe; ständige Kontrolle und quantitative Erfassung von Klima- Ernährungs- und Wachstumsparametern; und Objektivierung der Qualitätsbeurteilung während und nach der Kultur.
Viele im Zusammenhang mit der betriebsbegleitenden Untersuchung gewonnenen Ergebnisse lassen zwei Schlußfolgerungen zu. Entweder sind Cyclamen relativ unempfindlich gegenüber unterschiedlichen Kulturmaßnahmen und -eingriffen und wachsen unter einer Vielzahl von
144
Bedingungen zu einem vergleichbaren Produkt heran, oder die Reaktion der Kultivateure sorgt für das entsprechende Zusammenspiel der Wachstumsfaktoren, so daß ein jeweils auf die betrieblichen Bedingungen abgestimmtes Umfeld entsteht, das je nach Reaktionsvermögen des Produzenten zu einer letztlich befriedigenden oder unbefriedigenden Qualität führt. Ein Beispiel hierfür könnten die Betriebe 12 und 14 liefern. Bei ‘Concerto am Kulturende erhalten beide Sorten mit einer Ausnahme übereinstimmende, relativ hohe, Boniturwerte (Abbildungen A3 und A9). In den einzelnen Variablensets weisen diese Betriebe stark voneinander abweichende Positionen auf, zum Beispiel bei der Ernährung (Abbildung A32), der durchschnittlichen Stärke der Schattierung (Abbildung A39 a)), der Gruppierung nach Kulturmaßnahmen (Abbildung A44 und A45), und den Strukturdaten Stellfläche und Bewässerungsverfahren (Abbildungen A52 und A54). Die Vermutung, die unterschiedliche Kulturführung schlage sich in einem veränderten Verhalten in der Haltbarkeitsprüfung nieder, mag durch die insgesamt etwas bessere Qualitätsbeurteilung von ‘Concerto bei Betrieb 14 in Woche 48 auf den ersten Blick eine Bestätigung finden. Bei ‘Sierra ist jedoch weder die Nähe der beiden Betriebe im Hinblick auf ihre Qualität zu beobachten (bei gleicher Kulturführung wie bei ‘Concerto), noch eine vergleichbare Umpositionierung von Woche 44 auf Woche 48 zu beobachten.Dies ist aber ein Einzelbeispiel, das nicht zur Verallgemeinerung Anlaß gibt. Um mehr durch das Vorgehen des Produzenten über Wachstum und Entwicklung von Cyclamen (und anderen Zierpflanzen) zu erfahren, ist eine Veränderung der betriebsbegleitenden Untersuchungen in der oben skizzierten Form ratsam. Erst dann kann geklärt werden, welche nachvollziehbaren Gesetzmäßigkeiten sich hinter der in dieser Arbeit beobachteten Variabilität verbergen, und ob der Kulturerfolg überhaupt, und wenn ja in welchen Toleranzbereichen und durch welche Kombination von Kulturbedingungen, durch die Kulturmaßnahmen beeinflußt wird. Da von einer derartigen Beeinflussung ausgegangen werden kann, die Klärung der Zusammenhänge aber sehr komplex ist, könnte ein gezielter und geplanter Ausbau betriebsbegleitender Untersuchungen mit exakten Aufzeichnungen sicherlich das Verständnis nicht nur für die Cyclamenkultur verbessern.
145
Während auch bei der Auswertung der Kennzahlen das Bemühen um aussagekräftige Formen der graphischen Darstellung in dieser Arbeit eine große Bedeutung haben, spielt die Besprechung und Analyse der inhaltlichen Zusammenhänge eine größere Rolle als in der Auswertung der betriebsbegleitenden Untersuchung, obwohl auch in diesem Kapitel darauf hingewiesen werden muß, daß es sich bei den Kennzahlen um eine wenig vollkommene Datengrundlage handelt, und viele der betrachteten Werte mit Aufzeichnungsungenauigkeiten und ähnlichen Defekten behaftet sein können<48>. Die Auswahl der Verfahren richtet sich daher im wesentlichen an konkreten Fragestellungen aus, die auch in den einzelnen Kapiteln genannt werden, wobei das Augenmerk in der Hauptsache auf Methoden gelegt wird, die in unterschiedlichen Formen Zusammenhänge zwischen Kennzahlen durch graphische Methoden transparent zu machen in der Lage sind. Es ist aber erneut zu betonen, daß es nicht das Ziel dieser Arbeit ist, eine komplette und in sich geschlossene Analyse der Kennzahlen zu liefern, sondern Anstöße zu geben, sich dem Kennzahlenkatalog auf unterschiedliche Weise zu nähern und exemplarisch darzustellen, wie durch die eingesetzten Verfahren Erkenntnisse gesammelt und Hypothesen formuliert werden können. Die inhaltlichen Feststellungen können daher sowohl bekannte Tatsachen bestätigen, als auch weniger beachtete Fragestellungen und Hypothesen aufwerfen, für die Erklärungsmuster bereits vorhanden sind oder auch nicht. Eine inhaltliche Auseinandersetzung mit den Kennzahlen ist also nicht Ziel dieser Arbeit und bleibt den Gartenbauökonomen vorbehalten. Es kann aber gezeigt werden, daß die beschriebenen explorativen datenanalytischen Verfahren in der Lage sind, Zusammenhänge nachvollziehbar zu untersuchen und darzustellen. Ohne erneut auf alle einzelnen Beobachtungen einzugehen, lassen sich einige der Ergebnisse aus den fünf Auswertungsschritten wie folgt zusammenfassen:
146
Auswertungen als Erfolgskennzahlen zusammengefaßt werden) und anderen Kennzahlen sind bei der Mehrzahl der ausgewählten Kennzahlen gering. Es stellt sich demnach die Frage, ob es nicht stärker mit den Erfolgskennzahlen in Zusammenhang stehende betriebliche Kennwerte gibt, deren Ermittlung sinnvoll wäre. Diese sind aber möglicherweise nicht den Buchführungsabschlüssen zu entnehmen (zum Beispiel Preisniveau des Absatzweges, Persönlichkeitsprofil des Unternehmers) (3.2.2.1).147
Kennzahlen in Gruppen erfolgreicher und weniger erfolgreicher Betriebe immer berücksichtigen, daß andere Kriterien zu anderen Eingruppierungen führen können und damit auch andere Zusammenhänge sichtbar machen würden (3.2.2.4).Die genannten Punkte sind als Diskussionsanregungen gedacht. Im Rahmen dieser Arbeit ist nicht beabsichtigt, die inhaltliche Richtigkeit und Relevanz aller Einzelheiten abschließend zu beurteilen. Es wird aber an verschiedenen Stellen der Auswertung der Kennzahlen verdeutlicht, daß unterschiedliche Betrachtungsweisen derselben Daten zu unterschiedlichen Schlußfolgerungen führen, und daß daher von einer Verallgemeinerung einzelner Auffälligkeiten Abstand genommen werden soll. Auch wird der eingeschränkte Informationsgehalt der Kennzahlen zur Klärung allgemeingültiger betriebswirtschaftlicher Zusammenhänge erneut unterstrichen (siehe zum
148
Beispiel auch BITSCH, 1994). Forderungen für eine Weiterentwicklung des Kennzahlenvergleichs, die sich aus dieser Arbeit ergeben, sind:149
Wo die Möglichkeiten und Grenzen der eingesetzten Methoden zur Datenanalyse liegen wird, ausführlich in Kapitel 2 dargestellt. Die dort erarbeiteten grundsätzlichen Aussagen bilden die Grundlage aller Auswertungen in Kapitel 3. In der Auswertung kann die Vielfältigkeit der Methoden demonstriert werden. Eine Beurteilung im Sinne einer guten oder einer schlechten Methode ist allerdings nicht möglich. Nur im Einzelfall kann entschieden werden, was gezeigt oder untersucht werden soll, und ob ein Verfahren zur gewünschten Darstellung geeignet ist oder nicht. In der vorgelegten Arbeit lassen sich drei Hauptgruppen von datenanalytische Ansätzen, die einen breiten Raum in der Auswertung und Darstellung der Daten einnehmen, unterscheiden. Erstens Visualisierung, zweitens Gruppierung und Segmentierung und drittens Untersuchung von Beziehungsgefügen von Variablen<49>.
Die Verfahren der Dimensionserniedriegung und ihre Darstellung in Form von Biplots (Kapitel 2.1 und 2.2) dienen der Sichtbarmachung von Informationen. Welches Verfahren gewählt wird, hängt von der vorhandenen Datenstruktur und der erwünschten Aussage ab. Bis zu einer bestimmten Anzahl an Merkmalen und Objekten ist die Biplotdarstellung in den Beispielen sinnvoll möglich. In der Auswertung der betriebsbegleitenden Untersuchung stößt man mit der Biplotmethodik nie an eine ernstzunehmende Darstellungsgrenze. Schwieriger wird es schon in der Analyse der Kennzahlen. Die Vielzahl an Objekten und Variablen, macht eine gemeinsame Darstellung schwierig. Eine Aufteilung in Gruppen oder eine Aufsplittung in Variablen- und Objektplots ist dann vorteilhaft, obwohl, vor allem für den Vergleich von Gruppen, eine visuelle Inspektion der Biplots alleine nicht mehr ausreicht um Gruppenunterschiede zu überprüfen, sondern formale Verfahren zur Untersuchung unterschiedlicher Gruppen in Anspruch genommen werden. Der Informationsgehalt aller Biplots ist hoch, wenn auch einschränkend festgestellt werden muß, daß mit der zweidimensionalen Approximation immer ein mehr oder weniger großer Informationsverlust einhergeht. Um die Güte der Abbildung einzuschätzen werden Screeplot, CUSUM-Diagramm, überlagerte Multiple Spanning Trees, Residuenanalysen, Stabilitätsprüfungen und unterschiedliche Verfahren zur Ermittlung der Anzahl der ‘wesentlichen Komponenten vorgeschlagen. Die in vielen Fällen erforderliche Standardisierung der Daten vor der Durchführung der Hauptkomponentenanlyse vermindert die Aussagekraft eines Hauptkomponentenbiplots, da es ja gerade die Ablesbarkeit der Orginalwerte an den Biplotachsen ist, die diese Darstellungsform so interessant macht. Mit Hilfe des entwickelten Genstat Codes wird dieses Problem allerdings überwunden. Unbefriedigend bleiben auch in dieser Arbeit die Darstellungsversuche in mehr als
150
zwei Dimensionen, obwohl durch die Andrews Kurven und konditionierten Hauptkomponentenwerteplots recht ansprechende Abbildungen geschaffen werden können. Insofern können die Methoden der Dimensionserniedrigung, so wie sie hier bearbeitet werden, als eine Bereicherung in der Darstellung von mehrdimensionalen Datensätzen in der gartenbaulichen Beratung angesehen werden, sofern, für den Fall, daß eine Identifizierung einzelner Objekte gewünscht wird, die Anzahl der Objekte nicht zu groß ist151
Hierarchische Liniendiagramme ermöglichen im wahrsten Sinne des Wortes eine Exploration umfangreicher Datensätze. Die Interaktivität der Liniendiagramme ermöglicht dem Benutzer beliebige Abfragekonstellationen herzustellen und die Daten nach Auffälligkeiten zu durchsuchen, ohne daß der direkte Bezug zu den Ausgangsdaten verloren geht. Obwohl theoretisch durch Liniendiagramme jeglicher Begriffsverband komplett und ohne Informationsverlust dargestellt werden kann, sind dem natürlich auch praktische Grenzen gesetzt. Desweiteren ist ihr Einsatz nur nach einer begrifflichen Skalierung möglich. Diese begriffliche Skalierung (oder auch die Klassenbildung für den Einsatz diskreter graphischer Modelle oder von CHAID) ist aber im Kontext der Kennzahlen durchaus sinnvoll und vertretbar. Es ist allerdings nicht so, daß die in dieser Arbeit gewählte begriffliche Skalierung die einzig richtige oder die wirklich beste ist. Sie soll aber den Anstoß dazu liefern eine begriffliche Skalierung für die Kennzahlen zu entwickeln. Nun mag eine Klassenbildung einerseits sehr subjektiv erscheinen und andererseits, die in den Kennzahlen enthaltenen Informationen verkürzen und zudem durch die Ziehung der Klassengrenzen eine bestimmte Willkürlichkeit einführen. Die Liniendiagramme lassen aber, wie an den Beispielen gezeigt wird, eine sehr detaillierte und vor allem auch inhaltlich begründete Klassenbildung, sowie auch die Betrachtung aggregierter Klassen und beliebiger Klassenkombinationen, zu, so daß bei einer konkreten inhaltlichen Definition der gewünschten Begriffe, die noch weit spezifischer sein können als in den Beispielen, entsprechende Liniendiagramme aufgebaut werden könnten. Die Klassenbildung entspricht darüberhinaus einer entsprechenden Transformation der Daten, die aufgrund der hohen Anzahl an extremen Werten beziehungsweise den erheblichen Abweichungen von der Normalverteilung für eine multivariate Betrachtung auch mit anderen Methoden (zum Beispiel graphischen Modellen, siehe unten) erforderlich ist. Schließlich spricht noch ein weiterer Punkt für die Diskretisierung der Kennzahlen. Die Interpretation der Kennzahlen verläuft in der Regel diskret, das heißt, wenn Kennzahlenergebnisse in der Literatur diskutiert werden, so sind es häufig nicht die einzelnen absoluten Werte, die hervorgehoben werden, sondern gewisse Bereiche, die als zufriedenstellend empfunden werden. Ihre Beurteilung wird in den meisten Fällen aus dem Vergleich mit (wie auch immer gewonnenen) Gruppenmittelwerten abgeleitet (BAHNMÜLLER, 1997 & 1998). Eine begriffliche Skalierung würde an dieser Stelle eingreifen und die verwendeten Beurteilungskriterien objektivieren können (wobei die Schaffung neuer Kennzahlen oder die Ermittlung entsprechender Schwellenwerte notwendig werden würde, siehe Abschnitt 4.1.2). Da auch für die einzelbetriebliche Betrachtung hierarchische Liniendiagramme ein wertvolles Hilfsmittel sind, wenn es um die Durchforstung der Datengrundlage geht und sich gleichzeitig Informationen für die Gesamtheit der Kennzahlenbetriebe abgerufen werden können, lautet eine Anregung dieser Arbeit, ein begriffliches Schema in Zusammenarbeit von Gartenbauökonomen, dem Arbeitskreis Betriebswirtschft und der gartenbau-betriebswirtschaftlichen Beratung für den Kennzahlenvergleich aufzubauen.
152
Trellis-Displays schließlich bieten sich zur Darstellung und Erforschung einer Vielzahl möglicher Fragestellungen an. Es handelt sich bei ihnen um eine flexible und übersichtliche Ergänzung und Verfeinerung des klassischen Spektrums univariater Graphiken. Die Konditionierung durch qualitative Variablen (oder diskretisierte quantitative Variablen) läßt eine Vielzahl an Kombinationsmöglichkeiten und Datenzusammenfassungen zu. Der theoretisch beliebig fein strukturierten Konditionierung sind jedoch praktische Grenzen gesetzt, das heißt, man stößt natürlich auch mit Trellis-Displays bei Betrachtung einer zu großen Variablenzahl an einen Punkt, wo die Vielzahl an Informationen nicht mehr in einer einzelnen Abbildung vermittelt werden kann. Eine gleichzeitige Darstellung mehrer Trellis-Displays auf einer Seite, wie sie an verschiedenen Stellen dieser Arbeit verwendet wird, zeigt jedoch, daß die Darstellungsmöglichkeiten erheblich sind. Da in dieser Arbeit immer wieder deutlich wird, daß die Konditionierung durch diskretisierte, kontinuierliche Variablen (zum Beispiel in der Analyse der Kennzahlen Einheitsquadratmeter oder Anzahl AK) zur Aufdeckung unterschiedlicher Merkmalsbeziehungen in den einzelnen gebildeten Klassen führt, wird die Brauchbarkeit dieser Vorgehensweise unterstrichen. Eine umfangreiche Einbeziehung von TrellisDisplays sowohl in der Erforschung von Zusammenhängen als auch in der Ergebnisdarstellung bietet sich daher sowohl in der Analyse betriebsbegleitender Untersuchungen als auch der Analyse der Kennzahlen an.
153
Clusterverfahren werden nur an zwei Stellen in dieser Arbeit eingesetzt. Dies in erster Linie, weil weder in der betriebsbegleitenden Untersuchung noch in der Auswertung der Kennzahlen nach homogenen Gruppen gesucht wird. Die Clusteranalyse dient aber gerade in erster Linie dazu, homogene Gruppen zu identifizieren. Die Ableitung kausaler Zusammenhänge aus einer Clusteranalyse, wie sie zum Beispiel von BITSCH, 1994, vorgenommen wird, ist demgegenüber mit großen Schwierigkeiten behaftet, da die Gruppenbildung in der objektorientierten Clusteranalyse nicht auf Variablenbeziehungen, sondern einem gewählten Homogenitätskriterium, in den hierarchischen Clusteranalysen zum Beispiel auf einem speziellen Proximitätsmaß, beruhen, und unterschiedlichste Merkmalsausprägungen zu identischen Proximitäten zwischen Objekten führen können. Wenn nach Variablenzusammenhängen auf Grundlage der gebildeten Cluster bei Variablen gesucht wird, die an der Bildung der Cluster überhaupt nicht beteiligt sind, wie dies bei BITSCH, 1994, erfolgt, scheint die Clusteranalyse nicht angemessen zu sein. BACHER, 1994, unterscheidet in diesem Zusammenhang zwischen Strukturgleichungsmodellen und Clusteranalyse und führt aus: Aufgabe von Strukturgleichungsmodellen ist die Spezifizierung und/oder Überprüfung von kausalen Beziehungen zwischen Variablen, primäres Ziel von Clusteranalyseverfahren dagegen das Auffinden einer empirischen Klassifikation und unter Umständen das Auffinden einer hierarchischen Ähnlichkeitsstruktur. (BACHER, 1994, Seite 10). Darüber hinaus ist es auch bemerkenswert, daß trotz der vielen Weiterentwicklungen auf dem Gebiet der Clusteranalyse, die zwischen EVERITT, 1979, und ARABIE & HUBERT, 1995, liegen, viele Problembereiche nach wie vor nicht zufriedenstellend gelöst sind (gibt es überhaupt eine Clusterstruktur? wieviele Cluster liegen vor? welcher Clusteralgorithmus und welches Proximitätsmaß?). Schließlich ist anzumerken, daß die in dieser Arbeit durchgeführten, sicher sehr unvollständigen Ansätze zur Clusteranalyse keine überzeugenden Hinweise dafür in den Daten gefunden haben, daß die betrachteten Objekte überhaupt eine Clusterstruktur besitzen.
154
Klassifikations- und Regressionsbäume haben demgegenüber für die Aufgabenstellung dieser Arbeit eine größere Bedeutung, da durch ihre Konstruktion gleichzeitig mit der Bildung der Segmente auch eine Beschreibung der wichtigsten, die Segmente beschreibenden Variablen, entsteht und darüberhinaus eine sich selbst erklärende Darstellung der Zusammenhänge gebildet wird. Insofern erfüllen sie eher das Bedürfnis nach einer umfassenden Visualisierung der Bildung der Segmente als die Dendrogramme der Clusteranalyse. Auch liefern sie gerade bei derartig wenig perfekten Daten wie sie hier vorliegen, eine willkommene, robuste Alternative zur linearen Regressionsanalyse, wenn es um die Betrachtung von Beziehungen mehrerer erklärender und einer abhängigen Variablen geht. Vor allem die dadurch erzielte Transparenz bezüglich der Bildung der Segmente wird als wesentlicher Vorteil gegenüber der Clusteranalyse empfunden. Die unbeantworteten Fragen, die aber auch in diesem Methodenbereich noch liegen, dürfen allerdings nicht übersehen werden, so zum Beispiel die Frage nach der besten Splitting-Regel, der optimalen Baumgröße, den Entscheidungungskriterien beim pruning oder auch die Verwendung von Teststatistiken (siehe zum Beispiel LOH & VANICHSETAKUL, 1988, PANEL, 1989, NAGEL et al., 1996). Diese Problembereiche werden in dieser Arbeit jedoch nicht thematisiert, sondern es wird ein ausgesprochen pragmatischer und beispielsorientierter Weg beschritten. Dabei wird deutlich, daß die Klassifikations- und Regressionsbäume zu gut interpretierbaren Abbildungen führen, die einerseits durch ihre Einfachheit und Nachvollziehbarkeit beeindrucken, andererseits aber auch dazu führen können, den Eindruck einer Eindeutigkeit zu vermitteln, die bei weitem durch die Daten nicht gedeckt ist. Dennoch kann eine auf einer CART oder CHAID Methodik begründete Segmentierung der Kennzahlenbetriebe unter Verwendung unterschiedlicher abhängiger Variablen, genutzt werden, eine wichtige Ergänzung zum bisher vom Arbeitskreis Betriebswirtschaft verwendeten Gruppierungskriterium Betriebseinkommen/AK zu entwickeln, und damit sowohl die Abhängigkeit der Gruppierung der Betriebe von der gewählten Gruppierungskennzahl, als auch die in der Gruppierung am stärksten auffälligen Kennzahlen hervorheben.
155
Diskrete, nicht gerichtete, graphische Modelle werden in dieser Arbeit als einziges Verfahren eingesetzt um Variablenbeziehungen zu untersuchen. Die Klassenbildung erfolgt mit der bereits unter 4.2.2 aufgeführten Begründung. An zwei Ansätzen wird demonstriert, daß durch dieses Vorgehen wichtige Beziehungen und Zusammenhänge unter dem Aspekt der bedingten Unabhängigkeit aufgedeckt und graphisch dargestellt werden. In der vorliegenden Arbeit wird jedoch das volle Potential, daß in graphischen Modellen steckt noch nicht ausgeschöpft. Methodische Weiterentwicklungen bieten neue Möglichkeiten, die den hier verwendeten Beispielsdaten sogar noch angemessener sind (siehe 4.3). Die Arbeit macht jedoch deutlich, daß graphische Modelle ein wirkungsvolles Instrumentarium bieten, um Zusammenhänge zwischen Merkmalen unter dem Aspekt der bedingten Unabhängigkeit zu untersuchen und darzustellen, und damit geeignet sind, Beziehungsgefüge multivariater Datensätze zu untersuchen.
156
Zum Abschluß ist nun zu überprüfen, ob die Zielsetzungen, die in der Einführung angesprochen werden, durch die Arbeit abgedeckt werden. Die vier Hypothesen zur explorativen Datenanalyse können bestätigt werden. Das eingesetzte Methodenspektrum erlaubt die Erstellung sinnvoller, graphischer Repräsentationen der vorliegenden Daten. Wirkungszusammenhänge werden zwar nicht letztlich geklärt, aber eine Vielzahl von Hypothesen kann aufgestellt und die Diskussion um Zusammenhänge angeregt und intensiviert werden. Strukturen werden sichtbar, wenn auch nicht, datenbedingt, in dem Umfang, daß völlig unbekannte Tatsachen zu Tage gefördert werden. Schließlich wird der Überprüfung von Annahmen und Resultaten auf verschiedensten Wegen Aufmerksamkeit geschenkt und somit voreiligen Schlüssen vorgebeugt. Darstellung und Umsetzung der verwendeten Methodik, zum Teil in eigenen Genstat Codes, unterstützen die gartenbauliche Beratung, wenn in der Zukunft diese Methoden eingesetzt werden sollen. Wenn die Arbeit möglicherweise auch nicht wirklich inhaltlich neue Erkenntnisse zu den verwendeten Beispielsdaten liefern kann, so gelingt doch in jedem Fall eine dichte und intensive Darstellung. Im Rahmen eines zuvor festgelegten Methodenspektrums wird eine stark interaktive Untersuchung der vorliegenden Daten durchgeführt, die schrittweise möglichst viele Problembereiche der Daten betrachtet und durchaus systematisch (wenn auch nicht schematisch) nach Erklärungsmustern und Auffälligkeiten sucht.
Demgegenüber stehen einige Defizite, die nicht unausgesprochen bleiben sollen:
157
Aus datenanalytischer Sicht lassen sich die folgenden Aufgaben für weiterführende Ansätze in der explorativen Datenanalyse formulieren:
Der Einsatz weiterer, spezieller, interaktiver graphischer Software, die für diese Arbeit nicht zur Verfügung stand, ist zu überprüfen und zu bewerten. Es mag verwundern, daß interaktive graphische Werkzeuge, wie sie zum Beispiel in den Programmen SPSS/BMDP Diamond (BMDP, 1995) oder MANET (BIVAND, 1998) angeboten werden, in dieser Arbeit nicht in die Betrachtung miteinbezogen werden.
158
SPSS/BMDP Diamond, das zum Teil eingesetzt wurde, konnte trotz verschiedenerFußnoten: | |
---|---|
Schließlich entstammen die Kennzahlen den steuerlichen Bilanzen, die ja in erster Linie unter steuerlichen und gesetzlichen Gesichtspunkten erstellt werden. | |
Natürlich gibt es zwischen diesen Ansätzen erhebliche Überschneidungen. So liefert ein Biplot auch Informationen über Variablenbeziehungen, fällt aber in der hier bezeichneten Gliederung unter den Oberbegriff Visualisierung, da Biplots in dieser Arbeit hauptsächlich als Visualisierungsinstrument eingesetzt werden. |
© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 2.0 |
Zertifizierter Dokumentenserver der Humboldt-Universität zu Berlin |
HTML - Version erstellt am: Wed May 24 16:40:53 2000 |