Krusche, Stefan: Visualisierung und Analyse multivariater Daten in der gartenbaulichen Beratung - Methodik, Einsatz und Vergleich datenanalytischer Verfahren

140

Kapitel 4. Diskussion der Ergebnisse und Schlußfolgerungen

Der vorliegenden Arbeit liegt die Erwartung zugrunde, daß mit Hilfe explorativer datenanalytischer Verfahren einerseits aussagekräftige graphische Repräsentationen multivariater Daten geschaffen werden und andererseits inhaltliche Zusammenhänge aufgespürt, Hypothesen aufgestellt, voreilige Schlüsse vermieden und interessante Strukturen aufgedeckt werden können. Kapitel 4.1 faßt daher die inhaltlichen Ergebnisse aus Kapitel 3 noch einmal zusammen und formuliert Fragestellungen, die Anlaß zu weiteren Untersuchungen geben. Darüber hinaus ist eine Einschätzung der eingesetzten Methoden im Hinblick auf ihre ‘Nützlichkeit’ bei der Analyse der vorliegenden Daten erforderlich. Kapitel 4.2 faßt daher die methodischen Ergebnisse aus Kapitel 3 zusammen und diskutiert Stärken und Schwächen, sowie Möglichkeiten und Grenzen des eingesetzten Methodenspektrums, sofern dies nicht schon in Kapitel 2 geschehen ist. Kapitel 4.3 schließlich befaßt sich mit den Grenzen der vorgelegten Arbeit. Es erfolgt eine kritische Betrachtung des gewählten Vorgehens und eine Ausarbeitung von Vorschlägen für an diese Arbeit anschließende mögliche Fragestellungen und Forschungsprojekte.

4.1. Diskussion der inhaltlichen Ergebnisse

4.1.1. Betriebsbegleitende Untersuchung bei Cyclamen

Ziel in der Auswertung der Daten der betriebsbegleitenden Untersuchung bei Cyclamen (3.1) ist die Suche nach aussagekräftigen Darstellungsformen der gewonnenen Daten, die sowohl interessante Beobachtungen aufdecken als auch Diskussionen über die inhaltlichen Ergebnisse anregen, ohne sich von einzelnen auffälligen Werten blenden zu lassen. Alle gewählten Verfahren werden also in dem Sinne eingesetzt, daß sie zu einer Visualisierung der Daten beitragen. Das eine derartige Untersuchung nicht zu allgemeinen Schlußfolgerungen zur betrachteten Kultur dienen kann, wird bereits in Kapitel 3.1.1 erwähnt. Ein allgemeingültiger, erklärender Charakter der Beobachtungen wird nicht erwartet. Das die Auswahl der Verfahren notwendigerweise unvollständig bleiben muß, wird schon in der allgemeinen Einführung angesprochen. Die Methodenwahl folgt einer subjektiven Einschätzung des Verfassers, wie die Visualisierung und Analyse am besten vorangebracht werden kann. Als wichtige Ergebnisse der unterschiedlichen graphischen Verfahren treten hervor:

als allgemeine Ergebnisse in einer Vielzahl von Abbildungen:

Auf dem Gebiet der Qualitätsbeurteilungen:


142

Auf dem Gebiet der Substratanalysewerte:

Auf dem Gebiet der Kulturmaßnahmen:

Auf dem Gebiet der Strukturmerkmale:

Beim simultanen Vergleich aller Variablensets:

Die Auflistung zeigt, daß sich aus der Analyse der Daten eine Vielzahl Feststellungen ergibt, die in fast allen Fällen direkt aus der Betrachtung der gewählten Graphiken resultieren. Insofern wird das Ziel einer reichhaltigen und informativen Visualisierung erfüllt.

Einzelne Beobachtungen geben darüber hinaus Anregungen gezielte Versuche durchzuführen, zum Beispiel zur Steuerung der Schattierung, dem optimalen Endstand oder dem vorteilhaftesten Rückverhalten.

Allerdings verdeutlicht die betriebsbegleitende Untersuchung auch, daß einerseits die verschiedensten Kulturbedingungen in der Lage sind, vergleichbare Qualitäten zu produzieren, und andererseits sehr unterschiedliche Qualitäten aus Betrieben mit ähnlichen Kulturführungen stammen können. Effekte scheinen sich also gegeneinander aufzuheben, und partielle Rezepte, die in einem Betrieb zum Kulturerfolg führen, tun dies im anderen Betrieb noch lange nicht. Betriebsbegleitenden Untersuchungen kann in der Aufdeckung dieser Wechselwirkungen der Kulturbedingungen eine große Bedeutung zukommen, wenn es um die Verstehen von Kulturabläufen geht. Durch die Erfassung der Reaktion der Kultivateure auf unvorhergesehene Ereignisse läßt sich das Expertenwissen der Gärtner formalisieren. Eine erhebliche Grenze Neues durch betriebsbegleitende Untersuchungen zu lernen ist allerdings dadurch gegeben, daß jeder Betrieb, die ihm zur Verfügung gestellten Pflanzen so gut wie möglich kultivieren und letztendlich auch verkaufen will. Experimente in Betrieben, bei denen die Pflanzen Schaden nehmen könnten, ließen sich daher wohl nur mit zusätzlichen finanziellen Anreizen durchführen. Die Nachkontrolle experimenteller Ergebnisse in der betrieblichen Wirklichkeit durch betriebsbegleitende Untersuchungen kann aber zu einem erheblichen Zugewinn an Wissen über das Verhalten der Pflanzen und der Produzenten im Erzeugungsprozeß führen. Allerdings sind dann einige Anforderungen an die betriebsbegleitenden Untersuchungen zu stellen, die durch hier besprochene Untersuchung mit Cyclamen, nicht erfüllt werden. Dazu zählen: deutliche Erhöhung der Anzahl der beteiligten Betriebe; ständige Kontrolle und quantitative Erfassung von Klima- Ernährungs- und Wachstumsparametern; und Objektivierung der Qualitätsbeurteilung während und nach der Kultur.

Viele im Zusammenhang mit der betriebsbegleitenden Untersuchung gewonnenen Ergebnisse lassen zwei Schlußfolgerungen zu. Entweder sind Cyclamen relativ unempfindlich gegenüber unterschiedlichen Kulturmaßnahmen und -eingriffen und wachsen unter einer Vielzahl von


144

Bedingungen zu einem vergleichbaren Produkt heran, oder die Reaktion der Kultivateure sorgt für das entsprechende Zusammenspiel der Wachstumsfaktoren, so daß ein jeweils auf die betrieblichen Bedingungen abgestimmtes Umfeld entsteht, das je nach Reaktionsvermögen des Produzenten zu einer letztlich befriedigenden oder unbefriedigenden Qualität führt. Ein Beispiel hierfür könnten die Betriebe 12 und 14 liefern. Bei ‘Concerto’ am Kulturende erhalten beide Sorten mit einer Ausnahme übereinstimmende, relativ hohe, Boniturwerte (Abbildungen A3 und A9). In den einzelnen Variablensets weisen diese Betriebe stark voneinander abweichende Positionen auf, zum Beispiel bei der Ernährung (Abbildung A32), der durchschnittlichen Stärke der Schattierung (Abbildung A39 a)), der Gruppierung nach Kulturmaßnahmen (Abbildung A44 und A45), und den Strukturdaten Stellfläche und Bewässerungsverfahren (Abbildungen A52 und A54). Die Vermutung, die unterschiedliche Kulturführung schlage sich in einem veränderten Verhalten in der Haltbarkeitsprüfung nieder, mag durch die insgesamt etwas bessere Qualitätsbeurteilung von ‘Concerto’ bei Betrieb 14 in Woche 48 auf den ersten Blick eine Bestätigung finden. Bei ‘Sierra’ ist jedoch weder die Nähe der beiden Betriebe im Hinblick auf ihre Qualität zu beobachten (bei gleicher Kulturführung wie bei ‘Concerto’), noch eine vergleichbare Umpositionierung von Woche 44 auf Woche 48 zu beobachten.

Dies ist aber ein Einzelbeispiel, das nicht zur Verallgemeinerung Anlaß gibt. Um mehr durch das Vorgehen des Produzenten über Wachstum und Entwicklung von Cyclamen (und anderen Zierpflanzen) zu erfahren, ist eine Veränderung der betriebsbegleitenden Untersuchungen in der oben skizzierten Form ratsam. Erst dann kann geklärt werden, welche nachvollziehbaren Gesetzmäßigkeiten sich hinter der in dieser Arbeit beobachteten Variabilität verbergen, und ob der Kulturerfolg überhaupt, und wenn ja in welchen Toleranzbereichen und durch welche Kombination von Kulturbedingungen, durch die Kulturmaßnahmen beeinflußt wird. Da von einer derartigen Beeinflussung ausgegangen werden kann, die Klärung der Zusammenhänge aber sehr komplex ist, könnte ein gezielter und geplanter Ausbau betriebsbegleitender Untersuchungen mit exakten Aufzeichnungen sicherlich das Verständnis nicht nur für die Cyclamenkultur verbessern.


145

4.1.2. Kennzahlenvergleich

Während auch bei der Auswertung der Kennzahlen das Bemühen um aussagekräftige Formen der graphischen Darstellung in dieser Arbeit eine große Bedeutung haben, spielt die Besprechung und Analyse der inhaltlichen Zusammenhänge eine größere Rolle als in der Auswertung der betriebsbegleitenden Untersuchung, obwohl auch in diesem Kapitel darauf hingewiesen werden muß, daß es sich bei den Kennzahlen um eine wenig vollkommene Datengrundlage handelt, und viele der betrachteten Werte mit Aufzeichnungsungenauigkeiten und ähnlichen Defekten behaftet sein können<48>. Die Auswahl der Verfahren richtet sich daher im wesentlichen an konkreten Fragestellungen aus, die auch in den einzelnen Kapiteln genannt werden, wobei das Augenmerk in der Hauptsache auf Methoden gelegt wird, die in unterschiedlichen Formen Zusammenhänge zwischen Kennzahlen durch graphische Methoden transparent zu machen in der Lage sind. Es ist aber erneut zu betonen, daß es nicht das Ziel dieser Arbeit ist, eine komplette und in sich geschlossene Analyse der Kennzahlen zu liefern, sondern Anstöße zu geben, sich dem Kennzahlenkatalog auf unterschiedliche Weise zu nähern und exemplarisch darzustellen, wie durch die eingesetzten Verfahren Erkenntnisse gesammelt und Hypothesen formuliert werden können. Die inhaltlichen Feststellungen können daher sowohl bekannte Tatsachen bestätigen, als auch weniger beachtete Fragestellungen und Hypothesen aufwerfen, für die Erklärungsmuster bereits vorhanden sind oder auch nicht. Eine inhaltliche Auseinandersetzung mit den Kennzahlen ist also nicht Ziel dieser Arbeit und bleibt den Gartenbauökonomen vorbehalten. Es kann aber gezeigt werden, daß die beschriebenen explorativen datenanalytischen Verfahren in der Lage sind, Zusammenhänge nachvollziehbar zu untersuchen und darzustellen. Ohne erneut auf alle einzelnen Beobachtungen einzugehen, lassen sich einige der Ergebnisse aus den fünf Auswertungsschritten wie folgt zusammenfassen:

Die genannten Punkte sind als Diskussionsanregungen gedacht. Im Rahmen dieser Arbeit ist nicht beabsichtigt, die inhaltliche Richtigkeit und Relevanz aller Einzelheiten abschließend zu beurteilen. Es wird aber an verschiedenen Stellen der Auswertung der Kennzahlen verdeutlicht, daß unterschiedliche Betrachtungsweisen derselben Daten zu unterschiedlichen Schlußfolgerungen führen, und daß daher von einer Verallgemeinerung einzelner Auffälligkeiten Abstand genommen werden soll. Auch wird der eingeschränkte Informationsgehalt der Kennzahlen zur Klärung allgemeingültiger betriebswirtschaftlicher Zusammenhänge erneut unterstrichen (siehe zum


148

Beispiel auch BITSCH, 1994). Forderungen für eine Weiterentwicklung des Kennzahlenvergleichs, die sich aus dieser Arbeit ergeben, sind:

  1. Der Median sollte statt des Mittelwerts zur Beschreibung der zentralen Tendenz verwendet werden;
  2. die vorhandenen Kennzahlen sollten durch Kennwerte ergänzt werden, die das betriebliche Umfeld charakterisieren;
  3. wenn eine Gruppierung der Betriebe vorgenommen werden soll, sollte über die Einführung flexibler Gruppierungsverfahren wie CART oder CHAID zur Identifikation homogener Gruppen an Stelle der traditionellen Gliederung des Arbeitskreises Betriebswirtschaft nach Betriebseinkommen/AK nachgedacht werden ;
  4. durch die Bereitstellung von interaktiven Werkzeugen, wie zum Beispiel von hierarchischen Liniendiagramme zur Erkundung der Datengrundlage, oder Beantwortung konkreter Fragestellungen, könnte die Transparenz der Daten auch für die die Daten nutzenden Berater verbessert werden;
  5. quantitative Kennzahlen sollten, wo sinnvoll, durch qualitative Kennzahlen, die auch aus einer Klassenbildung bei quantitativen Kennzahlen hervorgehen kann, ersetzt werden (dieser Punkt wird im folgenden Kapitel noch einmal angesprochen);
  6. dazu wäre allerdings die Entwicklung neuer Kennzahlen erforderlich, die diese sinnvolle Klassenbildung überhaupt erst ermöglichen. Darüberhinaus sollten aussagekräftiger Schwellenwerte bei schon vorhandenen Kennzahlen entwickelt werden.


149

4.2. Diskussion der Methoden

Wo die Möglichkeiten und Grenzen der eingesetzten Methoden zur Datenanalyse liegen wird, ausführlich in Kapitel 2 dargestellt. Die dort erarbeiteten grundsätzlichen Aussagen bilden die Grundlage aller Auswertungen in Kapitel 3. In der Auswertung kann die Vielfältigkeit der Methoden demonstriert werden. Eine Beurteilung im Sinne einer guten oder einer schlechten Methode ist allerdings nicht möglich. Nur im Einzelfall kann entschieden werden, was gezeigt oder untersucht werden soll, und ob ein Verfahren zur gewünschten Darstellung geeignet ist oder nicht. In der vorgelegten Arbeit lassen sich drei Hauptgruppen von datenanalytische Ansätzen, die einen breiten Raum in der Auswertung und Darstellung der Daten einnehmen, unterscheiden. Erstens Visualisierung, zweitens Gruppierung und Segmentierung und drittens Untersuchung von Beziehungsgefügen von Variablen<49>.

4.2.1. Verfahren zur Visualisierung - Biplots

Die Verfahren der Dimensionserniedriegung und ihre Darstellung in Form von Biplots (Kapitel 2.1 und 2.2) dienen der Sichtbarmachung von Informationen. Welches Verfahren gewählt wird, hängt von der vorhandenen Datenstruktur und der erwünschten Aussage ab. Bis zu einer bestimmten Anzahl an Merkmalen und Objekten ist die Biplotdarstellung in den Beispielen sinnvoll möglich. In der Auswertung der betriebsbegleitenden Untersuchung stößt man mit der Biplotmethodik nie an eine ernstzunehmende Darstellungsgrenze. Schwieriger wird es schon in der Analyse der Kennzahlen. Die Vielzahl an Objekten und Variablen, macht eine gemeinsame Darstellung schwierig. Eine Aufteilung in Gruppen oder eine Aufsplittung in Variablen- und Objektplots ist dann vorteilhaft, obwohl, vor allem für den Vergleich von Gruppen, eine visuelle Inspektion der Biplots alleine nicht mehr ausreicht um Gruppenunterschiede zu überprüfen, sondern formale Verfahren zur Untersuchung unterschiedlicher Gruppen in Anspruch genommen werden. Der Informationsgehalt aller Biplots ist hoch, wenn auch einschränkend festgestellt werden muß, daß mit der zweidimensionalen Approximation immer ein mehr oder weniger großer Informationsverlust einhergeht. Um die Güte der Abbildung einzuschätzen werden Screeplot, CUSUM-Diagramm, überlagerte Multiple Spanning Trees, Residuenanalysen, Stabilitätsprüfungen und unterschiedliche Verfahren zur Ermittlung der Anzahl der ‘wesentlichen’ Komponenten vorgeschlagen. Die in vielen Fällen erforderliche Standardisierung der Daten vor der Durchführung der Hauptkomponentenanlyse vermindert die Aussagekraft eines Hauptkomponentenbiplots, da es ja gerade die Ablesbarkeit der Orginalwerte an den Biplotachsen ist, die diese Darstellungsform so interessant macht. Mit Hilfe des entwickelten Genstat Codes wird dieses Problem allerdings überwunden. Unbefriedigend bleiben auch in dieser Arbeit die Darstellungsversuche in mehr als


150

zwei Dimensionen, obwohl durch die Andrews Kurven und konditionierten Hauptkomponentenwerteplots recht ansprechende Abbildungen geschaffen werden können. Insofern können die Methoden der Dimensionserniedrigung, so wie sie hier bearbeitet werden, als eine Bereicherung in der Darstellung von mehrdimensionalen Datensätzen in der gartenbaulichen Beratung angesehen werden, sofern, für den Fall, daß eine Identifizierung einzelner Objekte gewünscht wird, die Anzahl der Objekte nicht zu groß ist


151

4.2.2. Verfahren zur Visualisierung - hierarchische Liniendiagramme

Hierarchische Liniendiagramme ermöglichen im wahrsten Sinne des Wortes eine Exploration umfangreicher Datensätze. Die Interaktivität der Liniendiagramme ermöglicht dem Benutzer beliebige Abfragekonstellationen herzustellen und die Daten nach Auffälligkeiten zu durchsuchen, ohne daß der direkte Bezug zu den Ausgangsdaten verloren geht. Obwohl theoretisch durch Liniendiagramme jeglicher Begriffsverband komplett und ohne Informationsverlust dargestellt werden kann, sind dem natürlich auch praktische Grenzen gesetzt. Desweiteren ist ihr Einsatz nur nach einer begrifflichen Skalierung möglich. Diese begriffliche Skalierung (oder auch die Klassenbildung für den Einsatz diskreter graphischer Modelle oder von CHAID) ist aber im Kontext der Kennzahlen durchaus sinnvoll und vertretbar. Es ist allerdings nicht so, daß die in dieser Arbeit gewählte begriffliche Skalierung die einzig richtige oder die wirklich beste ist. Sie soll aber den Anstoß dazu liefern eine begriffliche Skalierung für die Kennzahlen zu entwickeln. Nun mag eine Klassenbildung einerseits sehr subjektiv erscheinen und andererseits, die in den Kennzahlen enthaltenen Informationen verkürzen und zudem durch die Ziehung der Klassengrenzen eine bestimmte Willkürlichkeit einführen. Die Liniendiagramme lassen aber, wie an den Beispielen gezeigt wird, eine sehr detaillierte und vor allem auch inhaltlich begründete Klassenbildung, sowie auch die Betrachtung aggregierter Klassen und beliebiger Klassenkombinationen, zu, so daß bei einer konkreten inhaltlichen Definition der gewünschten Begriffe, die noch weit spezifischer sein können als in den Beispielen, entsprechende Liniendiagramme aufgebaut werden könnten. Die Klassenbildung entspricht darüberhinaus einer entsprechenden Transformation der Daten, die aufgrund der hohen Anzahl an extremen Werten beziehungsweise den erheblichen Abweichungen von der Normalverteilung für eine multivariate Betrachtung auch mit anderen Methoden (zum Beispiel graphischen Modellen, siehe unten) erforderlich ist. Schließlich spricht noch ein weiterer Punkt für die Diskretisierung der Kennzahlen. Die Interpretation der Kennzahlen verläuft in der Regel diskret, das heißt, wenn Kennzahlenergebnisse in der Literatur diskutiert werden, so sind es häufig nicht die einzelnen absoluten Werte, die hervorgehoben werden, sondern gewisse Bereiche, die als zufriedenstellend empfunden werden. Ihre Beurteilung wird in den meisten Fällen aus dem Vergleich mit (wie auch immer gewonnenen) Gruppenmittelwerten abgeleitet (BAHNMÜLLER, 1997 & 1998). Eine begriffliche Skalierung würde an dieser Stelle eingreifen und die verwendeten Beurteilungskriterien objektivieren können (wobei die Schaffung neuer Kennzahlen oder die Ermittlung entsprechender Schwellenwerte notwendig werden würde, siehe Abschnitt 4.1.2). Da auch für die einzelbetriebliche Betrachtung hierarchische Liniendiagramme ein wertvolles Hilfsmittel sind, wenn es um die Durchforstung der Datengrundlage geht und sich gleichzeitig Informationen für die Gesamtheit der Kennzahlenbetriebe abgerufen werden können, lautet eine Anregung dieser Arbeit, ein begriffliches Schema in Zusammenarbeit von Gartenbauökonomen, dem Arbeitskreis Betriebswirtschft und der gartenbau-betriebswirtschaftlichen Beratung für den Kennzahlenvergleich aufzubauen.


152

4.2.3. Verfahren zur Visualisierung - Trellis-Displays

Trellis-Displays schließlich bieten sich zur Darstellung und Erforschung einer Vielzahl möglicher Fragestellungen an. Es handelt sich bei ihnen um eine flexible und übersichtliche Ergänzung und Verfeinerung des klassischen Spektrums univariater Graphiken. Die Konditionierung durch qualitative Variablen (oder diskretisierte quantitative Variablen) läßt eine Vielzahl an Kombinationsmöglichkeiten und Datenzusammenfassungen zu. Der theoretisch beliebig fein strukturierten Konditionierung sind jedoch praktische Grenzen gesetzt, das heißt, man stößt natürlich auch mit Trellis-Displays bei Betrachtung einer zu großen Variablenzahl an einen Punkt, wo die Vielzahl an Informationen nicht mehr in einer einzelnen Abbildung vermittelt werden kann. Eine gleichzeitige Darstellung mehrer Trellis-Displays auf einer Seite, wie sie an verschiedenen Stellen dieser Arbeit verwendet wird, zeigt jedoch, daß die Darstellungsmöglichkeiten erheblich sind. Da in dieser Arbeit immer wieder deutlich wird, daß die Konditionierung durch diskretisierte, kontinuierliche Variablen (zum Beispiel in der Analyse der Kennzahlen Einheitsquadratmeter oder Anzahl AK) zur Aufdeckung unterschiedlicher Merkmalsbeziehungen in den einzelnen gebildeten Klassen führt, wird die Brauchbarkeit dieser Vorgehensweise unterstrichen. Eine umfangreiche Einbeziehung von TrellisDisplays sowohl in der Erforschung von Zusammenhängen als auch in der Ergebnisdarstellung bietet sich daher sowohl in der Analyse betriebsbegleitender Untersuchungen als auch der Analyse der Kennzahlen an.


153

4.2.4. Gruppierung und Segmentierung - Clusteranalyse

Clusterverfahren werden nur an zwei Stellen in dieser Arbeit eingesetzt. Dies in erster Linie, weil weder in der betriebsbegleitenden Untersuchung noch in der Auswertung der Kennzahlen nach homogenen Gruppen gesucht wird. Die Clusteranalyse dient aber gerade in erster Linie dazu, homogene Gruppen zu identifizieren. Die Ableitung kausaler Zusammenhänge aus einer Clusteranalyse, wie sie zum Beispiel von BITSCH, 1994, vorgenommen wird, ist demgegenüber mit großen Schwierigkeiten behaftet, da die Gruppenbildung in der objektorientierten Clusteranalyse nicht auf Variablenbeziehungen, sondern einem gewählten Homogenitätskriterium, in den hierarchischen Clusteranalysen zum Beispiel auf einem speziellen Proximitätsmaß, beruhen, und unterschiedlichste Merkmalsausprägungen zu identischen Proximitäten zwischen Objekten führen können. Wenn nach Variablenzusammenhängen auf Grundlage der gebildeten Cluster bei Variablen gesucht wird, die an der Bildung der Cluster überhaupt nicht beteiligt sind, wie dies bei BITSCH, 1994, erfolgt, scheint die Clusteranalyse nicht angemessen zu sein. BACHER, 1994, unterscheidet in diesem Zusammenhang zwischen Strukturgleichungsmodellen und Clusteranalyse und führt aus: „Aufgabe von Strukturgleichungsmodellen ist die Spezifizierung und/oder Überprüfung von kausalen Beziehungen zwischen Variablen, primäres Ziel von Clusteranalyseverfahren dagegen das Auffinden einer empirischen Klassifikation und unter Umständen das Auffinden einer hierarchischen Ähnlichkeitsstruktur.“ (BACHER, 1994, Seite 10). Darüber hinaus ist es auch bemerkenswert, daß trotz der vielen Weiterentwicklungen auf dem Gebiet der Clusteranalyse, die zwischen EVERITT, 1979, und ARABIE & HUBERT, 1995, liegen, viele Problembereiche nach wie vor nicht zufriedenstellend gelöst sind (gibt es überhaupt eine Clusterstruktur? wieviele Cluster liegen vor? welcher Clusteralgorithmus und welches Proximitätsmaß?). Schließlich ist anzumerken, daß die in dieser Arbeit durchgeführten, sicher sehr unvollständigen Ansätze zur Clusteranalyse keine überzeugenden Hinweise dafür in den Daten gefunden haben, daß die betrachteten Objekte überhaupt eine Clusterstruktur besitzen.


154

4.2.5. Gruppierung und Segmentierung - CART und CHAID

Klassifikations- und Regressionsbäume haben demgegenüber für die Aufgabenstellung dieser Arbeit eine größere Bedeutung, da durch ihre Konstruktion gleichzeitig mit der Bildung der Segmente auch eine Beschreibung der wichtigsten, die Segmente beschreibenden Variablen, entsteht und darüberhinaus eine sich selbst erklärende Darstellung der Zusammenhänge gebildet wird. Insofern erfüllen sie eher das Bedürfnis nach einer umfassenden Visualisierung der Bildung der Segmente als die Dendrogramme der Clusteranalyse. Auch liefern sie gerade bei derartig wenig perfekten Daten wie sie hier vorliegen, eine willkommene, robuste Alternative zur linearen Regressionsanalyse, wenn es um die Betrachtung von Beziehungen mehrerer erklärender und einer abhängigen Variablen geht. Vor allem die dadurch erzielte Transparenz bezüglich der Bildung der Segmente wird als wesentlicher Vorteil gegenüber der Clusteranalyse empfunden. Die unbeantworteten Fragen, die aber auch in diesem Methodenbereich noch liegen, dürfen allerdings nicht übersehen werden, so zum Beispiel die Frage nach der besten Splitting-Regel, der optimalen Baumgröße, den Entscheidungungskriterien beim pruning oder auch die Verwendung von Teststatistiken (siehe zum Beispiel LOH & VANICHSETAKUL, 1988, PANEL, 1989, NAGEL et al., 1996). Diese Problembereiche werden in dieser Arbeit jedoch nicht thematisiert, sondern es wird ein ausgesprochen pragmatischer und beispielsorientierter Weg beschritten. Dabei wird deutlich, daß die Klassifikations- und Regressionsbäume zu gut interpretierbaren Abbildungen führen, die einerseits durch ihre Einfachheit und Nachvollziehbarkeit beeindrucken, andererseits aber auch dazu führen können, den Eindruck einer Eindeutigkeit zu vermitteln, die bei weitem durch die Daten nicht gedeckt ist. Dennoch kann eine auf einer CART oder CHAID Methodik begründete Segmentierung der Kennzahlenbetriebe unter Verwendung unterschiedlicher abhängiger Variablen, genutzt werden, eine wichtige Ergänzung zum bisher vom Arbeitskreis Betriebswirtschaft verwendeten Gruppierungskriterium Betriebseinkommen/AK zu entwickeln, und damit sowohl die Abhängigkeit der Gruppierung der Betriebe von der gewählten Gruppierungskennzahl, als auch die in der Gruppierung am stärksten auffälligen Kennzahlen hervorheben.


155

4.2.6. Klärung von multivariaten Beziehungsgefügen - graphische Modelle

Diskrete, nicht gerichtete, graphische Modelle werden in dieser Arbeit als einziges Verfahren eingesetzt um Variablenbeziehungen zu untersuchen. Die Klassenbildung erfolgt mit der bereits unter 4.2.2 aufgeführten Begründung. An zwei Ansätzen wird demonstriert, daß durch dieses Vorgehen wichtige Beziehungen und Zusammenhänge unter dem Aspekt der bedingten Unabhängigkeit aufgedeckt und graphisch dargestellt werden. In der vorliegenden Arbeit wird jedoch das volle Potential, daß in graphischen Modellen steckt noch nicht ausgeschöpft. Methodische Weiterentwicklungen bieten neue Möglichkeiten, die den hier verwendeten Beispielsdaten sogar noch angemessener sind (siehe 4.3). Die Arbeit macht jedoch deutlich, daß graphische Modelle ein wirkungsvolles Instrumentarium bieten, um Zusammenhänge zwischen Merkmalen unter dem Aspekt der bedingten Unabhängigkeit zu untersuchen und darzustellen, und damit geeignet sind, Beziehungsgefüge multivariater Datensätze zu untersuchen.


156

4.3. Kritik und Ausblick

Zum Abschluß ist nun zu überprüfen, ob die Zielsetzungen, die in der Einführung angesprochen werden, durch die Arbeit abgedeckt werden. Die vier Hypothesen zur explorativen Datenanalyse können bestätigt werden. Das eingesetzte Methodenspektrum erlaubt die Erstellung sinnvoller, graphischer Repräsentationen der vorliegenden Daten. Wirkungszusammenhänge werden zwar nicht letztlich geklärt, aber eine Vielzahl von Hypothesen kann aufgestellt und die Diskussion um Zusammenhänge angeregt und intensiviert werden. Strukturen werden sichtbar, wenn auch nicht, datenbedingt, in dem Umfang, daß völlig unbekannte Tatsachen zu Tage gefördert werden. Schließlich wird der Überprüfung von Annahmen und Resultaten auf verschiedensten Wegen Aufmerksamkeit geschenkt und somit voreiligen Schlüssen vorgebeugt. Darstellung und Umsetzung der verwendeten Methodik, zum Teil in eigenen Genstat Codes, unterstützen die gartenbauliche Beratung, wenn in der Zukunft diese Methoden eingesetzt werden sollen. Wenn die Arbeit möglicherweise auch nicht wirklich inhaltlich neue Erkenntnisse zu den verwendeten Beispielsdaten liefern kann, so gelingt doch in jedem Fall eine dichte und intensive Darstellung. Im Rahmen eines zuvor festgelegten Methodenspektrums wird eine stark interaktive Untersuchung der vorliegenden Daten durchgeführt, die schrittweise möglichst viele Problembereiche der Daten betrachtet und durchaus systematisch (wenn auch nicht schematisch) nach Erklärungsmustern und Auffälligkeiten sucht.

Demgegenüber stehen einige Defizite, die nicht unausgesprochen bleiben sollen:

  1. Nicht alle einzelnen Analysen werden konsequent nach einem einheitlichen Schema durchgeführt. So wird zum Beispiel betont, wie wichtig die Überprüfung der Anzahl der ‘wesentlichen’ Dimensionen in der Hauptkomponentenanalyse ist, eine derartige Prüfung wird aber nicht in allen Fällen mit allen zur Verfügung stehenden Methoden durchgeführt. In der Regel wird versucht, einzelne, methodisch interessante Aspekte immer nur einmal darzustellen und nicht in jedem Abschnitt erneut zu wiederholen, sondern sich dann auf andere Schwerpunkte zu konzentrieren. Manch methodisch sinnvolles Vorgehen wird daher nur an einer Stelle durchgeführt, obwohl es auch an einer anderen Stelle angebracht wäre.
  2. Die Frage nach der am besten für die Darstellung der Daten geeigneten Methode wird weder gestellt noch beantwortet. Dies vor allem darum, weil es eine Antwort aus Sicht des Verfassers nicht geben kann. Es mag sein, daß einige Darstellungsformen einen höheren Informationsgehalt haben als andere; ob dadurch aber auch per se die Mitteilung wesentlicher Inhalte eher gelingt bleibt einer weiteren Untersuchung vorbehalten. Darin wäre zu prüfen, wie unterschiedliche Personengruppen auf die Darstellung ein und derselben Dateninformation in unterschiedlichen Darstellungsformen reagieren, wie am schnellsten die vorhandenen Informationen erfaßt und wie gleichzeitig der Anteil an Desinformation minimiert werden können.

    157

  3. Das Methodenspektrum ist nicht vollständig und die Methodenwahl nur ansatzweise ausreichend inhaltlich begründet. Es ist allerdings so, daß gerade in der explorativen Phase einer Untersuchung, der Raum für das Ausprobieren verschiedener Methoden gegeben sein muß, um die vorliegenden Daten aus verschiedenen Blickwinkeln kennenlernen zu können. Die Methodenwahl richtet sich dann im wesentlichen danach, ob die Datenstruktur eine sinnvolle Analyse und Darstellung mit der entsprechenden Methode zuläßt. In dieser Arbeit wäre das Bemühen die Einschränkung auf das gewählte Methodenspektrum anders zu begründen, unehrlich. Sobald einzelne Ergebnisse der vorliegenden Untersuchungen jedoch außerhalb ihres Kontextes, das heißt außerhalb ihres Beitrags zur Datenexploration, diskutiert werden sollen, wird eine stringente Begründung, warum gerade ein spezielles Ergebnis einer speziellen Methodik verwendet wird, erforderlich. Aus der vorliegenden Arbeit ist eine derartige Begründung nicht zu entnehmen. Sie zeigt vielmehr, daß wenig perfekte Daten auch nur zu wenig perfekten Schlüssen führen können und es oft mindestes zwei ‘Wahrheiten’ zu ein und demselben Sachverhalt in den vorliegenden Daten gibt. Insofern mahnt die Arbeit dazu, sich nicht auf einzelne Ergebnisse zu verlassen, sondern immer wieder nach alternativen Darstellungs- und Analyseformen zu suchen. Da die Qualität der verwendeten Daten für die der Beratung vorliegenden Datenquellen sehr typisch ist, liegt die Stärke der Analyse und der Nutzen der Analysen für die Beratung auch weniger in der Gewinnung oder Ableitung eindeutiger Beratungsempfehlungen als vielmehr der Schaffung von mehr Transparenz und der Sensibilisierung für die Komplexität von in Daten enthaltenen Informationen.
  4. Die inhaltlichen Ergebnisse mögen all jene nicht befriedigen, die sich aus der Sicht ihrer jeweiligen Disziplin speziell mit den in den Beispielsdaten angeschnittenen Themen auseinandersetzen oder auseinandergesetzt haben, weil möglicherweise nicht die Fragen beantwortet oder die Ansätze untersucht werden, die wichtiger oder untersuchungswürdiger zu sein scheinen. Es wird dadurch deutlich, wie sehr die (explorative) Datenanalyse ein miteinander von Datenanlytiker und Anwender braucht, um tatsächlich relevante Sachverhalte angemessen methodisch zu analysieren und inhaltlich zu interpretieren.

Aus datenanalytischer Sicht lassen sich die folgenden Aufgaben für weiterführende Ansätze in der explorativen Datenanalyse formulieren:

Der Einsatz weiterer, spezieller, interaktiver graphischer Software, die für diese Arbeit nicht zur Verfügung stand, ist zu überprüfen und zu bewerten. Es mag verwundern, daß interaktive graphische Werkzeuge, wie sie zum Beispiel in den Programmen SPSS/BMDP Diamond (BMDP, 1995) oder MANET (BIVAND, 1998) angeboten werden, in dieser Arbeit nicht in die Betrachtung miteinbezogen werden.


158

SPSS/BMDP Diamond, das zum Teil eingesetzt wurde, konnte trotz verschiedener

  1. Versuche keine vorzeigbaren Ergebnisse zu Tage fördern, da die Qualität der Ausdrucke aus diesem Programm von geringer Qualität und die zu produzierenden Graphiken vielfach wenig überzeugend sind (zum Beispiel Parametric Snake oder Fractal Foam). Zudem lebt eine Analyse mit einem interaktiven, graphischen Programm von der Bedienung und läßt sich nur schwer in Papierform darstellen. Der Verzicht auf derartige interaktive graphische Software bedeutet allerdings nicht, daß sie nicht auch in einer gelungenen Implementation durchaus informativ sein könnte. Übermäßige Erwartungen, wie sie UNWIN, 1992, oder THEUS, 1996, äußern, scheinen aber nicht angebracht. Einzelne überzeugende Beispiele (siehe zum Beispiel UNWIN, 1992) sollten nicht darüber hinwegtäuschen, daß auch diese Medien nicht nur durch die Möglichlichkeiten, die die Rechner heutzutage bieten, begrenzt sind, sondern auch dadurch, was der Nutzer gleichzeitig an Informationen von einer Bildschirmseite erfassen kann. Die Erfahrung mit den in dieser Arbeit eingesetzten Methoden zeigt, das diese Limitationen nicht übersehen werden sollten.
  2. Lineare Strukturgleichungsmodelle werden ebenfalls in dieser Arbeit nicht eingesetzt; sie bieten aber grundsätzlich die Möglichkeit komplexe Beziehungszusammenhänge zu untersuchen und darzustellen. Allerdings wären zunächst inhaltlich begründete Modelle zu spezifizieren, die dann durch die Strukturgleichungsmodelle auf ihre Angemessenheit hin untersucht werden sollten. Mit Hilfe von Bootstrapping-Ansätzen ließen sich die starken Modellannahmen bezüglich der Multinormalverteilung abmildern (SMALLWATERS, 1997). Inwieweit aber die vorliegenden Beispielsdaten (und die Mehrzahl der der gartenbaulichen Beratung vorliegenden Daten besitzen in etwa dieselbe Qualität) ein derart stark konfirmatorisch geprägtes Verfahren rechtfertigen, ist zweifelhaft. Neben der genauen a priori Spezifizierung möglicher Modelle, stellt sich somit gleichzeitig die Forderung nach der Erschließung repräsentativer und aussagefähiger Datengrundlagen für den Gartenbau.
  3. Das in graphischen Modellen steckende Potential zur Analyse und Darstellung multivariater Beziehungsgefüge wird durch die vorliegende Arbeit nicht ausgeschöpft. Es bleibt zu klären, ob nicht kontinuierliche und gemischte graphische Modelle nicht doch bei entsprechender Transformation einzelner Variablen eingesetzt werden sollten. Darüberhinaus werden in den letzten Jahren verstärkt Entwicklungen auf dem Gebiet der, den graphischen Modellen verwandten, Markov Chain Monte Carlo-Methoden (MCMC) diskutiert, die für komplexe Beziehungszusammenhänge bei wenig perfekten Daten sinnvoll eingesetzt werden können (siehe zum Beispiel BEST et al., 1996, GOLDSTEIN & SPIEGELHALTER, 1996).

Fußnoten:

<48>

Schließlich entstammen die Kennzahlen den steuerlichen Bilanzen, die ja in erster Linie unter steuerlichen und gesetzlichen Gesichtspunkten erstellt werden.

<49>

Natürlich gibt es zwischen diesen Ansätzen erhebliche Überschneidungen. So liefert ein Biplot auch Informationen über Variablenbeziehungen, fällt aber in der hier bezeichneten Gliederung unter den Oberbegriff Visualisierung, da Biplots in dieser Arbeit hauptsächlich als Visualisierungsinstrument eingesetzt werden.


[Titelseite] [Danksagung] [1] [2] [3] [4] [5] [Bibliographie] [Abkürzungsverzeichnis] [Lebenslauf] [Selbständigkeitserklärung] [Anhang] [Anhang] [Anhang] [Anhang] [Anhang]

© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.

DiML DTD Version 2.0
Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML - Version erstellt am:
Wed May 24 16:40:53 2000