Krusche, Stefan: Visualisierung und Analyse multivariater Daten in der gartenbaulichen Beratung - Methodik, Einsatz und Vergleich datenanalytischer Verfahren |
86
Betriebsbegleitende Untersuchungen spielen für die Beratung im Gartenbau eine große Rolle. Allein an der Bezirksstelle für Gartenbau der Landwirtschaftskammer Westfalen-Lippe in Münster wurden seit 1993 derartige Untersuchungen bei Poinsettien, Primeln, Hortensien (Rohwarekultur und Treiberei) und Cyclamen durchgeführt (JOKIEL, 1996). Aus dem Obstbau liegt ein Beispiel von GÖRGENS, 1991, vor. BOKELMANN, 1987, entwickelt, aufbauend auf den Ergebnissen und Beobachtungen einer betriebsbegleitenden Untersuchung bei Poinsettien, Grundlagen von Entscheidungsprozessen im Gartenbaubetrieb. WIESMANN, 1985, beleuchtet die Relevanz derartiger Untersuchungen für die Arbeit der Beratung.
Neben der Möglichkeit, Erkenntnisse zum Produktionsablauf zu gewinnen, bietet eine betriebsbegleitende Untersuchung der Beratung die Möglichkeit engen Kontakt zu den beteiligten Betrieben aufzubauen und auch den fachlichen Austausch der Betriebsleiter untereinander zu fördern. Insofern erfüllt eine betriebsbegleitende Untersuchung auch eine nicht zu unterschätzende ‘soziale Komponente.
Die Darstellung des in der Regel sehr umfangreichen Datenmaterials ist allerdings in vielen Beispielen unbefriedigend, und zwar in dem Sinne, daß es kaum gelingt aus den tabellarischen und graphischen Darstellungen einen zusammenfassenden Überblick über die wirklich wesentlichen und auffälligen Informationen zu gewinnen (siehe zum Beispiel BOKELMANN & VOTH, 1986, BLECKEN, 1987, JOKIEL & HOCKWIEN, 1994).
Mit Hilfe der im Kapitel 2 besprochenen Methoden soll nun der Einblick in die Daten einer typischen betriebsbegleitenden Untersuchung, wie sie an der Landwirtschaftskammer Westfalen-Lippe durchgeführt werden, vertieft werden. Dabei interessieren vor allem die folgenden Fragen:
Grundlegende Probleme der Daten stellen zum einen die Frage nach der Aufzeichnungsgenauigkeit und zum anderen die insgesamt geringe Anzahl an Betrieben, die sich an der Untersuchung beteiligt haben, dar. Insofern läßt die betriebsbegleitende Untersuchung keine
87
Rückschlüsse auf die Cyclamenkultur im Allgemeinen zu. Die im den folgenden Kapiteln dargestellte Auswertung dient somit in erster Linie der Darstellung der Daten, die zu einer verbesserten Kommunikation der in den Daten enthaltenen Informationen führt. Im Vordergrund steht das Bemühen um eine kompakte und prägnante Darstellung der durch die betriebsbegleitende Untersuchung gewonnenen Informationen.Die betriebsbegleitende Untersuchung, die nun besprochen wird, wurde 1994 durchgeführt. Beteiligt waren 20 Betriebe, die zum gleichen Zeitpunkt ein einheitliches Cyclamen-Ausgangsmaterial der Sorten ‘Sierra und ‘Concerto gestellt bekamen und dann im Laufe der Kultur Aufzeichnungen zum Kulturablauf, zur Klimaführung und zu Düngung und Pflanzenschutz erstellten. Zusätzlich wurden Strukturdaten der Betriebe erhoben und an drei Zeitpunkten Substratanalysen durchgeführt. Im Anschluß an die Kultur in den Betrieben erfolgte eine Haltbarkeitsprüfung am Bildungs- und Versuchszentrum des Gartenbaus, Wolbeck, während der zu drei Zeitpunkten Qualitätsbonituren durchgeführt wurden. Der genaue Ablauf der Untersuchung ist JOKIEL & HOCKWIEN, 1994, und PETERS, 1994, zu entnehmen. Die Übersichten A1 bis A4 geben einen Überblick über die in der Untersuchung erfaßten Merkmale.
88
Nacheinander werden nun die vier Variablensets ausgewertet und dann einer Gesamtbetrachtung unterzogen. Es wird so vorgegangen, daß zunächst eine oder mehrere Abbildungen kurz erläutert werden (gekennzeichnet durch vor den Absatz gestelltes --Zeichen), und dann interpretiert werden (gekennzeichnet durch vor den Absatz gestelltes -Zeichen). Spezielle methodische Anmerkungen folgen auf ein *-Zeichen. Die Abbildungen und Übersichten sind im Anhang Teil I A und II A hinterlegt.
a-Einführende Datenanalyse
- Einen ersten Einblick in die Qualitätsbonituren der beteiligten Betriebe geben die farbcodierten Starplots in Abbildung A1. Die Länge der Strahlen entspricht dem Boniturwert, rote Strahlen liegen im Bereich von 1 bis 3, grüne Strahlen im Bereich von 4 - 6 und blaue Strahlen im Bereich von 7 - 9. Jeder Strahl entspricht einer der 17 Variablen (fünf Merkmale an drei Zeitpunkten und ein Merkmal (Wurzelqualität) an zwei Zeitpunkten bestimmt), jeder Stern einem Betrieb.
Besonders auffällig ist das schlechte Ergebnis von Betrieb 3, vor allem bei der Sorte ‘Sierra, und von Betrieb 19, vor allem bei der Sorte ‘Concerto. Demgegenüber fallen die Betriebe 2, 11, 12 und 13 bei ‘Sierra und die Betriebe 1, 5 und 13 bei ‘Concerto durch relativ gute Ergebnisse auf. Neben der Betrachtung einzelner Betriebe ist aber der grundsätzliche Eindruck festzuhalten, daß die Beurteilungen bei ‘Sierra insgesamt gesehen etwas besser zu sein scheinen als bei ‘Concerto, und daß eine Betrieb-Sorte-Wechselwirkung vermutet werden kann, daß also Betriebe mit recht guten Ergebnissen bei einer Sorte durchaus weniger gute Ergebnisse bei der anderen Sorte haben können (siehe zum Beispiel die Betriebe 10, 11 und 12 (‘Sierra besser als ‘Concerto), beziehungsweise die Betriebe 1, 5, und 14 (‘Concerto besser als ‘Sierra)).
- Zur Veranschaulichung, ob ‘Sierra tatsächlich in der Regel etwas besser beurteilt wurde als ‘Concerto, und um zu zeigen, wie sich die Qualitätsbeurteilungen im Mittel mit der Zeit verändert haben, dient der Dotplot in Abbildung A2. Er zeigt die Mediane (über alle Betriebe) aller Merkmale. Der Kreis steht für ‘Sierra, das Kreuz für ‘Concerto.
Man sieht, daß die mittlere Beurteilung sich bei allen Merkmalen mit der Zeit verschlechtert. ‘Sierra wird im Mittel bei allen Merkmalen, außer beim Wurzelbild in Woche 44, immer gleich oder besser als ‘Concerto beurteilt. ‘Concerto rutscht in der Schlußbewertung in Woche 48 bei immerhin drei Merkmalen (Gesamteindruck, Knospenbesatz und Welke) im Mittel unter die Boniturnote 5, den Mittelpunkt der gewählten Ordinalskala.
- Die vier Trellis-Displays der Abbildung A3 beinhalten die einzelnen Boniturwerte der teilnehmenden Betriebe für die Bewertungswochen 44 und 48. Sie sind in der Art geordnet, daß in jedem Trellis-Display im Panel unten links der Betrieb mit dem kleinsten Median (über alle
89
Merkmale), also der insgesamt am schlechtesten beurteilte Betrieb steht, und daß oben rechts der Betrieb mit dem höchsten Median (über alle Merkmale), also der insgesamt am besten beurteilte Betrieb steht. Die Merkmale sind geordnet nach: Gesamteindruck (1), Knospenbesatz (2), Wurzelbild (3), Fehlen von Vergilbung (4), Fehlen von Welke (5), Fehlen von Krankheiten (6). In Woche 44 wird bei beiden Sorten die Ware von Betrieb 13 am besten, die von Betrieb 3 am schlechtesten beurteilt. Die Beurteilungen bei ‘Concerto erscheinen insgesamt etwas gleichmäßiger zu sein als bei ‘Sierra. In Woche 48 fällt vor allem bei ‘Concerto die Zunahme der Variabilität der Bonituren zwischen und innerhalb der einzelnen Betriebe und ein etwas schlechteres Ergebnis im Vergleich zu ‘Sierra auf (zum Beispiel beim Vergleich der besten Betriebe, also in den obersten Zeilen der jeweiligen Trellis-Displays für Woche 48). Interessant ist auch die Entwicklung von Betrieb 3. Während er bei ‘Sierra zu beiden Zeitpunkten an unterster Stelle liegt, ist er bei ‘Concerto in Woche 48 bis ins Mittelfeld der Betriebe aufgerückt. Verschiebungen in der Rangfolge der Betriebe sind in allen Abbildungen deutlich, ebenso wie die schon in den Starplots auffällige Betriebe-Sorte Wechselwirkung.
- Eine andere Trellis-Darstellung wird für die beiden Merkmale Gesamteindruck und Knospenbesatz in den Trellis-Displays in den Abbildungen A4 und A5 gewählt (für die übrigen Merkmale ergeben sich ähnliche Abbildungen). Die Sortierung der Panels basiert wieder auf dem Median, so daß links unten Woche und Sorte mit dem niedrigsten Median des Merkmal (über alle Betriebe) und analog rechts oben Woche und Sorte mit dem höchsten Median steht. Die Betriebe sind ihrerseits nach ansteigendem Median über alle Sorte-Woche-Kombinationen sortiert. Die rote Referenzlinie grenzt den Bereich niedriger gegen den Bereich mittlerer Boniturwerte, die blaue Referenzlinie den Bereich mittlerer gegen den Bereich hoher Boniturwerte ab.
‘Sierra wird demnach bei beiden Merkmalen im Mittel besser beurteilt als ‘Concerto. Bei beiden Sorten nimmt die Beurteilung von Woche 44 über Woche 46 zu Woche 48 ab. Die stärkere Streuung der Boniturwerte zwischen den Betrieben bei ‘Sierra fällt insbesondere beim Gesamteindruck in Woche 48 auf. Beim Knospenbesatz findet bei ‘Concerto eine auffällig stärkere Verschlechterung von Woche 44 zu Woche 48 statt als bei ‘Sierra. Schließlich ist anzumerken, daß die Rangfolge der Betriebe beim Knospenbesatz deutlich von der Rangfolge der Betriebe beim Gesamteindruck abweicht. Die Korrelationsmatrizen mit den Spearman-Rangkorrelations-koeffizienten in den Übersichten A5 und A6 zeigen, daß dies kein Einzelfall ist, sondern (erstaunlicherweise) zwischen der Beurteilung des Gesamteindrucks und der Beurteilung der einzelnen Qualitätsmerkmale nur geringe Korrelationen bestehen. Dies sollte Anlaß sein, die Praxis der visuellen Beurteilung zu hinterfragen.
b-Korrespondenzanalyse bipolarer Daten und nichtlineare Biplots
90
Mit Hilfe der Korrespondenzanalyse werden die Qualitätsbeurteilungen der Betriebe nun weiter verdichtet. Zunächst werden die absoluten Beiträge der Variablen zu den ersten beiden Dimensionen für die vier Sorte-Woche-Kombinationen miteinander verglichen und dann die zweidimensionalen Korrespondenzanalyseplots getrennt für die Sorten ‘Sierra und ‘Concerto sowie jeweils die Wochen 44 und 48 dargestellt und interpretiert. Es erfolgt abschließend eine zusammenfassende Beurteilung.Nichtlineare Biplots, basierend auf einer Hauptkoordinatenanalyse, werden im Anschluß als Alternative zur Korrespondenzanalyse diskutiert.
- Abbildung A6 zeigt die über die positiven und negativen Pole akkumulierten, absoluten Beiträge der Variablen in den ersten beiden Dimensionen.
Auffällig ist, das nur ein einziges Merkmal, nämlich die Beurteilung der Wurzelqualität in allen vier Analysen einen wesentlichen Beitrag zur Gestaltung der Plots leistet, in drei von vier Fällen auf der zweiten Hauptachse. Die Beurteilung der Gesamtqualität beeinflußt die Darstellungen für die Sorte ‘Sierra stärker als für die Sorte ‘Concerto. Allerdings wird auch sichtbar, daß zwischen den vier Abbildungen recht große Unterschiede bestehen, und somit offensichtlich die größten Quellen der Variabilität in allen vier Analysen bei anderen Merkmalen zu suchen sind, obwohl der Anteil der durch die ersten beiden Dimensionen ‘erklärten Inertia in allen Fällen annähernd gleich ist (um 60%).
- Abbildung A7 beinhaltet den Plot für ‘Sierra in Woche 44.
Die geringen Korrelationen zwischen den Variablen sind ebenso zu erkennen (approximiert durch die Winkel zwischen den Linien) wie die Unterschiede der Variabilität und der Polarisation des Mittels der einzelnen Variablen (approximiert durch die Länge der Linien und ihren Schnittpunkt mit dem Ursprung). Alle Variablen weisen eine gewisse Polarisation des Mittels auf, wobei der Ursprung in allen Fällen dem positiven Pol näher ist als dem negativen, was ein Hinweis auf insgesamt hohe mittlere Boniturwerte ist. Besonders stark ist die Polarisation des Mittels bei dem Kriterium Vergilbung (9,143), das heißt diese Variable ist am stärksten durch Bonituren nahe der Extreme der Boniturskala geprägt. Die Objekte konzentrieren sich tatsächlich an einem der beiden Endpunkte der Boniturskala (in diesem Fall am positiven Pol). Dies wird auch durch den sehr hohen Wert bei der Polarisation der Objekte von 10,667 bei dieser Variablen unterstrichen. Die Darstellungsqualität in zwei Dimensionen ist für alle Variablen mit Ausnahme des Knospenbesatzes recht gut (Qualität (und zwar Qualität im Sinne der Korrespondenzanalyse, siehe 2.1.3) in allen Fällen größer als 0,5, Knospenbesatz 0,1968). Auch die Darstellungsqualität der Objekte ist relativ hoch (2, 3, 8, 13, 18 und 19 über 0,7), allerdings gibt auch sehr schlecht repräsentierte Objekte, insbesondere die Betriebe 4 und 16, die in der Abbildung direkt am Ursprung liegen und ihre Lage in einer dritten Dimension bei einer Qualität in den ersten beiden Dimensionen von unter 0,1 haben. Auffällig ist die durch die
91
Korrespondenzanalyse bedingte starke Hervorhebung von Objekten mit extremen Werten, wie zum Beispiel des Betriebes 8 mit einer sehr geringen und der Betriebe 18 und 19 (liegen übereinander) mit einer sehr hohen Bewertung der Wurzelqualität. Tendenziell läßt sich festhalten, daß von oben nach unten die Boniturwerte mit Ausnahme der Wurzelbeurteilung, abnehmen und von links nach rechts die Wurzelqualität und (merkwürdigerweise) die Anfälligkeit für Krankheiten zunimmt.- Abbildung A8 zeigt den Plot für ‘Sierra in Woche 48.
Erkennbar wird die deutliche Abnahme der Polarisation des Mittels, was in diesem Fall einer Abnahme der Boniturwerte entspricht, die Beeinflussung der ersten Dimension durch die Variablen Gesamtbeurteilung und Krankheiten, sowie die Bestimmung der zweiten Dimension durch die Merkmale Knospen- und Wurzelbeurteilung. Besonders auffällig ist die Position der Betriebe 3, 7 und 19 im Bereich der negativen Pole von Gesamt- und Krankheitsbeurteilung, von Betrieb 8 am negativen Pol der Knospen- und Wurzelbeurteilung und Betrieb 12 am positiven Pol der Gesamtbeurteilung. Die übrigen Betriebe trennen sich recht bemerkenswert in zwei Gruppen, eine Gruppe mit eher hohen Werten bei Gesamt-, Knospen- und Wurzelbeurteilung und niedrigen Werten bei den übrigen Beurteilungen (Betriebe 2, 3, 4, 5, 13, 15, 20) und eine zweite Gruppe mit hohen Werten bei Vergilbungs-, Krankheits- und Welkebeurteilungen und niedrigen Werten bei den anderen Merkmalen (Betriebe 9, 10, 11, 14, 16, 18).
- Abbildung A9 beinhaltet den Plot für ‘Concerto in Woche 44, Abbildung A10 für ‘Concerto in Woche 48.
Die Abnahme der Polarisation, und damit der Bonituren, tritt bei ‘Concerto wie bei ‘Sierra hervor. Der starke Einfluß der Wurzelbeurteilung in der zweiten Dimension, nahezu im rechten Winkel zu den übrigen Merkmalen in beiden Plots, deutet auf annähernde Unabhängigkeit zwischen der Beurteilung der Wurzelqualität und der Beurteilung der übrigen Merkmale hin. Diese scheinen ansonsten höher korreliert zu sein als bei ‘Sierra, allerdings ist die Qualität der Darstellung, vor allem in A10 zum Teil sehr gering (Gesamt, Vergilbung, Welke und Krankheiten deutlich unter 0,5). Beide Plots weisen eine recht starke Gruppierung der Betriebe in der ersten Dimension auf, mit den Betrieben 1, 2, 5, 10, 13, 14, 15 und 18 an den positiven Polen und den Betrieben 3, 7, 8, 11, 19 an den negativen Polen in Woche 44, sowie den Betrieben 5, 13, 14, 15, 16, 18, 20 am negativen Pol der Knospenbeurteilung und an den positiven Polen der anderen Variablen (außer Wurzeln), sowie den Betrieben 1, 2, 3, 6, 7, 8, 10, 12 und 17 am positiven Pol der Knospenbeurteilung, aber an den negativen Polen der übrigen Variablen (außer Wurzeln) in Woche 48.
* Bei den zweidimensionalen Korrespondenzanalyseplots in den Abbildungen A7 bis A10 handelt es sich um jeweils zweidimensionale Approximationen an eine 6-dimensionale Wirklichkeit. Bei einer Interpretation derartiger Plots ist zu beachten, daß mit dieser Approximation ein gewisser
92
Informationsverlust einhergeht und Fehlrepräsentationen durchaus möglich sind, zumal wie in diesem Beispiel der Anteil der von den ersten beiden Dimensionen ‘erklärten Inertia in allen Abbildungen relativ gering ist. Sie liefern aber eine übersichtliche graphische Zusammenfassung einer Vielzahl von Informationen zu den jeweiligen Daten. Allerdings handelt es sich bei den Korrespondenzanalyseplots nicht um Biplots im eigentlichen Sinne, da die Distanz zwischen Objektkoordinaten und Variablenkoordinaten nicht definiert ist. Eine echte Biplotinterpretation im Sinne interpolativer Biplots ist für ordinalskalierte Variablen entweder durch die Konstruktion von Interpolationsregionen (siehe 2.2.2) oder die im folgenden Abschnitt behandelten nichtlinearen, interpolativen Biplots möglich.- Die nichtlinearen Biplots der Abbildungen A12 bis A15 basieren auf einer Hauptkoordinatenanalye der am Mittelwert zentrierten Qualitätsbonituren. Das der Distanzmatrix der Hauptkoordinatenanalyse zugrunde liegende Maß ist die wegen ihrer sinnvollen ordinalen Interpretation gewählte City-Block-Distanz. Die Abbildungen A11a bis A11h zeigen die Konfigurationen der Betriebe bei beiden Sorten in beiden Wochen mit und ohne überlagerten Multiple Spanning Tree.
Die Eigenwerte der ersten beiden Dimensionen sind vergleichsweise gering, in allen Fällen ist der Anteil ‘erklärter Varianz kleiner als 50%. An der Überlagerung durch den Multiple Spanning Tree wird deutlich, daß es an verschiedenen Stellen zu recht erheblichen Verzerrungen in der dimensionserniedrigten Darstellung kommt (außer in A11f) und manche Objekte offensichtlich recht schlecht repräsentiert sind (zum Beispiel liegen in A11h die Betriebe 15 und 16 in der Abbildung sehr dicht beieinander, während die ihnen tatsächlich am nächsten liegenden Betriebe, das sind der Betrieb 20 (für 15) und der Betrieb 6 (für 16) in der zweidimensionalen Approximation sehr viel weiter entfernt sind). Die Lage der Betriebe im Koordinatensystem zueinander ist jedoch der vorangehenden Darstellung durch die Korrespondenzanalyse recht ähnlich (außer bei ‘Concerto, Woche 48), was auch aufgrund der engen Beziehung zwischen Hauptkoordinatenanlyse und Korrespondenzanalyse nicht verwundert.
- Bei den nichtlinearen Biplotbahnen der Abbildungen A12 bis A15 handelt es sich der Übersichtlichkeit halber um an den Schnittpunkten der Achsen um den Faktor 6 (das entspricht der Anzahl der Variablen) gestreckte Achsen, so daß theoretisch eine Interpolation durch das einfache Auffinden des Zentroids der jeweils zutreffenden Variablenmarker möglich ist.
* Allerdings fällt auf, daß es in einigen Fällen nicht einmal für die Orginalobjekte eine hundertprozentig genaue Interpolation geben kann. Dies ist bedingt durch die Verwendung der nicht euklidisch einbettbaren City-Block-Distanz. Nur echte euklidische und euklidisch einbettbare Distanzmaße führen zu einer exakten Interpolation. Sowohl die nicht exakte Interpolation, als auch der zum Teil recht stark gekrümmte Verlauf der Biplotbahnen sind ein Indiz für das grundsätzliche Problem, das die Verwendung nicht-euklidischer Distanzmaße im euklidischen Referenzsystem mit sich bringt.
93
c-Gemeinsame Betrachtung durch ordinale mehrdimensionale Skalierung der Korrelationsmatrix und generalisierte Prokrustes-Analyse
Die Qualitätsbeurteilungen, die an zwei Zeitpunkten und an zwei Sorten bei sechs Merkmalen, also in insgesamt vier Kombinationen vorgenommen wurden, sollen nun einer gemeinsamen Betrachtung unterzogen werden.
- Aufbauend auf der Spearman-Korrelationsmatrix, die die Korrelationen für die Sorte-Merkmal-Kombinationen, dem Multi-Trait-Multi-Method-(MTMM)-Ansatz<37> folgend, beinhaltet (siehe Übersicht A8), wird für beide Beurteilungswochen getrennt zunächst eine Hauptkoordinatenanalyse gerechnet (siehe Übersicht A9), und die aus ihr gewonnene Distanzmatrix dann einer ordinalen mehrdimensionalen Skalierung unterzogen. Der stress-Wert für Woche 44 ist mit 0,1073 recht gut, und selbst der stress-Wert für Woche 48 ist mit 0,1774 noch akzeptabel. Die Plots sind in den Abbildungen A16a bis A16d zusammengefaßt. Die Abbildungen A16a und A16c verwenden zur Kennzeichnung der Punkte die Bezeichnung der Sorte (Si für ‘Sierra, Co für ‘Concerto), die Abbildungen A16b und A16d die Bezeichnug der Merkmale (ges für Gesamt, kno für Knospenbesatz, wur für Wurzelqualität, gil für Vergilbung, wel für Welke, kra für Krankheiten). A16a und A16b beziehungsweise A16c und A16d beinhalten also die gleichen Konfigurationen, nur mit unterschiedlicher Kennzeichnung der Punkte.
Die Abbildungen A16a und A16b weisen eine deutliche Konzentration der in Woche 44 bestimmten Merkmale für ‘Sierra im unteren Teil und für ‘Concerto im oberen Teil der Abbildung auf, was auf eine geringe Korrelation der Boniturwerte zwischen den Sorten und eine stärkere Korrelation der Qualitätsmerkmale innerhalb der Sorten hindeutet. Dies trifft insbesonders für ‘Concerto zu, wo die Merkmale Gesamteindruck, Knospenbesatz, Vergilbung, Welke und Krankheiten dicht beieinander liegen und somit positiv miteinander korreliert sind, während sich die Wurzelqualität von dieser Variablengruppe deutlich absetzt, was auf eine
94
negative Korrelation zu den übrigen Merkmalen schließen läßt. Eine aus kulturtechnischer Sicht nur schwer erklärbare Beobachtung. Dieser Plot verstärkt damit die schon in Abbildung A9 gemachte Beobachtung. Bei ‘Sierra nimmt das Merkmal Gesamtbeurteilung eine zentrale Stellung ein. Der Gesamteindruck ist mit allen übrigen Merkmalen bei ‘Sierra positiv korreliert. Knospenbesatz und Wurzelbesatz auf der einen Seite, und Vergilbung, Welke und Krankheiten auf der anderen Seite bilden zwei Variablengruppen, deren Variablen innerhalb positiv, aber mit den Variablen der anderen Gruppe negativ korrelieren. Schließlich liegt der Gesamteindruck beider Sorten im Plot der mehrdimensionalen Skalierung relativ nahe beieinander, so das es sich bei diesem Merkmal um das zwischen den Sorten offensichtlich am stärksten korrelierte Merkmal handelt. Die Abbildungen A16c und A16d zeigen die Plots für Woche 48, die sich gegenüber Woche 44 recht stark verändert haben. Die Korrelationen innerhalb der Sorten haben durchweg abgenommen, die Sortenpositionen sind wesentlich weniger kompakt, während die paarweisen Merkmalskombinationen in fast allen Fällen zugenommen haben. Dies trifft vor allem auf die nun sehr nahe beieinanderliegenden Merkmale Gesamteindruck, Wurzelqualität und Welke zu. Bei einem allgemeinen Rückgang der Qualität von Woche 44 zu Woche 48 (siehe A2) und einer Zunahme der Variabilität der Beurteilungen innerhalb jedes Betriebes vor allem bei ‘Concerto (siehe A3), sind die Bonituren in Woche 48 über beide Sorten offensichtlich etwas harmonischer und einheitlicher als in Woche 44. Während in Woche 44 ‘Sierra noch eine deutlich von ‘Concerto abweichende Beurteilungsstruktur aufweist, wird sie ihr in Woche 48 sehr viel ähnlicher. Dies mag Anlaß zu der Vermutung sein, daß in der Zeit nach dem Produktionsende der Einfluß der einzelnen Betriebe stärker zutage getreten ist. Während anfangs Sortenunterschiede dominieren, sind es später die besseren oder schlechteren Bewertungen der Qualitäten der einzelnen Betriebe, was als Indiz für die Wirkung einer inneren Qualität herangezogen werden könnte. Allerdings mag die stärkere Beziehung der Bonituren desselben Merkemals der beiden Sorten in Woche 48 auch zumindest teilweise durch einen Zugewinn an Beurteilungsroutine durch die bewertende Person zu erklären sein.
* Die Darstellung der Korrelationsmatrix in der Form unterschiedlich gekennzeichneter Plots nach ordinaler mehrdimensionaler Skalierung erweist sich als ein sehr hilfreiches Vorgehen, um Beziehungszusammenhänge aufzuspüren und graphisch abzubilden. Beim Vergleich mit den Korrelationsmatrizen (Übersicht A8) fällt auf, daß tatsächlich eine vernünftige Abbildung wesentlicher Zusammenhänge zustande gekommen ist. Allerdings darf nicht übersehen werden, daß die absolute Größe der Korrelationskoeffizienten gering ist, und daher auch in diesem Beispiel vor einer Überinterpretation gewarnt werden muß.
- In der folgenden Prokrustes-Analyse geht es um die Beurteilung der relativen Lage der Betriebe zueinander. Abbildung A2 ist bereits zu entnehmen, daß es zu einem Qualitätsrückgang zwischen Woche 44 und 48 gekommen ist. Die Abbildungen A4 und A5 verdeutlichen, daß es
95
sich bei ‘Sierra bei den dargestellten Merkmalen um die insgesamt etwas besser beurteilte Sorte handelt. Das heißt also, daß zwischen den Mittelwertsvektoren der Qualitätsbonituren von ‘Sierra Woche 44, ‘Sierra Woche 48, ‘Concerto Woche 44 und ‘Concerto Woche 48 erkennbare Unterschiede bestehen. Werden die Boniturdaten direkt mit der Prokrustes-Analyse analysiert, so bestätigt der hohe Varianzwert für die Streuung zwischen den vier Konfigurationen von 1064,9 (initial between-configurations s.s.), das sind 40,4% der Gesamtstreuung, diese Unterschiede. In der Prokrustes-Analyse erfolgt als erster Schritt die Verschiebung der Konfigurationen auf einen gemeinsamen Ursprung, so daß diese Mittelwertsunterschiede eliminiert werden, da nicht diese im Mittelpunkt der Analyse stehen, sondern die relative Lage der Objekte zueinander.
- Es werden nun nicht die Orginalboniturwerte, sondern die durch die oben (b-) beschriebene Korrespondenzanalyse ermittelten Objektkonfigurationen der Prokrustes-Analyse unterzogen. Abbildung A17 faßt diese Konfigurationen noch einmal für die vier Sorte-Woche-Kombinationen in den ersten beiden Dimensionen zusammen. Nach erfolgter Prokrustes-Analyse ergeben sich Skalierungsfaktoren und Rotationsmatrizen, die die Orginalkonfigurationen (in allen Dimensionen) so verändern, daß sie zu einer größtmöglichen Deckung mit der Konsens-Konfiguration gelangen. Die durch die Skalierungsfaktoren und Rotationsmatrizen veränderten Orginalkonfigurationen sind in Abbildung A18 (für ‘Sierra) und A19 (für ‘Concerto) beziehungsweise in Abbildung A21 (für Woche 44) und A22 (für Woche 48) in den ersten beiden Dimensionen abgebildet. Sie ermöglichen eine bessere Vergleichbarkeit (bei gleicher Darstellungsgüte) als die in A17 abgebildeten Orginalkonfigurationen. Die jeweilige Konsens-Konfiguration ist in Abbildung A20 (getrennt für ‘Sierra und ‘Concerto) beziehungsweise in Abbildung A23 (getrennt für Woche 44 und Woche 48) und in Abbildung A24 (für alle Kombinationen) zu finden. Der Anteil ‘erklärter Varianz durch die ersten beiden Dimensionen der Konsens-Konfigurationen liegt bei 60%.
Bei beiden Sorten kommt es zwischen den beiden Wochen zu einer recht guten Übereinstimmung zwischen den Konfigurationen. Das Residuum liegt bei ‘Sierra bei 0,536 (das entspricht 26,8%) und bei ‘Concerto sogar nur bei 0,441 (das entspricht 22,1%). Diese recht gute Übereinstimmung wird in A18 und A19 durch die Nähe der dunkelblauen (Woche 44) und der hellblauen (Woche 48) Punkte mit gleicher Bezeichnung verdeutlicht, zum Beispiel in A19 die Positionen der Betriebe 7, 8, 11, 13, 14, 15 und 18. Das Maß der Übereinstimmung läßt den Schluß zu, daß die Ähnlichkeitsbeziehungen der Betriebe innerhalb der Sorten zwischen den Wochen relativ stabil sind, bei ‘Concerto noch in höherem Maß als bei ‘Sierra. Ähnlich verhält es sich bei der Betrachtung der beiden Beurteilungswochen. In Woche 44 tritt bei einem Residuum von 0,529 (das entspricht 26,5%), die nahezu identische Lage der Betriebe 2, 3, 13, 14, und 16 hervor (Abbildung A21). Demgegenüber ist das Residuum in Woche 48 mit 0,589 (das entspricht 29,5%) etwas höher, das heißt, die relative Lage der Betriebe weicht in Woche
96
48 (siehe Abbildung A22) in den sortenbezogenen Konfigurationen stärker voneinander ab als in Woche 44. Zusammmenfassend darf also festgestellt werden, daß die Konfigurationen von ‘Concerto stabiler sind als die von ‘Sierra, und daß die Konfigurationen in Woche 44 stabiler sind als die in Woche 48. Einzelne Betriebe, die in den Konsens-Konfigurationen durch sehr große Residuen auffallen, die also ihre Lage in den verschiedenen Konfigurationen besonders stark verändern, sind (in Klammern die Residuen, also die individuellen Differenzen): Betriebe 7 (0,048), 12 (0,045) und 19 (0,046) bei ‘Sierra; Betriebe 1 (0,045), 10 (0,056) und 19 (0,037) bei ‘Concerto; Betriebe 2 (0,060), 7 und 11 (beide 0,047) und 17 (0,051) bei Woche 44; sowie Betriebe 3 (0,058), 12 (0,075) und 19 (0,052) bei Woche 48. Unterstrichen werden diese hohen Residuen durch die Dotplots in den Abbildungen 24a-d. So wird in 24a deutlich, daß sich bei ‘Sierra die Betriebe 7 und 19 im Mittel um 3 Einheiten von Woche 44 zu Woche 48 verschlechtert haben, während Betrieb 12 als einziger Betrieb von Woche 44 zu Woche 48 in der Beurteilung im Mittel nicht nach unten tendiert. Abbildung 24d zeigt demgegenüber, daß ‘Concerto bei Betrieb 3 in Woche 48 im Mittel als einziger Betrieb besser, ‘Concerto bei Betrieb 12 dagegen erheblich schlechter beurteilt wird als bei ‘Sierra. Beim Vergleich aller vier Konfigurationen (siehe Abbildung A25) wird deutlich, daß sich eine Vielzahl der Punkte am Ursprung der Abbildung konzentrieren. Dies ist ein Anzeichen dafür, daß es sich um relativ heterogene Konfigurationen handelt. Tatsächlich liegt das Residuum bei 1,659 (das entspricht 41,5%) und ist also deutlich höher als bei der paarweisen Prokrustes-Analyse. Es ist demnach sehr schwierig alle vier Kombinationen auf eine gemeinsame Konfiguration zu vereinen. Die relativen Ähnlichkeitsbeziehungen der Betriebe variieren zu stark von Sorte zu Sorte und von Woche zu Woche. Die einzelnen Beurteilungszeitpunkte stellen also Momentaufnahmen dar, aus denen sich sich nur schwerlich eine allgemeingültige Beziehung der Qualität der Betriebe untereinander ableiten läßt.
* Eine alternative Betrachtung derselben Daten kann durch eine gewichtete, ordinale mehrsdimensionale Skalierung erfolgen. Die Ergebnisse werden hier nicht gezeigt. Die stress-Werte in zwei Dimensionen sind sehr hoch, und die gemeinsame Konfiguration aller vier Konfigurationen ähnlich unscharf wie die der Prokrustes-Analyse.
d-Hierarchische Clusteranalyse
Da die bislang gemachten Beobachtungen nicht darauf hindeuten, daß es bezogen auf alle Merkmale, Sorten und Beurteilungszeitpunkte eine durchgängige Struktur bei den Betrieben gibt, die auf eine deutliche Gruppenbildung schließen ließe, soll die Clusteranalyse hier nur als ergänzendes, deskriptives Instrument eingesetzt werden.
- Abbildung A26 zeigt die Dendrogramme unterschiedlicher Clusteralgorithmen bei Verrechnung des gesamten Datensatzes, also der 24 Variablen der Wochen 44 und 48 bei ‘Sierra und ‘Concerto.
97
a-Einführende Datenanalyse
- Die Betrachtung der Substratanalysewerte wird mit der Darstellung der 12 Variablen in Form einer Scatterplotmatrix in Abbildung A27 begonnen. Die Betriebe, die in der vorangegangenen Clusteranalyse der Qualitätsmerkmale eine besondere Position eingenommen haben, sind farb-lich hervorgehoben, und zwar der Betrieb 3 rot, der Betrieb 8 blau, die Betriebe 7, 11 und 19 grün. Die übrigen Betriebe sind schwarz gekennzeichnet.
Die Scatterplotmatrix zeigt auffällige Korrelationen zwischen N, K und Salz vor allem in Woche 23. In den anderen beiden Wochen sind die Beziehungen bei weitem nicht so stark ausgeprägt. Auch liegen offensichtlich zwischen den Terminen keine starken Korrelationen vor. Dies bestätigt die Tatsache, daß sich selbst bei zeitlich nahe beieinander liegenden Untersuchungen aufgrund der vielfältigen Einflußmöglichkeiten der Kultivateure stark voneinander abweichende Ergebnisse ergeben können. Insbesondere in Woche 41 werden die N, K und Salz-Plots durch einzelne sehr extreme Werte so beeinflußt, daß kaum noch etwas von der Beziehung der Merkmale zueinander im Scatterplot erkennbar ist. Interessanterweise handelt es sich bei den auffälligen Werten um die Betriebe 3 (N41), 3 und 8 (K41), und 3 und 19 (SALZ41), also um Betriebe, die auch schon bei der Qualitätsbeurteilung aufgefallen sind. Auch in den übrigen Wochen liegen die Betriebe der drei kleinen Cluster häufig am oberen Ende der Skala, so daß es sich demnach um Betriebe handelt, die recht stark gedüngt haben. Die Rangkorrelelationsmatrix liefert in Übersicht A10 die numerische Information zu den Korrelationen (ohne Betrieb 5, siehe folgender Abschnitt).
- Die Substratanalysen konnten in Woche 41 für den Betrieb 5 nicht durchgeführt werden. Es tauchen daher im Datensatz insgesamt vier fehlende Werte auf. Vor einer Schätzung dieser fehlenden Werte durch das Verfahren nach BEALE & LITTLE, 1975, soll der Datensatz auf Multi-normalverteilung überprüft werden, da das genannte Einsetzungsverfahren diese
98
voraussetzt. Übersicht A11 zeigt, daß Tests sowohl auf univariate (marginal) als auch auf bivariate (bivariate angle) und multivariate (radius) Normalverteilung vielfach signifikante Ergebnisse erbringen, daß es also deutliche Hinweise auf ein Abweichen von der Normalverteilung gibt, obwohl die Testergebnisse zum Teil erheblich voneinnader abweichen. Der Versuch einer Schätzung der fehlenden Werte nach BEALE & LITTLE, 1975, produziert demzufolge nur bedingt brauchbare, für N41 sogar negative Schätzer (N41 geschätzt -265,7; K41 geschätzt 144,8; SALZ41 geschätzt 0,048; PH41 geschätzt 5,317). Es wird daher hier so weiter vorgegangen, daß die Auswertung der Substratanalysewerte ohne den Betrieb 5 durchgeführt wird.
- Weiterhin soll überprüft werden, ob es Anzeichen für multivariate Ausreißer gibt. Hierzu wird das Verfahren nach CAMPBELL, 1980, eingesetzt.
Obwohl einige Betriebe recht hohe Mahalanobis-Distanzen besitzen, insbesondere die Betriebe 3 und 19, ist das Indiz für echte Ausreißer gering. Es wird daher in der folgenden Hauptkomponentenanalyse mit der normalen Kovarianzmatrix der standardisierten Werte gerechnet und nicht mit einem robusten Schätzer der Korrelationsmatrix. Die Standardisierung ist erforderlich, da die einzelnen Variablen sehr unterschiedliche Maßeinheiten besitzen und stark voneinander abweichende Varianzen aufweisen (siehe Übersicht A2).
b-Hauptkomponentenanalyse I - Anzahl der ‘wesentlichen Dimensionen
Bevor die Substratanalysewerte in Form von Hauptkomponentenanalyse-Biplots graphisch dargestellt werden, soll zunächst die Frage untersucht werden, wieviele Komponenten eigentlich notwendig sind, um die in den Daten enthaltenen Informationen mit möglichst geringem Informationsverlust abzubilden. Es werden diskutiert: Screeplot, CUSUM-Diagramm und Anteil ‘erklärter Varianz; Velicers partielle Korrelations-Methode; die PRESS-Statistik; sowie Residuenplots und -tests. Auf die Anwendung von Signifikanztests zur Bestimmung der Anzahl ‘wesentlicher Dimensionen wird sowohl aufgrund des geringen Stichprobenumfangs, als auch aufgrund der Verwendung der standardisierten Werte (und damit der Korrelationsmatrix) verzichtet.
- Übersicht A13 zeigt den Screeplot nach erfolgter Hauptkomponentenanalyse der standardisierten Substratanalysewerte (ohne Betrieb 5). Zusätzlich sind die Eigenwerte, sowie der Anteil ‘erklärter Varianz jeder Komponente, und der akkumulierte Anteil ‘erklärter Varianz wiedergegeben. Zusätzlich informieren die Del1, Del2 und Del3-Spalten über die ersten Differenzen (das heißt Del1 ist die Differenz zweier per-1000-Werte (also zum Beispiel 416 - 183 = 234 (Rundungsfehler)), Del2 die Differenz zweier Del1-Werte (also zum Beispiel 234 - 45 = 189) und Del3 die Differenz zweier Del2-Werte (also zum Beispiel 189 - 8 = 181)). Diese Differenzen geben Hinweise auf den Verlauf des Screeplots und eventuelle Plateaus (angezeigt durch hohe Del2 und Del3-Werte).
Es wird deutlich, daß die erste Hauptkomponente eine herausgehobene Stellung einnimmt. Die
99
Komponenten zwei bis vier liegen erheblich darunter und es liegt durchaus nahe zwischen der ersten und den übrigen Hauptkomponenten eine Art ‘Bruchstelle zu sehen. Die hohen Del2 und Del3 Werte der zweiten und dritten Komponente deuten darüberhinaus an dieser Stelle auf eine deutliche, auch in der Graphik sichtbare Abflachung hin. Der absolute Anteil ‘erklärter Varianz durch die erste Hauptkomponente ist mit 42% aber relativ gering. Erst mit sechs Komponenten gelingt eine Abdeckung von über 90% der Varianz. Nach dem sogenannten Kaiser-Kriterium (Auswahl aller Hauptkomponenten mit Eigenwerten größer 1) sind in diesem Beispiel vier Hauptkomponenten zu betrachten. Drei unterschiedliche Kriterien liefern somit drei unterschiedliche Ergebnisse.- Eine Bereicherung des Screeplots stellt die Darstellung als CUSUM-Diagramm dar. Der Eigenwert jeder Hauptkomponente ist unterteilt in die Anteile der einzelnen Variablen, die diese zum jeweiligen Eigenwert beitragen. Es liefert somit nicht nur eine Information über die relative Bedeutung jeder Komponente, sondern auch über die Variablen, die im wesentlichen diese Komponente bestimmen. Abbildung A28 beinhaltet das CUSUM-Diagramm für die Substratanalysewerte.
Neben der großen Bedeutung der ersten Hauptkomponente wird nun sichtbar, daß diese vor allem durch die Werte aus Woche 23 und 29 bestimmt ist, und hier vor allem durch N-, K- und Salz-Messungen. Während die Variablen aus Woche 23 fast vollständig in der ersten Dimension abgebildet sind, verteilt sich die Bedeutung der Variablen aus Woche 41 fast zu gleichen Teilen auf die ersten drei Komponenten. Die pH-Wert-Messungen sind in der ersten Dimension sehr schlecht dargestellt, nehmen dafür aber in der zweiten zusammen mit der Salz-Messung, sowie auch in der dritten und vierten Dimension eine wichtige Stellung ein. Die erste Dimension bildet also vor allem N-, K- und Salzgehaltsunterschiede in den Wochen 23 und 29 zwischen den Betrieben ab, während die zweite Dimension die Betriebe nach pH-Wert und Salzgehaltsunterschieden differenziert.
* Zwischen CUSUM-Diagramm und der oben (siehe Abbildung A6) verwendeten Darstellung der absoluten Beiträge der Variablen besteht eine enge Beziehung. Es handelt sich nämlich bei den absoluten Beiträgen lediglich um den prozentualen Anteil der einzelnen Variablen an dem jeweiligen Eigenwert jeder Komponente.
- Die partielle Korrelationsprozedur nach VELICER, 1976, verwendet als als Entscheidungskriterium die fq-Werte. Es ist die Anzahl von Komponenten ausreichend, bei denen fq sein Minimum hat. Die PRESS-Statistik nach EASTMENT & KRZANOWSKI, 1982, führt zur Berechnung der W-Werte, und die Anzahl ‘wesentlicher Komponenten wird durch W-Werte von größer 1 charakterisiert. Abbildung A29a zeigt einen Plot der fq-Werte, Abbildung A29b einen Plot der W-Werte. Die Übersichten A14a und A14b geben die entsprechenden numerischen Ergebnisse.
100
- Die Abbildung A30 zeigt einen Dotplot der Hauptkomponenten-Residuen bei Verwendung von einer (Kreis) beziehungsweise von zwei (Kreuz) Hauptkomponenten. Die Übersichten A15a und A15b liefern die Werte der Residuen und die kritischen Werte bei einer Irrtumswahrscheinlichkeit von
.
In beiden Fällen sind die Residuen keines der betrachteten Objekte größer als der errechnete kritische Wert. Allerdings haben die Betriebe 3, 9, 12 und 19 (bei einer Hauptkomponente) sowie die Betriebe 3 und 12 (bei zwei Hauptkomponenten) recht hohe Residuen, so daß zumindest diese Objekte in der ein- beziehungsweise zweidimensionalen Darstellung nicht sehr gut repräsentiert sind. In einigen Fällen führt die Hinzunahme der zweiten Komponente zu einer deutlichen Verringerung der Residuen (zum Beispiel beim Betrieb 9) in anderen Fällen bleibt das Residuum nahezu unverändert (zum Beispiel bei Betrieb 14). Aufgrund der geringen Stichprobengröße ist die Aussagekraft der kritischen Werte schwach. Einen deutlichen Hinweis auf die Notwendigkeit der Betrachtung von mehr als zwei Dimensionen liefert in diesem Beispiel jedoch auch die Residuenanalyse nicht.
c-Hauptkomponentenanalyse II - Hauptkomponenten-Biplots
Es folgt nun die Darstellung der Substratanalysewerte in Form der von GOWER & HAND, 1996, beschriebenen Hauptkomponenten-Biplots.
- Die Biplots mit den Interpolationsmarkern in den Abbildungen A31, A32 und A33 zeigen die Konfigurationen der Betriebe und, der Übersichtlichkeit halber, die Variablenachsen in Woche 23 (A31), in Woche 29 (A32) und in Woche 41 (A33).
Da es sich um standardisierte Werte handelt, ist die Möglichkeit der graphischen Interpolation an der Abbildung natürlich eingeschränkt, da nicht die Originalwerte, sondern die standardisierten Werte an den Biplotachsen angezeigt werden. Auffällig sind vor allem die Betriebe 3 und 14 mit sehr hohen K-Werten an allen Meßzeitpunkten. Daneben fällt eine Gruppe von Betrieben mit hohen pH-Werten in Woche 23 und niedrigen pH-Werten in den Wochen 29 und 41 auf (Betriebe 2, 7, 8, 9, 13), die im Bezug auf die übrigen Merkmale recht stark streut. Eine zweite Gruppe, die alle restlichen Betriebe beinhaltet, liegt im Bereich mittlerer und unterdurchschnittlicher pH-Werte zu Kulturbeginn (Woche 23), und mittleren und überdurchschnittlichen pH-Werten in den Wochen 29 und 41. Bei N-, K- und Salz-Messungen liegen diese Betriebe im mittleren oder unterdurchschnittlichen Bereich.
- Die Prediktionsmarker sind in den Abbildungen A34 (Woche 23), A35 (Woche 29) und A36 (Woche 41) wiedergegeben. Sie bieten die Möglichkeit zur graphischen Abschätzung der Werte
101
der einzelnen Variablen bei den Betrieben. Ohne eine weitere Verrechnung ist die graphische Prediktion aber aufgrund der Verwendung der strandardisierten Werte auch in diesem Fall nicht leicht interpretierbar. Im für die Hauptkomponenten-Biplots entwickelten Genstat-Code wird jedoch interaktiv mit Hilfe des DREAD Befehls zunächst der standardisierte Wert für die Prediktion durch eine rechtwinklige Projektion vom Betriebspunkt auf die Biplotachse verwendet, der dann intern auf den Orginalwert umgerechnet wird. Im Ausdruck erscheint dann die Biplot-Approximation des jeweiligen Variablenwertes des ausgewählten Betriebes. Beispielhaft zeigt die Übersicht A16 die Ergebnisse der interaktiven Prediktion für den Betrieb 3 beim Salzgehalt in Woche 23, für den Betrieb 2 beim K-Wert in Woche 29, und für den Betrieb 19 beim N-Wert in Woche 41. Je nach Darstellungsgüte der Variablen (gemessen als Quadratsumme der Koeffizienten der Eigenvektoren der betreffenden Variablen der betrachteten Dimensionen) und der Betriebe wird eine mehr oder weniger gute Prediktion erreicht.
* Das interaktive Vorgehen erlaubt beim Prediktions-Biplot die Extraktion einer Vielzahl von Informationen zu den Betrieben bei der Betrachtung einer einzelnen Graphik und stellt somit ein wichtiges Intrument in der Kommunikation der Ergebnisse der Substratanalysewerte dar, das so durch einen herkömmlichen Biplot, wie er in Abbildung A37 wiedergegeben ist, bei weitem nicht erreicht werden kann.
Der dritte Variablensatz beinhaltet eine Zusammenstellung mehrerer Variablen, die sich auf die Kulturführung in den einzelnen Betrieben beziehen. Zum Teil werden direkt bestimmte Merkmale verwendet (zum Beispiel Endstand in Pflanzen je m2), zum Teil aus den Kulturaufzeichnungen abgeleitete Werte (zum Beispiel Verhältnis Pflanzen zu Kulturbeginn je m2 zu Pflanzen im Endstand je m2). Darüber hinaus wird dieses Variablenset in drei Untergruppen gegliedert: erstens Einstellung der Schattiersollwerte (Übersicht A3a), zweitens Platzbedarf und Rücken (Übersicht A3b) und drittens Verlauf der Temperaturführung (Übersicht A3c).
a-Hauptkomponentenanalyse der Schattiersollwerte
- Die Betriebe 11 und 18 operieren nicht mit Schattiersollwerten, so daß sie in dieser Auswertung nicht berücksichtigt werden können. Die Übersicht A3a zeigt bereits, daß im Mittel die Schattiersollwerte mit Zunahme der Kulturdauer zunehmen, das heißt, daß im Mittel zu Kulturbeginnn stärker schattiert, also dunkler kultiviert wird als im weiteren Kulturverlauf. Um zu einer Differenzierung zwischen den Betrieben zu gelangen, bietet sich die Hauptkomponentenanalyse der Kovarianzmatrix an. In diesem Fall ist eine Standardisierung der Werte nicht erforderlich. Die Ergebnisse der Hauptkomponentenanalyse sind in Übersicht A17 zusammengefaßt, während die Abbildungen A38a und A38b die Hauptkomponentenwerte der ersten und der zweiten Dimension in Form von Dotplots darstellen.
102
b-Ordinale mehrdimensionale Skalierung aller Merkmale
In der Folge werden nun alle Variablen des Variablenset 3 mit Hilfe der ordinalen mehrdimensionalen Skalierung verrechnet. Anstelle der ursprünglichen Schattiersollwerte werden nur die erste und die zweite Hauptkomponente verwendet. Da die Variablen sehr unterschiedliche Skalenniveaus besitzen, wird eine Proximitätsmatrix mit Hilfe des allgemeinen Ähnlichkeitskoeffizienten (nach GOWER & LEGENDRE, 1986) gebildet. Damit ergibt sich auch die Möglichkeit der Einbeziehung der Objekte mit fehlenden Werten. Durch Beziehung aller quantitativen Variablen auf ihre Spannweite, erfolgt die Gleichgewichtung aller Variablen.
- Übersicht A 18 zeigt die einzelnen Variablen und das jeweils verwendete Proximitätsmaß. Bei der ordinalen mehrdimensionalen Skalierung wird das least squares stress-Kriterium verwendet, es wird die Hauptkoordinatenanlysenkonfiguration als Ausgangskonfiguration eingesetzt, es werden dann 50 weitere, zufällige Konfigurationen gebildet und es erfolgt die primäre Behandlung gleicher Werte, das heißt es werden keine Begrenzungen auf Objekte mit identischen Werten in der Proximitätsmatrix gesetzt. Die Skalierung mit dem geringsten stress-
103
Wert (von 50 Ausgangskonfigurationen) wird weiter betrachtet. Übersicht A19 beinhaltet die Eigenwerte der Hauptkoordinatenanalyse, sowie die stress-Werte bei einer Skalierung in zwei, drei und vier Dimensionen beziehungsweise die Koordinaten der vierdimensionalen Lösung. Die Abbildungen A39 und A40 zeigen die Shepard-Plots für die drei Lösungen der mehrdimensionalen Skalierung (die grüne Line entspricht der monotonen Regression zwischen Dissimilaritäten und Distanzen, also den Disparitäten), die Abbildung A41 die Konfigurationen der Hauptkoordinatenanlyse und der mehrdimensionalen Skalierung in zwei Dimensionen. In der vierdimensionalen Lösung wird ein recht niedriger stress-Wert von 0.0851 erreicht. Der Shepard-Plot in A41 bestätigt die gute Anpassung in vier Dimensionen und die deutliche Verbesserung gegenüber der Betrachtung von nur zwei oder drei Dimensionen. Die Darstellung in zwei Dimensionen führt zu einer erheblichen Verzerrung, wie aus den Graphiken in A41 durch die überlagerten Multiple Spanning Trees sichtbar wird; die mehrdimensionale Skalierung erbringt eine noch ein wenig bessere Darstellung als die Hauptkoordinatenanalyse.
- Es wird nun der Versuch unternommen, mehr als zwei Dimensionen abzubilden. Abbildung A42 enthält eine dreidimensionale Darstellung, A43 Andrews-Kurven der ersten vier Dimensionen, A44 einen Parallelkoordinatenplot der ersten vier Dimensionen, und Abbildung A45 schließlich ein Trellis-Display der dritten und vierten Dimension, konditioniert nach Werten der ersten und zweiten Dimension.
Die dreidimensionale Abbildung (A42), die auch noch rotiert werden könnte, verdeutlicht, wie schwierig es ist, Ähnlichkeitsbeziehungen in drei Dimensionen abzulesen, die zu einer Gruppierung der Betriebe führen könnte. Die Andrews-Kurven (A43) der ersten vier Dimensionen lassen eine solche Gruppierung allerdings vermuten, und mögliche Gruppen sind durch unterschiedliche Farben gekenneichnet (jede Kurve ist mit der zugehörigen Betriebsnummer gekennzeichnet). Besonders kompakt wirken die rote Gruppe der Betriebe 9, 11, 12, 13, 15 und 16 und die lila Gruppe der Betriebe 3, 5, 6 und 17. Die drei gelb gekennzeichneten Betriebe lassen sich im Andrews-Plot keiner der anderen Gruppen gut zuordnen. Übersicht A20 gibt einige Informationen zu dieser Gruppierung, die insgesamt die Wahl der Gruppen bestätigen. Nur zwischen den Betrieben in Gruppe zwei und drei (rot und lila) besteht eine etwas höhere, mittlere Ähnlichkeit zu den Betrieben der anderen als der eigenen Gruppe. Der Parallelkoordinatenplot (A44) läßt die im Andrews-Plot vorgenommene Gruppierung als sinnvoll erscheinen, obwohl deutlich wird, daß die Gruppierung vor allem in den ersten beiden Dimensionen vorliegt und in dritter und vierter Dimension bei weitem nicht so ausgeprägt ist. Diese Beeinflussung des Andrews-Plots durch die ersten Variablen ist bekannt (ROVAN, 1994). Der Andrews-Plot ist also nicht in der Lage eine gleichberechtigte Abbildung aller ausgewählten Variablen (in diesem Fall der Dimensionen) zu erzeugen. Das Trellis-Display (A45) schließlich kann auch nur ein unbefriedigendes Hilfsmittel beim Versuch der Darstellung von vier Dimensionen sein. Tatsächlich wird eine deutliche Entzerrung im Vergleich zu den
104
zweidimensionalen Plots erreicht, eine intuitive Erfassung der Distanzen zwischen den Betrieben geht aber durch die Konditionierung verloren.- Eine inhaltliche Interpretation der vier Gruppen wird durch den Parallelkoordinatenplot einiger ausgewählter Variablen in Abbildung A46 unterstützt.
Die ausgewählten Variablen, die mit Ausnahme des geschätzten Energieverbrauchs (energie) alle zum Bereich ‘Platzbedarf und Rücken gehören, zeigen von allen Variablen die deutlichste Beziehung der gewählten Gruppierung zu den Originaldaten. Bei den anderen Merkmalen gibt es in den meisten Fällen eine noch stärkere Überschneidung zwischen den Gruppierungen. Allerdings lassen auch Andrews- und Pallelkoordinatenplot (A43 und A44) eine sehr klare Gruppierung nicht erwarten. Für den Fall der ausgewählten Merkmale ist aber doch eine recht gute Abgrenzung zum Beispiel der blauen Gruppe möglich. Alle Betriebe dieser Gruppe liegen im Bereich mittleren Energieverbrauchs, kultivieren nur kurze Zeit im, eher engen, Endstand (endstand und woaufend) und haben ausnahmslos nur einmal gerückt (anz_ruec). Ihr Platzzeitwert (net_woqm) liegt daher eher im mittleren und oberen Bereich. Der scheinbare Widerspruch zwischen kurzer Zeit im Endstand und dennoch relativ hohen Platzzeitwertwerten erklärt sich durch das geringe Verhältnis von Aufstellen zu Endstand (auf_end), das heißt die Kultur wurde bereits zu Kulturbeginn weit gestellt und dann nur einmal (relativ wenig) gerückt. Die lila Gruppe hebt sich deutlich von dieser Gruppe ab. Enger gestellt zu Kulturbeginn, weiter im Endstand (das heißt weniger Pflanzen je m2) ausnahmslos höherer Energieverbrauch, Platzzeitwert und Anzahl Wochen auf Endstand, sowie in allen Fällen mehrfaches Rücken. Der sehr ähnliche Verlauf von grüner und roter Gruppe ist ebenso sichtbar wie der extreme Verlauf von zumindest zwei der gelb gekennzeichneten Betriebe, die sehr eng und somit mit geringen Platzzeitwert und Energieverbrauch kultiviert haben.
Bei den Strukturdaten handelt sich um neun, ausnahmslos nominalskalierte, binäre Variablen, wobei die Bildung der beiden Klassen durch den Verfasser nach sachlogischen Gesichtspunkten erfolgt ist (siehe Übersicht A4). Andere Klassenbildungen sind natürlich denkbar und zu rechtfertigen. Die binäre Struktur erlaubt eine gute Übernahme in die Auswertung der Daten als multiple Korrespondenzanalyse der Indikatormatrix.
a-Multiple Korrespondenanalyse und Interpolationsbiplot
- Im ersten Schritt erfolgt die multiple Korrespondenanalyse der Indikatormatrix. Abbildung A47 zeigt die Konfiguration der Betriebe und der Variablen in Normalkoordinaten in getrennten Plots, Abbildung A48 den gemeinsamen Plot in Normalkoordinaten und Abbildung A49 den gemeinsamen Plot in Standard- (Variablen) und Normalkoordinaten (Betriebe). Die Eigenwerte der multiplen Korrespondenzanalyse, die Koordinaten der Merkmale (Standard- und Normalkoordinaten) und der Betriebe (Normalkoordinaten), sowie die Überprüfung der
105
Interpolation sind in Übersicht A21 widergegeben. Abbildung A47a ist zu entnehmen, daß bei der Variablenkonfiguration zwei nahezu orthogonal zueinander liegende Variablengruppen existieren, und zwar auf der einen Seite die Merkmale Bewässerungsverfahren 1 (bw1_f, bw1_k), Stellfläche (sf1_a, sf2_a, sf1_m, sf2_m), Substrate (subs, ee) und Region (ost, west), auf der anderen Seite die Variablen Absatzwege (vm1, vmg1), Betriebsgröße (fw10, fg10), Produktionsmenge (mw50, mg50) und Bewässerungsverfahren 2 (bw2_f, bw2_k). Demnach dominieren bei den beteiligten Betrieben aus dem westlichen Münsterland (wes) Bewässerungsverfahren von unten (bw1_f) auf modernen Stellflächen (sf1_m, sf2_m) und die Verwendung von Einheitserden (ee), während bei den beteiligten Betrieben aus dem östlichen Münsterland (ost) Bewässerungsverfahren von oben (bw1_k) auf traditionellen Stellflächen (sf1_a, sf2_a) und die Inanspruchnahme anderer Substratlieferanten als die der Einheitserden überwiegen (subs). Die kleineren Betriebe (fw10) produzieren größere Mengen (mg50), die über mehr als nur einen Absatzweg vermarktet werden (vmg1), während die größeren Betriebe (fg10) weniger produzieren (mw50) und auf einen Absatzweg (vm1) spezialisiert sind. Der scheinbare Widerspruch zwischen größerer Fläche und geringerer Produktionsmenge mag so interpretiert werden, daß die Cyclamenkultur nach wie vor relativ arbeitsintensiv und schwierig zu mechanisieren ist und daher besser in den Arbeits- und Produktionsablauf des kleineren Produktionsbetriebes als den des Massenproduzenten paßt. Bei den Betrieben in Abbildung A47b deutet sich ebenfalls eine Gruppierung der Betriebe in zwei Gruppen an, und zwar auf der einen Seite die Betriebe 7, 11, 13, 14, 16, 19, und auf der anderen Seite die Betriebe 1, 2, 4, 5, 9, 12, 20. Schließlich fällt erneut Betrieb 3 durch eine besondere, von den anderen Objekten weit entfernte Lage, auf (siehe auch c-). Der gemeinsame Plot in A48 bietet nur eine unbefriedigende Möglichkeit der Interpretation der Beziehungen zwischen Objekten und Merkmalen, da die Distanz zwischen Reihen- und Spaltenkoordinaten nicht definiert ist. Hier bieten die Prediktionsregionen (siehe b-) weit mehr Möglichkeiten. Durch die Darstellung der Betriebe in Normal- und der Variablen in Standardkoordinaten in Abbildung A49 ergibt sich allerdings die Möglichkeit der exakten graphischen Interpolation, das heißt durch diese Darstellung erhält der Korrespondenanalyseplot eine echte Biplot-Interpretation, die der traditionelle Korrespondenanalyseplot (Abbildung A48) nicht besitzt. Im Beispiel bezeichnet die grüne Linie, die die Merkmale von Betrieb 3 miteinander verbindet, die Interpolationsregion für diesen Betrieb, der am Zentroid des entstandenen Polygons liegt. Übersicht A21 zeigt, daß die Interpolation exakt ist. Auf diese Art und Weise lassen sich auch Objekte in den Plot interpolieren, deren Merkmale bekannt sind, die aber nicht an der Konstruktion des Plots beteiligt sind (zum Beispiel nachträglich aufgenommene Objekte).
b-Multiple Korrespondenanalyse und Prediktionsbiplot
- Aus den CLPs (category level points), das heißt den Koordinaten der Variablen, lassen sich in der Korrepondenzanalyse Prediktionsregionen bilden, die das diskrete Gegenstück zu den
106
Biplot-achsen oder Biplotbahnen der linearen und nichtlinearen Biplots darstellen. Abbildung A50 beinhaltet diese Regionen für einzelne Variablengruppen bei Verwendung des üblichen Distanzmaßes in der Korrespondenzanalyse, der Chi-Quadrat-Distanz (mca), Abbildung A52 für einzelne Variablen bei Verwendung des Extended Matching-Koeffizienten (emc, eine Variante des Simple Matching-Koeffizienten nach GOWER & HAND, 1996). In den Abbildungen A51 und A53 erfolgt die gemeinsame Darstellung aller Variablen bei Verwendung der beiden Distanzmaße. Eine Prediktionsregion wird durch eine mit der entsprechenden Farbe gezeichneten Linien abgegrenzt und durch ein Kürzel oder einen Text beschrieben. Die Fehlprediktionen, das heißt die Lage von Objekten in einer durch die CLPs bestimmten Region zu der sie in Wirklichkeit nicht gehören, die natürlich auch in dieser Art der Darstellung nicht vermieden werden können, sind in Übersicht A22 zusammengefaßt. Beide Distanzmaße produzieren sehr ähnliche Repräsentationen der Daten, sowohl im Bezug auf die Lage der Betriebe als auch hinsichtlich der Definition der Prediktionsregionen. Eine besonders gute Prediktion wird für die Variablen Produktionsmenge und Stellfläche erreicht, besonders unscharf ist die Klassenvorhersage bei den Merkmalen Substrate und Absatzwege. Insgesamt führt die mca-Prediktion zu einer Fehlprediktion durch die Prediktionsregionen in 23 (von 140 Fällen), die emc-Prediktion zu einer Fehlprediktion von 19 (von 140 Fällen). Besonders häufig fehleingeordnet werden die Betriebe 1 und 6 (bei jeweils drei Merkmalen bei mca und zwei Merkmalen bei emc). Trotz dieser Einschränkungen liefern die Prediktionsbiplots sehr kompakte Zusammenfassungen der in den Daten enthaltenen Informationen. So grenzt sich in A51 deutlich eine Gruppe der Betriebe, die auf herkömmlichen Stellflächen mit über-Kopf Bewässerung und anderen Substraten als der Einheitserde kultivieren (Betriebe 3, 7, 8, 11, 13, 14, 16, 18), von einer zweiten Gruppe (Betriebe 1, 2, 4, 5, 10, 12, 15, 17, 20) mit den entgegengesetzten Merkmalen ab. Da darüberhinaus in A51 auch die Regionen für Produktionsmenge und Betriebsgröße widergegeben sind, lassen sich diese Gruppen noch detaillierter beschreiben, so zum Beispiel die Gruppe der Betriebe 7, 11, 13, 14, 16, und 19, die zur ersten Gruppe hinsichtlich der Merkmale Stellfläche, Bewässerungssystem und Substrate zählen und darüberhinaus relativ große Mengen (über 50000 Stück), bei relativ kleinerer Betriebsgröße (unter 10000 m2) kultuivieren. Allerdings ist auch hier zu beachten, daß es in einzelnen Fällen zu Fehlrepräsentationen durch die Dimensionserniedrigung kommt.
Um derartige Fehlrepräsentationen zu vermeiden, bietet sich die alternative Darstellung mit Hilfe beschrifteter Objektmeßwerte-Plots, wie sie in Abbildung A54 zu sehen sind, an. Natürlich sind dann, an Stelle von einer Abbildung, in diesem Fall bei Beschriftung durch alle Variablen mindestens sieben oder besser acht Abbildungen erforderlich. A54 beinhaltet nur fünf der beobachteten Merkmale, sowie in einer Teilabbildung die Beschriftung der Punkte mit der Betriebsnummer.
c-Prüfung der internen Stabilität
107
- Es soll nun die Frage untersucht werden, wie stabil die Repräsentation der Betriebe und ihrer Strukturmerkmale im Korrespondenzanalyseplot ist.* Dazu wird folgendes Verfahren, das sich an die Ausführungen von GREENACRE, 1984, anlehnt gewählt. Im ersten Schritt erfolgt die Analyse der Datenmatrix jeweils sukzessive ohne Betrieb 1, 2, 3 und so weiter. Für jedes der reduzierten Datensets werden Reihen- und Spaltenkoordinaten mit Hilfe der Korrespondenzanalyse berechnet. Um der willkürlichen Vergabe der Vorzeichen zu begegnen, wird im zweiten Schritt eine Prokrustes-Rotation mit der Konfiguration der vollen Datenmatrix als fixer Konfiguration durchgeführt (ohne Dilation, jedoch bei erfolgter Standardisierung (auf Sum of Squares = 1) und Zentrierung (am Ursprung)), die zu einer größtmöglichen Deckung der Konfiguration der vollen Datenmatrix mit den reduzierten Datenmatrizen führt. Während dies bei der Berechnung der Variablen keine Probleme (Verwendung der Konfiguration aller Objekte) bereitet, führt die Elimination eines Objektes natürlich dazu, daß auch nur eine reduzierte Datenmatrix als fixe Ausgangsmatrix im Fall der Berechnung der Objektkonfiguration angenommen werden kann, das heißt, aus den Ergebnissen der Korrespondenzanalyse der vollen Datenmatrix, muß jeweils das entsprechende Objekt entfernt werden, bevor die Rotation erfolgt. Der besseren Übersichtlichkeit halber werden dann im dritten Schritt Plots erstellt, die die äußersten Punkte aller Konfigurationen mit konvexen Hüllen verbinden, so daß ein Eindruck davon entsteht, in welchem Ausmaß sich die einzelnen Punkte im zweidimensionalen Koordinatensystem bewegen. Während bei der Darstellung der Hüllen der Variablen die Orginalkoordinaten den Variablenpunkt im Plot bezeichnen, wird bei der Darstellung der Betriebe der mittlere Koordinatenwert aus den rotierten Konfigurationen gewählt.
Abbildung A 55 zeigt zunächst einige Dotplots der Residuen bei der Prokrustes-Rotation bei Elimination der Betriebe 1, 2 und 3. Die Konfigurationen scheinen in diesen Fällen sehr stabil zu sein. Allerdings ergibt sich bei Entfernen von Betrieb 3, vor allem bei Betrachtung der Variablen, eine auffällige Veränderung. Diese ist bedingt dadurch, daß nur für Betrieb 3 das Merkmal bw2_k zutrifft, das heißt Betrieb 3 der einzige Betrieb ist, der auf beiden Stellflächen von oben bewässert (bw2_k). Die Abbildungen A56 und A57 verdeutlichen jedoch, daß insgesamt die interne Stabilität der Repräsentationen der Merkmale und der Objekte recht hoch ist, das heißt keiner der Betriebe übt einen die Abbildungen wesentlich verändernden Einfluß aus. Allerdings fällt bei der Betrachtung der Variablen in Abbildung A56 schon auf, daß einzelne Merkmale sich überschneidende Felder besetzen, insbesondere die Merkmale Produktionsmenge und Betriebsgröße (mg50, fw10, mw50, fg10). Außerdem ist die sehr große konvexe Hülle beim Merkmal bw2_k zu erkennnen, die auf der Elimination von Betrieb 3 beruht. Wird Betrieb 3 entfernt, verschiebt sich dieser Merkmalspunkt an den Ursprung. A57 zeigt, daß es bei den Objektkonfigurationen nur sehr geringe Unterschiede durch Entfernen eines einzelnen Betriebes gibt, die interne Stabilität der Objektkoordinaten also sehr hoch ist.
108
Nachdem in den vorangegangenen Abschnitten die einzelnen Variablensets separat analysiert worden sind, wird nun eine gemeinsame Untersuchung der unterschiedlichen Datensätze durchgeführt. Zunächst erfolgt eine objektbezogene Betrachtung durch eine multiple Procrustes-Analyse und dann eine variablenbezogene Analyse mit Hilfe der generalisierten kanonischen Analyse.
a-Multiple Prokrustes-Analyse
* Die multiple Procrustes-Analyse erzeugt eine Matrix der Quadratsummen der Abweichungen (Residuen) beim paarweisen Vergleich aller Konfigurationen, wobei eine Dilation zugelassen und eine Normierung der auf gleiche Varianzen der Ausgangskonfigurationen vorgenommen wird. Als Ausgangskonfigurationen werden für die Beurteilung der Qualitätsmerkmale die Objektkoordinaten der Korrespondenzanalyse der bipolaren Daten verwendet (3.1.2.1); bei Substratanalysewerten und Kulturmaßnahmen (3.1.2.2 und 3.1.2.3) werden die Objektkoeffizienten nach einer Hauptkoordinatenanalyse eingesetzt (Proximitätsmatsmaß allgemeiner Ähnlichkeitskoeffizient); die Strukturmerkmale schließlich gehen in Form der Objektkoordinaten der Analyse der Indikatormatrix ein (3.1.2.4, Basis Chi-Quadrat-Distanz). Die symmetrische Matrix der Residuen wird dann mit einer Hauptkoordinatenanalyse und einer ordinalen, mehrdimensionalen Skalierung (50 Startkonfigurationen, primäre Behandlung gebundener Werte, least squares stress) verrechnet.
- Abbildung A 58 zeigt zwei Dshade-Diagramme der Matrix der quadrierten Residuen, ausgedrückt als Ähnlichkeitswerte, A58a in aufsteigender Reihenfolge der laufenden Konfigurationsnummer, A58b etwas umsortiert, um einzelne Ähnlichkeitsgruppierungen stärker hervorzuheben. Die Abbildungen A59 und A60 beinhalten die Konfigurationen der Hauptkoordinatenanalyse und der ordinalen mehrdimensionalen Skalierung in den ersten beiden Dimensionen, mit und ohne überlagerten Multiple Spanning Tree. Übersicht A23 schließlich liefert Koordinaten- und Eigenwerte, sowie weitere ergänzende Informationen zur Analyse.
Die Dshade-Diagramme, die farbig codiert die Matrix der Residuen wiedergeben, verdeutlichen, daß die Ähnlichkeiten zwischen den einzelnen Konfigurationen insgesamt gesehen relativ gering sind (maximale Ähnlichkeit 0,336). Es fällt auf, daß die Matrix der Strukturmerkmale den übrigen Konfigurationen am nächsten liegt, während die Konfiguration der Schattiersollwerte zu allen übrigen Konfigurationen nur sehr geringe Ähnlichkeiten besitzt. Diese Beobachtung wird auch durch die zweidimensionalen Plots in A59 und A60, die eine recht gute Repräsentation der Distanzen liefern (keine auffälligen Überschneidungen im Multiple Spanning Tree) verstärkt. Die zentrale Stellung der Konfiguration der Strukturmerkmale wird ebenso sichtbar (siehe auch geringste Zentroid Distanz in Übersicht A23), vor allem im Plot der ordinalen, mehrdimensionalen Skalierung. Sowohl der Plot der Hauptkoordinatenanalyse als auch der Plot
109
der ordinalen mehrdimensionalen Skalierung lassen den Schluß zu, daß die ‘Sierra Konfigurationen der Qualitätsbonituren den übrigen Konfigurationen (Substratanalysewerte, Kulturmaßnahmen, Strukturmerkmale) ähnlicher sind als die ‘Concerto-Konfigurationen der Qualitätsbonituren. Eine eindeutige Gruppierung ist jedoch nicht erkennbar. Deren Fehlen, die insgesamt gesehen niedrigen Ähnlichkeitswerte und die relativ gleichartigen Zentroid-Distanzen führen vielmehr zu der Schlußfolgerung, daß alle Variablensets doch recht unterschiedliche Konfigurationen erzeugen, daß also die relative Lage der Objekte in den einzelnen Variablensets recht unterschiedlich ist und es sich nur schwerlich aus dieser Analyse ableiten läßt, daß zum Beispiel Betriebe, die gleichartig kultiviert haben auch gleichartige Qualitätsergebnisse erbracht haben. Erfolg oder Mißerfolg in der Kultur kann also demnach kaum durch die bestimmten Kulturmerkmale in ihrer Gesamtheit hergeleitet werden, was natürlich nicht besagt, daß eine solche Beziehung nicht doch in einzelnen Punkten besteht (bisweilen ist ja eine solche Beziehung zu vermuten, siehe zum Beispiel 3.1.2.3 a-).b-Generalisierte kanonische Analyse (OVERALS)
* In der generalisierten kanonischen Analyse geht es um den detaillierten Vergleich der unterschiedlichen Variablensets und zwar in der Form, daß jeweils sechs Variablensets der Analyse übergeben werden. Dabei werden fünf Datensets immer verwendet (Strukturdaten, Substratanalysewerte, Platzbedarfsmerkmale, Temperaturführung und Hauptkomponentenwerte der Schattiersollwerte) und durch ein weiteres Qualitätsmerkmale-Variablenset ergänzt, das heißt sukzessive durch die Qualitätsbeurteilungen von ‘Sierra in Woche 44 und ‘Sierra in Woche 48 sowie von ‘Concerto in Woche 44 und ‘Concerto in Woche 48. Die Aufteilung in diese Variablensets beruht auf einer subjektiven Entscheidung und es durchaus zulässig, andere Zuordnungen zu wählen, die dann dementsprechend auch Auswirkungen auf die Analyseergebnisse haben können.
- Die gewählten Meßniveaus der einzelnen Variablen, und ihre Transformationen, wo erforderlich<38>, sind in Übersicht A24 zusammengefaßt. Übersicht A25 beinhaltet die Loss-Werte der vier Analysen, die Übersichten A 26 und A27 die multiplen Anpassungswerte in zwei Dimensionen in den verwendeten Variablensets. In den Abbildungen A 61 bis A64 sind die Komponentenladungen der Variablen, der Übersichtlichkeit halber getrennt, wiedergegeben. A65 schließlich zeigt beispielhaft den Komponentenladungenplot aller Variablen für die Variante mit ‘Concerto Woche 44.
Übersicht A25 zeigt, daß in allen vier Analysen eine sehr gute Anpassung erreicht wird und die
110
Loss-Werte insgesamt gesehen gering sind. Nur das Strukturdatenset hat in allen Analysen vergleichsweise hohe Loss-Werte. Darüber hinaus wird durch die Eigenwerte der ersten beiden Dimensionen deutlich, daß die erste und die zweite Dimension in allen Fällen nahezu in gleichem Umfang an der Repräsentation der Variablenbeziehungen beteiligt sind. Den Übersichten A26 und A27 ist die Diskriminationsstärke der einzelnen Variablen zu entnehmen. Multiple Anpassungswerte von größer 1 sind farbig hervorgehoben. Auffällig ist die Unterschiedlichkeit dieser stark diskriminatorischen Variablen in den vier Analysen, so daß sich demnach keine durchgängige Interpretation der Beziehungen der Variablensets untereinander ableiten läßt. Auch wird in keinem Fall eine oder beide Dimensionen durch ein Variablenset in besonderem Ausmaß beeinflußt. Allerdings gehören die Variablen Endstand und die erste Hauptkomponente der Schattiersollwerte (das heißt der Maßstab für die mittlere Schattierung während der gesamten Kultur) in allen vier Analysen zu den Merkmalen, die besonders große Unterschiede zwischen den Betrieben aufweisen. Demgegenüber weisen zum Beispiel die Substratanalysewerte in Woche 41 weder bei ‘Sierra noch bei ‘Concerto eine multiple Anpassung von über 1 aus. Es gibt also eine Vielzahl von Variablen, die nur sehr schlecht repräsentiert werden. An Hand der Plots der Komponentenladungen in den Abbildungen A63 bis A66 soll nun der Versuch unternommen werden, die Beziehungen zwischen den Variablensets, insbesondere im Hinblick auf die Qualitätsbeurteilungen, zu interpretieren. Auffällig an allen Plots ist, daß die einzelnen Variablen der verschiedenen Datensets fast immer alle Räume der Abbildungen besetzen, daß sich also die Variablensets nicht eindeutig gruppieren. Eine recht gut deutbare Abbildung liefern jedoch die Plots für ‘Concerto in Woche 44 (einzeln in Abbildung A63, überlagert in Abbildung A65). Die Qualitätsmerkmale Gesamteindruck, Knospenbesatz, Vergilbung und Welke besetzen einen Bereich, der auch stark von Platzbedarfsvariablen belegt ist, und zwar von Wochen auf Endstand, Verhältnis Aufstellen zu Endstand, Anzahl Rückvorgänge und Platzzeitwert, und in dem sich die Stellflächenklassifizierung (moderne Stellflächen) und Substratwahl (Einheitserden) wiederfinden. Mit guten Qualitäten korrelieren somit vor allem die Pflanzen von Betrieben, die lange auf Endstand kultiviert werden, deren Verhältnis von Aufstellen zu Endstand hoch ist (das heißt, die zuerst sehr dicht und dann recht weit kultiviert werden), die häufig gerückt und die insgesamt mit einem hohen Platzbedarf kultiviert und zudem auf modernen Stellflächen produziert werden. In diesem Beispiel finden sich demnach bekannte Beratungs-empfehlungen zur optimalen Kulturführung bei Cyclamen wieder, die rechtzeitiges Rücken und das Schaffen der jeweils optimalen Standweite betonen. Demgegenüber steht ein Variablencluster, in erster Linie gebildet aus Temperaturdaten und Substratanalysewerten, so daß demnach hohe Temperaturen (vor allem Lüftungstemperaturen) und hohe Nährstoffgehalte eher mit minderen Qualitäten in Zusammenhang stehen. In diese Variablengruppe fallen auch die Hauptkomponentenwerte der Schattiersollwerte (erste Hauptkomponente) und bestätigen damit, daß auch eine starke Schattierung mit geringen
111
Qualitäten korrespondiert. Auch an dieser Stelle bestätigen sich Kulturhinweise bei Cyclamen, die eine helle und luftige Kulturführung bei mittlerer Düngung empfehlen (siehe zum Beispiel zur Cyclamenkultur bei HASS-TSCHIRSCHKE, 1994 oder HORN, 1996). Nahezu orthogonal zu diesen Bereichen befinden sich an entgegengesetzten Polen und fast vollständig in der zweiten Dimension auf der einen Seite die Beurteilung des Knospenbesatzes und auf der anderen Seite die Variablen end (Endstand) und licht2 (zweite Hauptkomponente der Schattiersollwerte). Dies führt zu der Interpretation, daß sehr weiter Endstand und eine im Kulturverlauf gleichbleibende oder zunehmende Schattierung, bei ‘Concerto vor allem ungünstige Auswirkungen auf den Knospenbesatz hat. Die einzelnen Abbildungen in A66 illustrieren, daß die im vorangegangenen Abschnitt (Abbildung A63 und A65) angesprochenen, mit der generalisierten kanonischen Analyse herausgearbeiteten Beziehungen zwischen Kulturbedingungen und Produktqualität tatsächlich auf einige der wesentlichen Variablenbeziehungen in der Betrachtung mit ‘Concerto Woche 44 hinweisen, und daß sie sich durch die Betrachtung der Orginalwerte nachvollziehen läßt. Beim Qualitätsmerkmal Vergilbung zum Beispiel, wird sichtbar, daß alle Betriebe mit modernen Stellflächen eine Boniturnote 7 oder besser besitzen und alle Betriebe auf herkömmlichen Stellflächen, mit einer Ausnahme, eine Boniturnote von 7 oder schlechter aufweisen (A66a). Ähnliches gilt für die Substratwahl (A66b). Beim Qualitätsmerkmal Krankheitsbefall fällt auf, daß sehr gute Bonituren (Noten 8 und 9) nur von Betrieben mit K-Werten von unter 200 mg/l Substrat (bei Messung in der Kulturmitte, Woche 29) erzielt werden (A66c). Weniger gut ist die Beziehung von Krankheitsbefall und Schattierung in A66d nachvollziehbar.
Entsprechende Interpretationsansätze können auch auf die übrigen Plots der Komponentenladungen angewendet werden. Allerdings sind die Beziehungen der Variablensets in den Abbildungen A61, A62 und A64, weniger deutlich als in A63 und es ergibt sich kein einheitliches Bild für die vier Analysen, was erneut die Unterschiedlichkeit der Sorte-Woche-Kombinationen, auch im Bezug auf ihre Beziehung zu den übrigen bestimmten Merkmalen, unterstreicht. Aufgrund der vielfach geringen Korrelationen zwischen den Merkmalen innerhalb und zwischen den einzelnen Variablensets kann in dieser betriebsbegleitenden Untersuchung mit Cyclamen nicht auf eindeutige Wirkungszusammenhänge zwischen Kulturbedingungen und Produktqualität geschlossen werden.
112
Seit 1957 veröffentlicht der Arbeitskreis Betriebswirtschaft im Gartenbau e.V., Hannover, Kennzahlen für den Betriebsvergleich. Es handelt sich bei den Kennzahlen um durch den Arbeitskreis aufgearbeitete Daten aus den steuerlichen Jahresabschlüssen gartenbaulicher Betriebe (AKBWL, 1996). Das entwickelte Kennzahlensystem wird von der Beratung in erster Linie in der einzelbetrieblichen Beratung eingesetzt, das heißt der Berater versucht die wirtschaftliche Situation des Betriebes mit Hilfe der Kennzahlen zu analysieren, um Schwachstellen oder Stärken aufzudecken. Vertikaler und horizontaler Betriebsvergleich führen zu einer Einschätzung der Entwicklung der Betriebsergebnisse über mehrere Jahre (vertikal) und zu einer Abgleichung der Ergebnisse des betroffenen Betriebes mit den Ergebnissen anderer, gleichgelagerter Betriebe (horizontal) (STORCK & BOKELMANN, 1995). Die Zweckmäßigkeit und Vergleichbarkeit vieler Kennzahlen ist nicht unumstritten und bisweilen werden durch die Beratung aus den Kennzahlen des Arbeitskreises weitere Kennwerte berechnet, die eine bessere Interpretierbarkeit liefern sollen (KÜHNE, 1997). Darüber hinaus ist in der einzelbetrieblichen Beratung auch die Kenntnis betrieblicher Gegebenheiten sehr wichtig, da es sonst, bei ausschließlicher Betrachtung der Zahlen, leicht zu Fehldeutungen kommen kann (STORCK & BOKELMANN, 1995). Die Frage, wie sinnvoll einzelne Kennzahlen oder gar der Kennzahlenvergleich überhaupt ist, wird in dieser Arbeit nicht diskutiert. Einen Überblick über Geschichte und Stand der Forschung im Bereich der Bilanz- und Kennzahlenanalyse im Allgemeinen und im Gartenbau im Speziellen gibt BITSCH, 1994.
Neben der Verwendung als einzelbetriebliches Beratungsinstrument werden die Kennzahlen des Arbeitskreises Betriebswirtschaft gerne verwendet, um allgemeine Wirkungszusammenhänge zu untersuchen, obwohl es sich bei den am Betriebsvergleich beteiligten Betrieben nicht um eine repräsentative Stichprobe des deutschen Gartenbaus handelt. Der große Umfang der erhobenen und ausgewerteten Betriebe (ungefähr 2500 Betriebe pro Jahr aus allen Sparten des Gartenbaus) macht die Daten des Arbeitskreises Betriebswirtschaft aber dennoch interessant, da es sich um die umfassendste und aktuellste veröffentlichte Information zur wirtschaftlichen Situation von Gartenbaubetrieben handelt. BOKELMANN, 1993, sucht in den Kennzahlen nach Informationen über den Erfolg und die finanzielle Situation der Betriebe, um Schlüsse auf Gefährdungen und Chancen der Betriebe zu ziehen. Er bedient sich dabei verschiedener Verfahren der Diskriminanzanalyse, um Prognosemodelle aus den Kennzahlen abzuleiten. BITSCH, 1994, nutzt im wesentlichen die Clusteranalyse, um homogene Betriebsgruppen zu finden, die dann durch einzelne Kennzahlen beschrieben werden und zu einer Trennung in erfolgreiche und weniger erfolgreiche Betriebe führt. Ähnlich geht GOTTSCHLICH, 1995, im landwirtschaftlichen Bereich vor. Er bedient sich ebenfalls überwiegend der Clusteranalyse, um Schwachstellenprofile zu identifizieren und besonders aussagekräftige Kennzahlen für die Schwachstellenanalyse herauszufiltern. Ziel der vorliegenden Arbeit ist nicht die Diskussion der bereits erarbeiten
113
Ergebnisse oder die Bildung weiterer Gruppen, Klassifizierungen oder Modelle, sondern die Diskussion graphischer Analysemöglichkeiten, die die Zusammenhänge zwischen den betriebswirtschaftlichen Kennzahlen auf vielfältige Weise transparent machen.Es wird in fünf Schritten vorgegangen. Zunächst erfolgt eine erstes ‘Anschauen der Daten, um ein Gefühl für Lage- und Dispersionsparameter einiger Kennzahlen zu gewinnen, und um mögliche Korrelationen aufzudecken (3.2.2.1). Im zweiten Abschnitt wird dann überprüft, ob den traditionell im Kennzahlenheft verwendeten Klassifizierungen (Betriebsgröße, regionale Lage, Jahre) unterschiedliche Quellen der Variabilität zugrunde liegen (3.2.2.2). Die Auseinandersetzung mit verschiedenen Gruppierungs- und Segmentierungsverfahren erfolgt im dritten Abschnitt (3.2.2.3) Anschließend werden diskrete graphische Modelle als Weg der Ermittlung von Zusammenhängen zwischen Kennzahlen vorgeschlagen (3.2.2.4). Den Abschluß bildet eine Umsetzung des Kennzahlenkatalogs in interaktive Liniendiagramme der formalen Begriffsanalyse, die die intuitive Untersuchung der ermittelten Daten unterstützt (3.2.2.5). Die vorgelegten Analysen berücksichtigen also einerseits Anwendungen, die für die einzelbetriebliche Beratung relevant sind und führen andererseits zu einer neuen Betrachtungsweise allgemeiner Fragestellungen.
Bei den verwendeten Daten handelt es sich um ausgewählte Kennzahlen der Topfpflanzenbetriebe des gesamten Bundesgebietes aus den Jahren 1992, 1993 und 1994 (UHTE, 1997). Auf die Herleitung und Bedeutung der einzelnen Kennzahlen wird hier nicht eingegangen. Sie sind zum Beispiel in AKBWL, 1996, ausführlich beschrieben.
114
Es erfolgt nun die Analyse ausgewählter Kennzahlen der Jahre 1992 bis 1994 in den beschriebenen fünf Schritten. Die Vorgehensweise entspricht der von Kapitel 3.2.1, das heißt, daß zunächst eine oder mehrere Abbildungen oder Analyseschritte kurz erläutert (gekennzeichnet durch ein vor den Absatz gestelltes --Zeichen) und dann interpretiert (gekennzeichnet durch ein vor den Absatz gestelltes -Zeichen) werden. Spezielle methodische Anmerkungen folgen auf ein *-Zeichen. Die Abbildungen und Übersichten sind im Anhang Teil I B und II B hinterlegt.
- Der Kennzahlenkatalog beinhaltet insgesamt 87 Kennzahlen, die vom Arbeitskreis Betriebswirtschaft in 14 Kategorien eingeteilt werden (Aufwandsstruktur, Unternehmenserfolg, Betriebserfolg, Kapitalstruktur und andere). Aus den 87 Kennzahlen werden für die vorliegende Arbeit 26 Kennzahlen und 9 Gruppierungsvariablen ausgewählt, die in Übersicht B1 zusammengefaßt sind, und die je nach Fragestellung verwendet werden. Bei derAuswahl der Kennzahlen wird im wesentlichen dem Vorschlag von BITSCH, 1994 (Seite 132 f.)<39> gefolgt. Die Übersichten B2 bis B6 informieren über univariate Statistiken dieser Variablen. Übersicht B7 beinhaltet Informationen zu den Shingles (nach dem equal count-Algorithmus, siehe 2.5.1.3) für die Kennzahlen Glasfläche, Anzahl Arbeitskräfte und Unternehmensertrag. Betrachtet werden ausschließlich die Kennzahlen derjenigen Topfpflanzenbetriebe, die in jedem der drei vorliegenden Jahre am Betriebsvergleich teilgenommen haben, das sind 297 Betriebe pro Jahr und 891 Fälle insgesamt. Bei allen Kennzahlen handelt es sich um verhältnis- oder intervallskalierte Variablen.
Beim Vergleich der Klassifizierungen der Betriebe nach Anzahl der Arbeitskräfte, Glasfläche und Unternehmensertrag nach dem Schema des Arbeitskreises Betriebswirtschaft (Übersicht B2) und der gebildeten Shingles (Überlappungsbereich 10%) (Übersicht B7) wird eine erheblich voneinander abweichende Bildung der Klassengrenzen deutlich und zwar nach oben gerichtet, das heißt, um gleich große Klassen zu bilden ist eine Verschiebung der Klassengrenzen nach oben erforderlich. Eine noch etwas stärkere Differenzierung bietet die Bildung von vier Klassen. Diese vier Klassen, gebildet mit Hilfe des equal-count-Algorithmus und einem Überlappungsbereich von 10%, liegen den weiter unten besprochenen Trellis-Displays zugrunde. Die univariaten Statistiken in den Übersichten B3 bis B6 zeigen Auffälligkeiten vor allem durch ihre starke Streuung, sowie die hohen Werte bei Schiefe und Kurtosis und eine in
115
vielen Fällen erhebliche Abweichung zwischen Mittelwert und Median. Dies deutet auf Ausreißer oder extreme Werte, sowie erhebliche Abweichungen von der Normalverteilung hin.- Diese Abweichungen von der Normalverteilung gilt es näher zu betrachten. Für einige ausgewälte Variablen zeigen die Abbildungen B1 und B2 Boxplot, Histogram und Normal-q-q-Plot in einer Abbildung. Formale Normalverteilungstests sind in Übersicht B8 zusammengefaßt. Wie sich der Ausschluß einiger besonders extremer Werte einiger univariate Statistiken auf einige Kennzahlen auswirkt, ist Übersicht B9 zu entnehmen.
Die Graphiken lassen in allen Fällen mehr oder weniger stark ausgeprägte Abweichungen von der Normalverteilung erkennen, wobei diese vor allem auf extremen Werten von einigen Betrieben am oberen oder unteren Ende (oder an beiden Enden) der jeweiligen Skala beruhen. Das heißt, das es neben einer Vielzahl ‘mittlerer Betriebe, immmer eine gewisse Anzahl von Betrieben gibt, die mit besonders hohen oder besonders niedrigen Werten in den jeweiligen Kennzahlen auftauchen. Der Ausschluß einzelner Fälle führt zu einer gewissen Annäherung an die Normalverteilung, kann aber in vielen Fällen die vorhandene Schiefe nicht beseitigen. Für die Darstellung in den Trellis-Displays (siehe unten) reicht aber schon diese Entfernung der sehr extremen Fälle aus, um in den Darstellungen etwas erkennen zu können (es handelt sich um die in Übersicht B9 aufgeführten missing cases). Eine Vielzahl von Transformationen ist natürlich darüber hinaus denkbar, um die Anpassung an die Normalverteilung zu verbessern. In einzelnen Fällen ist eine Transformation möglicherweise sogar inhaltlich begründbar (zum Beispiel log(Unternehmensertrag)), bei anderen Kennzahlen ist es aber eher fraglich, ob eine Transformation zu einer aussagekräftigeren Variablen führt. Da zudem die meisten der in der Folge eingesetzten Verfahren keine Verteilungsannahmen machen und Transformationen größtenteils inhaltlich nicht begründet werden können, wird auf deren Einsatz, nur zur Erlangung der Normalverteilung, verzichtet. Allerdings erfolgen weiter unten Transformationen in Form der Diskretisierung der kontinuierlichen Variablen. Sie werden an gegebener Stelle diskutiert.
- Die Übersichten B10 und B11 beinhalten die Spearman-Rangkorrelationen für die ausgewälten 26 Kennzahlen, wobei Übersicht B10 die Korrelationen der Variablen untereinander und Übersicht B11 die Korrelationen der Struktur-, Vermögens- und Aufwandsdaten mit den Erfolgsdaten zeigt. Korrelationen von mehr als 0,7 sind durch Fettdruck hervorgehoben.
* Diese Hervorhebung wird gewählt, da erst bei einer Korrelation von über 0,7 davon ausgegangen werden kann, daß wenigstens die Hälfte der gesamten Streuung durch die errechnete Korrelation zwischen den beiden betrachteten Variablen erklärt wird (da Bestimmtheitsmaß = r2). Die meisten Korrelationen sind hier signifikant, ihre absolute Größe ist aber in vielen Fällen gering.
Sehr hoch miteinander korrelieren Betriebseinkommen/AK, die Reinertragskennzahlen (rtak, rteqm und rtp), Rentabilitätskoeffizient und Reinertragsdifferenz. Aber auch die Korrelationen mit
116
den anderen Erfolgsvariablen sind vergleichsweise bedeutsam. Demgegenüber sind die Korrelationen innerhalb der anderen Datensets geringer, außer zum Beispiel in so naheliegenden Fällen wie der Korrelation zwische ak und fremdakp, oder der Korrelation zwischen eqm und glasqm. Die Korrelationen zwischen den Erfolgskennzahlen und den Variablen der übrigen Datensets weisen erstaunlicherweise in keinem Fall eine Korrelation von über 0,7 aus, was darauf hindeutet, daß es zumindest in dieser groben Betrachtung nur geringe Hinweise auf klare lineare Beziehungen zwischen zum Beispiel Aufwands- und Erfolgskennzahlen gibt, obwohl schon auffällt, daß fast alle Aufwandskennzahlen zu fast allen Erfolgskennzahlen negative Korrelationen aufweisen<40>.- Dennoch soll ein weiterer Blick in die Beziehungsgefüge durch deskriptive Mittel unternommen werden. Abbildung B3 beinhaltet vier Trellis-Displays mit Boxplots, wobei die konditionierenden Variablen die Betriebsgröße (nach Shinglebildung, siehe Übersicht B7) und die regionale Lage sind. Region 1 ist die Region mit den meisten am Betriebsvergleich beteiligten Betrieben, während die übrigen Regionen die Betriebe aus dem restlichen Bundesgebiet zusammenfassen. Die Abbildungen B4 bis B7 zeigen ebenfalls Trellis-Displays für einige ausgewählte Kennzahlenbeziehungen, die in den Spalten nach den Erfassungsjahren und in den Zeilen nach den Shingles für die Glasfläche beziehungsweise für die Anzahl an Arbeitskräften konditioniert sind. In den einzelnen Panels erscheint die Linie einer Loess-Regression, die den im Punkteschwarm - der selbst nicht abgebildet wird - vorhandenen Trend sichtbar machen soll. Gewählt wird für die Loess-Regression ein Glättungsparameter von 2/3, es findet eine lokal-lineare Anpassung statt, und die Schätzung erfolgt unter iterativer Einbeziehung der Residuen. Die Ziffern hinter ‘n = ‘ geben an, wieviele Einzelwerte hinter dem jeweiligen Boxplot stehen, eine kleine Zusatztabelle, in derselben Sortierung wie die Panels im Trellis-Display, gibt Auskunft über die Anzahl Fälle in den Abbildungen mit den Loess-Regressionslinien. Die blauen Referenzlinien in den Boxplots stehen am Median der betreffenden Kennzahl.
In allen Boxplots in Abbildung B3 fällt sowohl ein gewisser Effekt durch die Betriebsgröße als auch ein Unterschied zwischen den Regionen auf. Beim Rentabilitätskoeffizienten liegt der Median der Betriebe in Region 1 immer in allen Größenklassen über den Medianen der übrigen Regionen. Zudem nimmt der Median des Rentabilitätskoeffizienten mit der Betriebsgröße zu. Diese Zunahme mit der Betriebsgröße ist auch bei der Kennzahl Lohn je entlohnte AK zu beobachten. Der Effekt ist allerdings in Region 1 wesentlich ausgeprägter als in den übrigen Regionen. Bei der Betrachtung der Kennzahl Heizmaterial je qm Glasfläche wird deutlich, daß in Region 1 weniger an Energiekosten je Quadratmeter im Mittel entstehen, aber kaum ein Effekt der Betriebsgröße zu erkennen ist, während in den übrigen Regionen eine Abnahme der
117
Heizkosten und deren Streuung mit zunehmender Betriebsgröße auffallen. Bei qm Glasfläche/AK ist es wiederum die Region 1, die einen stärkeren Betriebsgrößeneffekt aufweist und die darüber hinaus in allen Betriebsgrößenklassen im Mittel über dem Gesamtmittel liegt, bei allerdings auch stärkerer Streuung als in den übrigen Regionen. Eine gewisse Beziehung scheint also zwischen der Betriebsgröße und diesen (und weiteren, hier nicht gezeigten) Kennzahlen zu bestehen (womit natürlich nichts über eine Wirkungsrichtung gesagt ist). Die Loess-Regressionslinien in den Abbildungen B4 bis B7 berücksichtigen neben der Betriebsgröße, die in Abbildung B4 über die Anzahl an Arbeitskräften konditioniert wird, zusätzlich eine Klassifizierung nach Jahren. Allerdings sind die beobachteten Trends in den drei betrachteten Jahren in fast allen Fällen sehr ähnlich, das heißt, obwohl sich möglicherweise absolute Werte von Jahr zu Jahr verändert haben mögen, bleiben die Variablenbeziehungen über die Jahre nahezu unverändert (dieser Frage wird noch detaillierter im folgenden Kapitel nachgegangen). Es wird aber noch eine Vielzahl anderer Aspekte sichtbar. So steht eine hohe Lohnquote in allen Jahren und allen Betriebsgrößenklassen in einem negativen Zusammenhang mit dem Betriebeseinkommen/AK (Abbildung B4); allerdings scheint der Effekt in sehr großen Betrieben weniger ausgeprägt zu sein als in kleineren. Der häufig zitierte und weiter unten noch diskutierte positive Zusammenahang zwischen Lohn je AK und Betriebseinkommen/AK, scheint demgegenüber vor allem in den Größenklassen 2 und 3 aufzutreten, während sehr kleine und sehr große Betriebe diesen Trend kaum zeigen. Bei der Flächenproduktivität (Betriebseinkommen/Eqm) wird hingegen ein weit weniger negativer Zusammenhang mit der Lohnquote beobachtet und auch die Beziehung zu Lohn je entlohnte AK ist wesentlich schwächer (Abbildung B5). Die Abbildungen in B6 verdeutlichen, daß zwischen Glasfläche/AK und der Arbeitsproduktivität auf der einen, und der Flächenproduktivität auf der anderen Seite, eher gegenläufige Trends zu bestehen scheinen. Während eine steigende Flächenleistung je AK mit einer Zunahme der Arbeitsproduktivität korrespondiert, geht mit ihr gleichzeitig eine Abnahme der Flächenproduktivität einher. Interessant sind auch die Beziehungen der Kennzahlen Spezialaufwand und Allgemeiner Aufwand zum Betriebseinkomen/AK. Steigender Spezialaufwand weist vor allem in den größeren Betrieben eine Beziehung zu abnehmenden Betriebseinkommen/AK auf, während die Beziehung steigender allgemeiner Aufwendungen vor allem in den kleineren Betrieben mit einem Rückgang der Arbeitsproduktivität korreliert ist.
* Die vier angesprochenen Abbildungen mit Loess-Regressionslinien stellen nur einen kleinen Teil aller möglichen Kombinationen von Kennzahlen und konditionierenden Variablen dar. Obwohl erneut und auch an dieser Stelle vor Überinterpretationen gewarnt werden muß (die Streuungen um die Linien sind erheblich) lassen sich doch durch die Trellis-Displays viele bemerkenswerte Gesichtspunkte herausarbeiten und darstellen. Wenngleich die hier vorgestellten Ergebnisse nicht durch ihre übergroße Eindeutigkeit bezüglich einer inhaltlichen Aussage bestechen, wird doch erneut unterstrichen, wie wertvoll die Darstellung von Beziehungszusammenhängen in Trellis-Displays ist.
118
Es wird nun die Frage untersucht, ob die unterschiedlichen, nach Region, Erhebungsjahr und Betriebsgröße<41> gebildeten Gruppen (insgesamt 24 Gruppen) durch ein gemeinsames Hauptkomponentenmodell beschrieben werden können (a-). Die Gruppenbildung erfolgt in Anlehnung an Gruppierungsmerkmale, die auch im Kennzahlenheft verwendet werden (Glasfläche und Jahr, AKBWL, 1996)) und unterscheidet die schon im vorigen Abschitt angesprochenen Regionen. Eine andere Gruppenbildung ist natürlich möglich und kann nach demselben, nun zu besprechenden Vorgehen, untersucht werden.
* Es soll zunächst geklärt werden, ob die Beziehungen zwischen den Variablen in den unterschiedlichen Gruppen annähernd gleich sind, oder ob zum Beispiel in großen Betrieben andere Wirkungszusammenhänge beobachtet werden als in kleineren Betrieben. Es wird demnach nicht untersucht, ob sich die Größe der einzelnen Werte in den Gruppen unterscheidet, ob also zum Beispiel der Rentabilitätskoeffizient über die Jahre zu- oder abgenommen hat. Vielmehr wird die Frage diskutiert, ob die Beziehung von, zum Beispiel Rentabilitätskoeffizient und Lohnquote, über die Jahre annähernd stabil ist oder nicht, und ob die Hauptquellen der Variabilität zum Beispiel in kleineren Betrieben andere sind als in größeren Betrieben. Gewählt wird für die Bearbeitung dieser diese Fragestellung nicht das Modell nach FLURY, 1988, da es zum einen die Multinormalverteilung und zum anderen die Verwendung der Kovarianzmatrix voraussetzt. Da beide Voraussetzungen hier nicht gegeben sind, wird auf die Modelle von KRZANOWSKI, 1979, und KERAMIDAS et al., 1987, zurückgegriffen, deren explorativer Charakter eher die Verwendung der standardisierten Werte und somit der Korrelationsmatrix in der Hauptkomponentenanalyse zulassen<42>. Die Hauptkomponentenanalyse beruht also immer auf der Korrelationsmatrix (die hier zur Erzielung der Gleichgewichtung aller Variablen eingesetzt werden muß, da die Skalen der Kennzahlen sehr unterschiedlich sind), und verwendet einen robusten Schätzer für die Objekte (nach CAMPBELL, 1980), das heißt, sehr extreme Werte gehen mit geringerem Gewicht in die Analyse ein als weniger auffällige Objekte.
Im Anschluß erfolgt eine kanonische Variablenanalyse, um mögliche Unterschiede der Mittelwertsvektoren der Gruppen graphisch sichtbar zu machen (b-).
a-Hauptkomponentenanalyse einzelner Gruppen
- Die Abbildungen B8 und B9 beinhalten für alle 24 Gruppen Plots mit den fq-Werten nach
119
VELICER, 1976, beziehungsweise den W-Werten nach EASTMENT & KRZANOWSKI, 1982. Übersicht B12 gibt einige Informationen zu der Anzahl der Betriebe in den einzelnen Gruppen und den Gruppierungsfaktoren. Abbildung B10 zeigt Boxplots der Eigenwerte der 24 Gruppen. Aus den Verfahren zur Ermittlung der Anzahl ‘wesentlicher Hauptkomponenten wird sichtbar, daß in den meisten Fällen eine, zwei oder drei Hauptkomponenten zur Repräsentation der Daten ausreichen. Das starke Gewicht der ersten beiden Hauptkomponenten zeigen auch die Boxplots in Abbildung B10. Die ersten Eigenwerte aller 24 Gruppen heben sich nicht nur im Mittel, sondern auch in den extremen Werten von der zweiten Hauptkomponente ab. Auch die Eigenwerte der zweiten Hauptkomponenten sind noch recht gut von den restlichen Komponenten abgegrenzt. Dann nehmen aber die Eigenwerte (und ihre Streuung) stark ab und die Überlappungsbereiche erheblich zu. Dies führt dazu, daß in der Betrachtung der Gamma-q-q-Plots nur bei den ersten und zweiten Eigenvektoren verläßliche Vergleiche mit den ‘typischen Eigenvektoren erstellt werden können.
- Die Abbildungen B11, B12 und B13 beinhalten diese Gamma-q-q-Plots für die ersten vier Eigenvektoren. Die Lage- und Skalenparameter der Gamma-Verteilung (geschätzt aus den Daten), sowie einige weitere Informationen zur Anpassung der Gamma-Verteilung an die quadrierten euklidischen Distanzen zwischen dem jeweiligen ‘typischen Eigenvektor und dem jeweiligen Eigenvektor der entsprechenden Gruppe, sind der Übersicht B13 zu entnehmen.
Vor allem beim ersten und zweiten Eigenvektor findet eine gute Anpassung der Distanzen an die Gamma-Verteilung bei Ermittlung der entsprechenden Parameter statt (Devianz < 1 bei 2 Freiheitsgraden). Die Residuen sind durchweg gering und nehmen erst beim dritten und vierten Eigenvektor zu. Die Gamma-q-q-Plots zeigen dementsprechend auch keine besonderen Auffälligkeiten. Allenfalls die Gruppen 6 und 21 fallen beim ersten Eigenvektor (Abbildung B11) stärker aus dem Rahmen. Bei den anderen abgebildeten Eigenvektoren gibt es verschiedentlich etwas vom Normalverlauf abweichende Gruppen, da aber die Trennung der Eigenwerte nur unscharf ist, und in keinem Fall eine besonders extreme Position auftritt, können keine ungewöhnlich auffälligen Gruppen identifiziert werden. Allerdings wird sichtbar, das die Distanzen mit jedem Eigenvektor zunehmen, das heißt beim ersten Eigenvektor liegt die mittlere Distanz noch bei 0,16, beim vierten Eigenvektor bereits bei 1,04 (Übersicht B13). Die Übereinstimmung zwischen den Gruppen wird also immer geringer, und nur in der ersten Dimension scheint es sich um eine allen Gruppen gemeinsame Komponente zu handeln (mit Ausnahme der Gruppen 6 und 21).
- Die Übersichten B14 und B15 beinhalten die Ergebnisse des Gruppenanalysemodells, die Abbildungen B14a und B14b und die Übersichten B16a und B16b die Hauptkomponentenergebnisse der auffälligen Gruppen 6, 7, 8 und 13.
* Während mit den Gamma-q-q-Plots einzelne Eigenvektoren miteinander verglichen werden,
120
vergleicht das Gruppenanalysemodell alle ausgewählten, in diesem Beispiel die ersten vier, Dimensionen, miteinander. Die delta-Werte in Übersicht B15 geben den Winkel an, in dem der jeweilige Eigenvektor der entsprechenden Gruppe zum mittleren Eigenvektor steht. Bei völliger Übereinstimmung ist delta demnach 0; stehen die Vektoren orthogonal zueinander nimmt delta den Wert 90 an. Die Summe der quadrierten Kosinusse von delta ist ein Maß für die Gesamtnähe der ausgewählten Dimension zur mittleren Konfiguration und hat ihr Maximum bei der Anzahl der Gruppen, das heißt je näher der Wert am Maximum liegt, desto näher sind die Gruppen der mittleren Konfiguration. Die mittleren Komponentenkoeffizienten definieren schließlich die mittlere Konfiguration, von der die Abweichungen bestimmt werden. In der ersten Hauptkomponente wird eine recht große Übereinstimmung zwischen allen Gruppen festgestellt, Ausnahmen bilden vor allem die Gruppe 6 und die Gruppe 13. Besonders nahe am mittleren ersten Eigenvektor liegen die Gruppen 4 und 7. In der zweiten Dimension nimmt die Übereinstimmung insgesamt ab, die stärkste Abweichung zeigen nun die Gruppen 13 und 14, während die Gruppe 8 dem mittleren zweiten Eigenvektor am nächsten ist. In dritter und vierter Dimension findet dann in nahezu allen Gruppen eine recht große Abweichung vom Mittel statt. Es läßt sich also auch aus dieser Analyse auf eine oder zwei allen Gruppen gemeinsame Komponenten schließen, danach läßt die Übereinstimmung, die allerdings auch nur noch einen geringeren Anteil der Gesamtvarianz ‘erklärt deutlich nach. Insofern liefert diese Analyse eine ähnliche Einschätzung wie die Betrachtung der Gamma-q-q-Plots, obwohl natürlich hier und da Unterschiede zu beobachten sind, die auch darauf zurückzuführen sind, daß es sich beim Gruppenanalysemodell um die gleichzeitige und nicht, wie im Gamma-q-q-Plot, um die separate Analyse der ersten vier Dimensionen handelt.
Betrachtet man die mittleren Koeffizienten in Übersicht B14, so fällt bei der ersten Komponente die Trennung in negative Ladungen bei den Erfolgskriterien (beinkak, beinkeqm, beinkp, rdiffp, rentkoef) und positive Ladungen bei den Aufwandskriterien (allgawp, spez, lohnqp, fkp) auf mit Koeffizienten nahe am Nullpunkt bei den Strukturdaten (lohnak, heizqm, eqm, glasqm, glasqmak, anvermp). Die erste Dimension differenziert die Betriebe demnach nach Erfolg und Kosten, so daß erfolgreiche und kostensparende Betriebe auf der einen, und weniger erfolgreiche und kostenintensive Betriebe auf der anderen Seite stehen. Die positive Ladung bei kapkoef paßt genau in dieses Schema (siehe 3.2.2.1). In der zweiten Dimension sind es dann vor allem eqm, glasqm, glasqmak, anvermp und allgawp mit sehr negativen Koeffizienten und spezp, heizqm, lohnqp und fkp mit positiven Koeffizienten, so daß diese Dimension die Betriebe nach Fläche, Arbeitsintensität, Anlagevermögen und allgemeinem Aufwand auf der einen und Lohnquote, Energieverbrauch, Spezialaufwand und Fremdkapitaleinsatz auf der anderen Seite trennt, so daß man, wenn man denn will, von einer Technologie- und Vermögensdimension sprechen könnte. Interessant ist die Trennung der Erfolgskriterien in dieser Dimension in ebenfalls in zwei Gruppen, wobei beinkak, rdiffp und rentkoef mit der ersten Gruppe an Variablen korrespondieren (das heißt zum Beispiel geringer Rentabilitätskoeffizient bei geringer
121
Glasfläche/AK), während beinkp, beinkeqm und kapkoef eher mit der zweiten Gruppe korrelieren (das heißt zum Beispiel hohes Betriebseinkommen/Eqm bei hohem Energieverbrauch). Abbildung B14 und Übersicht B16 dienen zur genaueren Betrachtung der besonders auffälligen Gruppen. Gruppe 7 ist dem mittleren Eigenvektor in der ersten Dimension (nach delta) am ähnlichsten, Gruppe 6 am unähnlichsten. Beim zweiten Eigenvektor sind die Gruppen 8 und 13 die dem mittleren Vektor am ähnlichsten beziehungsweise unähnlichsten Gruppen. Das CUSUM Diagramm zeigt für die ‘typischen Gruppen 7 und 8 die deutliche Beherrschung der ersten Komponente durch die Erfolgsvariablen, das heißt die erste Dimension wird vor allem durch die Streuung der erfolgreichen und weniger erfolgreichen Betriebe bestimmt, während sich die anderen Kriterien hier weit weniger finden. Wesentliche Unterscheidungsmerkmale der Betriebe sind demnach ihre Erfolgskennzahlen und weit weniger ihre Aufwands- Vermögens- oder Strukturdaten, so daß offensichtlich sehr erfolgreiche oder auch sehr erfolglose Betriebe ähnliche Werte bei anderen Kennzahlen besitzen können. Gruppe 6 unterscheidet sich hier sehr deutlich. Die Erfolgskennzahlen nehmen nur die Hälfte des ersten Eigenwertes in Anspruch, die anderen Kennzahlen liefern in fast demselben Umfang einen Beitrag zur Gesamtstreuung, insbesondere die Lohnquote. Darüberhinaus besitzen in dieser Gruppe eqm, glasqm, glasqmak und kapkoef stark negative Koeffizienten und zeigen somit in dieselbe Richtung wie die Erfolgsvariablen. In der zweiten Dimension fällt bei der auffälligen Gruppe 13 vor allem der der starke Beitrag der Flächenkennzahlen glasqm und eqm und die sehr geringe Bedeutung von lohnqp auf. Es läßt sich aber zusammenfassend festhalten, daß die Gruppierungen Glasfläche, Region und Erhebungsjahr in den wesentlichen ersten beiden Dimensionen eine erstaunliche Homogenität aufweisen, daß also das Beziehungsgefüge der hier ausgewählten Kennzahlen tatsächlich, von wenigen Ausnahmen abgesehen, stabil ist, das heißt, daß also in allen Gruppen die gleichen Korrelationen mehr oder minder Bestand haben. Der Frage, warum einzelne Gruppen von dieser allgemeinen Gültigkeit abweichen, wie die Gruppe 6 oder 13, soll in dieser Arbeit nicht weiter nachgegangen werden.
b-Kanonische Variablenanalyse
- Übersicht B17 enthält die Ergebnisse der kanonischen Variablenanalyse, die Eigenwerte der ersten beiden Dimensionen und die Mittelwerte der kanonischen Variablen. Abbildung B15 beinhaltet in B15a bis B15c die Lage der Mittelwerte der kanonischen Variablen, farblich gekennzeichnet nach Erhebungsjahr, Betriebsgröße und regionaler Lage. B15d bis B15f enthalten die konvexen Hüllen der Objektkonfigurationen in den ersten beiden Dimensionen für die Objekte aller 24 Gruppen (die Objekte selbst sind der Übersichtlichkeit halber nicht abgebildet), wobei die gleichen Farbkodierungen wie in B15a bis B15c gewählt werden.
Die ersten beiden kanonischen Variablen erfassen bereits über 90% der Gesamtvariablilität und zeigen eine sehr deutliche Trennung bei den kanonischen Variablenmittelwerten für die
122
Gruppierungsfaktoren Betriebsgröße (in der ersten Dimension) und regionale Lage (in der zweiten Dimension). Demgegenüber gibt es beim Gruppierungskriterium Erhebungsjahr erhebliche Überschneidungen, so daß sich die Mittelwertsvektoren der Jahre nur unwesentlich unterscheiden dürften. B15b legt darüber hinaus die Vermutung nahe, daß die Unterschiede zwischen den Regionen mit zunehmender Betriebsgröße abnehmen, zumindest bis zur dritten Glasflächenklasse (die Betriebsgröße nimmt von links nach rechts zu, die Farben entsprechen denen aus Übersicht B12). Allerdings ist die Streuung um die Mittelwerte nicht unerheblich. Dies wird durch die konvexen Hüllen um die Objektkonfigurationen verdeutlicht. Vor allem bei den Regionen gibt es nicht unwesentliche Überlappungsbereiche, während bei der Betriebsgröße eine insgesamt gesehen sehr gute Trennung zwischen den Gruppen erfolgt.* Die konvexen Hüllen werden an Stelle von Konfidenzintervallen um die kanonischen Mittelwerte, wie sie in der Literatur häufig vorgeschlagen werden (siehe zum Beispiel KRZANOWSKI, 1988a) gewählt, um nicht implizit Annahmen zu treffen, vor allem hinsichtlich der Multinormalverteilung, die durch die Daten nicht gedeckt werden<43>.
Die Abbildung B16 zeigt auf, daß es sich bei der Trennung der Betriebsgrößenklassen um eine tatsächlich in den Kennzahlen nachvollziehbare Gruppierung handelt. Die größten Betriebe weisen in der Mehrzahl der Kennzahlen auch die höchsten Werte auf, insbesonders bei Erfolgskennzahlen wie beinkak, rdiffp oder rentkoef, weisen aber gleichzeitig die niedrigsten Werte bei fkp und heizqm und niedrige Werte bei kapkoef, lohnqp und spezp auf. Die Betriebe der kleinsten Größenklasse zeigen genau das umgekehrte Verhalten. Eine Besonderheit stellt das Kriterium Betriebseinkommen/Eqm dar. Mit Zunahme der Betriebsgröße nimmt dieses offensichtlich ab, kleinere Betriebe haben also eine höhere Flächenproduktivität als größere Betriebe. Dies läßt den Schluß zu, daß das Betriebseinkommen bei der Flächenausweitung von Gartenbaubetrieben in geringerem Umfang zunimmt als die Betriebsgröße.
Während im vorangegangenen Kapitel im Mittelpunkt der Vergleich schon bestehender Gruppen behandelt worden ist, werden in diesem Abschnitt Methoden diskutiert, die zu einer Bildung von möglichst homogenen Gruppen führen können. Es kommen die Clusteranalyse (a-), Klassifikations- und Regressionsbäume (b-) und, als Sonderfall letzterer, der Chi Square Automatic Interaction Detector (CHAID) (c-) zum Einsatz.
a-Clusteranalyse
123
Die Clusternanalyse stellt für diese Arbeit nur einen Randbereich dar, da es sich ja in erster Linie nicht um eine Methode zur Visualisierung von Daten, sondern zur gezielten Gruppierung von Objekten handelt. Es wird daher an dieser Stelle nur die Frage im Bereich der Clusteranalyse aufgegriffen, ob überhaupt von einer Clusterung der beobachteten beziehungsweise erhobenen Objekte ausgegangen werden kann.* Es werden die modellbegründete Clusteranalyse, die nicht-hierarchische Klassifikation (Partitionierung um Medoide) und Fuzzy Clusterung, sowie die hierarchische agglomerative und divisive Vorgehensweise verwendet. Die Auswertung erfolgt getrennt nach Erhebungsjahren, um Unabhängigkeit der Objekte untereinander sicherzustellen. Für die modellbegründete Clusteranalyse werden die ausgewählten Kennzahlen (siehe Übersicht B18) standardisiert, für die anderen Verfahren erfolgt die Berechnung einer Proximitätsmatrix (nach KAUFMANN & ROUSSEEUW, 1990), die auf in Klassen unterteilten Variablenwerten beruht. Das heißt, alle Variablen werden in vier Klassen unterteilt, wobei die Klassengrenzen durch die Quartile gebildet werden. Zu Klasse 1 zählen demnach die Betriebe mit Werten bei der jeweiligen Variablen unterhalb des ersten Quartils, zu Klasse 2 Betriebe mit Werten zwischen dem ersten Quartil und unterhalb des Medians, zu Klasse 3 Betriebe mit Werten größer oder gleich dem Median bis zum dritten Quartil, und zu Klasse 4 schließlich Betriebe mit Werten oberhalb des dritten Quartils. Als modellbegründete Clusteralgorithmen werden verwendet: S, S*, Spherical, Unconstrained und Ward. Die Analysen werden unter den Annahmen des Zutreffens und des Nicht-Zutreffens der Multinormalverteilung durchgeführt. Im Bereich der nicht-hierarchischen Klassifikation erfolgt die Erstellung von Silhouettenplots für eine unterschiedliche Anzahl von Clustern. Die hierarchische Clusteranalyse, die auch auf der Proximitätsmatrix beruht, verwendet average-, complete- und single-link-Algorithmen im agglomerativen Teil, sowie ein divisives Vorgehen.
- Abbildung B17 beinhaltet die AWE-Werte der Clusteranaylsen der drei Erhebungsjahre für die unterschiedlichen Verfahren (in den Spalten) und nach dem normalen Vorgehen (in der unteren Zeile) und dem robusten Vorgehen (in der oberen Zeile). Die rote Referenzline ist bei 0 hinzugefügt. Es werden nur die AWE-Werte bis 20 Cluster gezeigt.
Bei Verwendung der robusten Methode gibt es in keinem Fall einen Hinweis auf das Vorliegen einer Gruppenstruktur, da alle AWE-Werte kleiner als 0 sind. Nur S und Ward zeigen bei Verwendung der nicht-robusten Methode einen leichten Ansatz möglicher Gruppierungen.
- Die Silhouettenplots in den Abbildungen B18a bis B18c basieren auf der Bildung von zwei bis neun Clustern nach der Methode der Partition um Medoide, die Abbildungen B19a bis B19c beinhalten die Silhouettenplots der Fuzzy Clusteranalyse für Lösungen mit zwei bis sechs Clustern.
Die Plots bestätigen, was auch schon durch die AWE-Werte angezeigt wird. Die mittlere
124
Silhouettenbreite in allen Fällen von unter 0,2 (Maximum bei völliger Einheitlichkeit aller Objekte eines Clusters ist 1), die zum Teil sogar negative Silhouettenbreite und der stark schräge Verlauf der Silhouetten sind Hinweise darauf, das in den gebildeten Clustern sehr heterogene Objekte zusammengefaßt sind, die sich nicht durch einige klare, gemeinsame Merkmalsausprägungen beschreiben lassen. Der niedrige Dunn-Koeffizient, der in allen Fällen ‘1/Anzahl der Cluster entspricht, weist auf eine vollständige Fuzzy-Gruppierung hin, das heißt kein Objekt gehört eindeutig zu einem der gewählten Cluster.- Die Abbildungen B20a bis B20d schließlich zeigen Dendrogramme und Bannerplots für die hierarchischen Clusterverfahren.
Die Aussagen der anderen Clusterverfahren werden erneut bestätigt. Die Dendrogramme besitzen Verschmelzungspunkte auf relativ hohem Niveau, deuten also ebenfalls auf heterogene Cluster hin, und auch die Bannerplots weisen eine geringe Trennschärfe zwischen den Gruppierungen auf, obwohl Unterschiede zwischen den Clusteralgorithmen auftreten. Die recht geringen agglomerativen Koeffizienten (zumindest bei single- und average-linkage) verdeutlichen, daß eine Vergrößerung der Cluster nur zu einer geringen Zunahme der Unähnlichkeiten in diesen Clustern führt, was wiederum ein Indiz für recht heterogene Gruppen ist.
* Die hier verwendeten Daten weisen nicht darauf hin, daß überhaupt eine Clusterstruktur vorliegt und eine Gruppierung daher mit einer entsprechenden Beliebigkeit verbunden ist. Diese Aussage bezieht sich allerdings nur auf die ausgewählten Variablen. Bei Auswahl anderer Kennzahlen können die Betriebe möglicherweise in sinnvolle Cluster getrennt werden, die zu einer guten Beschreibung der Betriebe, bezogen auf die betrachteten Merkmale, führen. Auf Grund der gerade gemachten Feststellungen ist jedoch nicht zu erwarten, daß sich diese Gruppierung, bezogen auf alle hier untersuchten Kennzahlen, fortsetzt. Die Diskussion um das Für und Wider von Clusteranalysen wird in Kapitel 4 noch einmal aufgegriffen. Die Verwendung der Proximitätsmatrix auf Grundlage der ordinalen Variablenklassen mag zunächst nicht ausreichend begründet erscheinen. Da diese Frage viele der nun folgenden Auswertungen und auch grundsätzliche Aspekte der Analyse der Kennzahlen betrifft, wird sie ebenfalls in Kapitel 4 noch einmal angesprochen.
b-Klassifikations- und Regressionsbäume (CART)
* Eine Alternative zur Clusteranalyse bieten die Klassifikations- und Regressionsbäume, die ebenfalls zu einer Einteilung einer großen Stichprobe in einzelne, möglichst homogene Segmente führen. Im Gegensatz zur Clusteranalyse sind aber die Entstehung der Segmente und deren wesentlichste Charakteristika durch die Baumstrukturen direkt nachvollziehbar und sichtbar. Allerdings richtet sich die Segmentierung an der Beziehung der Prediktorvariablen zu einer einzelnen abhängigen Variablen aus, und ist nicht, wie in der Clusteranalyse, durch eine
125
gleichwertige Einbeziehung aller Variablen in die Berechnung einer Proximitätsmatrix geprägt. Die Prediktorvariablen sind Übersicht B18 zu entnehmen. Als Zielvariable wird der Rentabilitätskoeffizient gewählt. Es wird sowohl mit dem vollen Datensatz und den Gewichtungen der multivariaten Ausreißeranalyse (siehe Übersicht B19), als auch mit einem um die Extremwerte verkleinerten Datensatz gerechnet, um der starken Abweichung der Kennzahl Rentabilitätskoeffizient von der Normalverteilung zu begegnen (siehe dazu die Übersichten B20 und B21, sowie die Normal-q-q-Plots in Abbildung B21). Beim Aufbau des vollen Regressionsbaums gelten die folgenden Einstellungen. Knoten werden nur gespalten, wenn mindestens 10 Objekte am Knoten vorliegen, eine Variable wird erst gespalten, wenn das kleinere Segment 5 Objekte umfaßt, und der Aufbau des Baumes stoppt, wenn die Knotendevianz von 0,01 unterschritten wird. Der verkleinerte Regressionsbaum wird bei sieben Terminalknoten betrachtet. Die Auswahl dieser Konstruktion ist eher willkürlich. Es werden jedoch bereits an dieser Stelle einige wichtige Gesichtspunkte erkennbar, die für die Beschreibung der Zusammenhänge zwischen abhängiger und Prediktorvariablen ausreichen sollen. Ein formaler Test auf die Güte dieser Lösung findet jedoch nicht statt. Da im Zentrum der Auswertung allerdings auch nicht die Formulierung eines speziellen Modells, sondern die Identifikation der stärksten Variablenbeziehungen steht, soll diese Vorgehensweise ausreichen.- Die Abbildungen B22 bis B24 beziehungsweise B25 bis B27 beinhalten zusammenfassende Darstellungen der Ergebnisse der Analyse des vollen, gewichteten Datensatzes beziehungsweise des verkleinerten Datensatzes für die drei Erhebungsjahre getrennt. Sie zeigen den vollen Regressionsbaum (voll im Sinne der oben genannten Einstellungen), den auf sieben Terminalknoten gestutzten Baum mit vierklassigen Balkendiagrammen der abhängigen Variablen, die mittlere Residuendevianz verschiedener Lösungen im Prozeß des cost-complexity pruning, die mittlere Residuendevianz der sieben Terminalknoten, sowie zwei Residuenplots. Die Übersichten B22 bis B27 enthalten Informationen zu den betrachteten Modellen und den in den Regressionsbäumen auftauchenden Variablen.
Die Ergebnisse beider Analysen aller drei Jahre weisen große Ähnlichkeiten auf. In der obersten Ebene tritt immer die Lohnquote auf, darunter folgen Spezialaufwand und allgemeiner Aufwand. Die Aufwandsvariablen sind somit überwiegend an einer Segmentierung, ausgerichtet am Rentabilitätskoeffizienten, beteiligt. Andere Variablen kommen erst an weiter unten angesiedelten Knoten zur Nennung, am häufigsten (in allen Modellen) epertp, danach, in immerhin fünf Modellen anvermp und fremdakp. Regionale und Fremdkapital-Kennzahl tauchen in keinem Modell auf. Die Güte der Segmentierung, bezogen auf den Rentabilitätskoeffizienten, ist gut in den Barcharts zu erkennen (Teilabbildung b)), obwohl es natürlich einige Überschneidungen zwischen den Segmenten gibt. Die Terminalknotendevianzen (Teilabbildung d)) und die Residuen (Teilabbildung e)) sind insgesamt gering, die Residuen in der Regel annähernd normal verteilt (Teilabbildung f)), vor allem im verkleinerten Datensatz. Der Verlauf der Residuendevianzkurve (Teilabbildung c)) zeigt in allen Fällen, daß mit sieben
126
Terminalknoten schon deutlich über die Hälfte der Gesamtvarianz betrachtet werden kann. Werden die einzelnen Jahre (jetzt ausschließlich für die Lösung des verkleinerten Datensatzes) noch etwas genauer betrachtet, so fällt folgendes auf. 1992 (Abbildung B25) liegt der Schnittpunkt bei der Lohnquote bei 32,9%, das heißt praktisch am Median. Betriebe unterhalb dieses Wertes erreichen im Durchschnitt (bei Betrachtung der geschätzten Segmentwerte) immer höhere Rentabilitätskoeffizienten, als Betriebe, die den Median mehr oder weniger deutlich überschreiten. Nur bei einem Spezialaufwand deutlich oberhalb des Median (> 37,7%, Median 33,7%) oder des allgemeinem Aufwandes deutlich oberhalb des Median (> 30,2%, Median 25,5%) bleibt der Rentabilitätskoeffizient unter 1. Werden 32,9% bei der Lohnquote überschritten, wird selbst bei unterdurchschnittlichem Spezialaufwand im Mittel kein Rentabilitätskoeffizient von über 1 erzielt. 1993 (Abbildung B26) liefert annäherd dasselbe Bild. Der Schnittpunkt bei der Lohnqote liegt wieder bei 32,9%. Allerdings erzielen Betriebe mit recht hohem Spezialaufwand von über 37,8% (das ist ein Wert sehr nahe am dritten Quartil), selbst bei niedriger Lohnquote nur knapp über 0,9 liegende Rentabilitätskoeffizienten (allerdings recht breite Streuung in diesem Segment, siehe Barcharts in B26b). Überschreiten der 32,9%-Marke bei der Lohnquote führt aber auch in 1993 immer zu mittleren Rentabilitätskoeffizienten von unter 1. 1994 (Abbildung B27) zeigt dagegen, daß selbst bei recht hoher Lohnquote (im Bereich von 31,1% bis 44,1%), überdurchschnittlichem allgemeinen Aufwand (< 29,8%, Median 25,9%) und sehr geringen Spezielaufwand (< 27,5%, Median 31,5%), immerhin noch ein Segment mit Betrieben existiert, das im Durchschnitt einen Rentabiltätskoeffizienten von > 1 aufweist. Zusammenfassend läßt sich also festhalten, daß die drei Aufwandskennzahlen, die als Absolutwerte direkt in die Berechnung des Rentabilitätskoeffizienten eingehen, eine erwartungsgemäß starke Wirkung auf die am Rentabilitätskoeffizienten ausgerichtete Segmentierung besitzen. In gewissem Sinne bestätigt sich damit auch die Beobachtung aus der gruppenweisen Hauptkomponentenanalyse, die ja auch die erste und somit bestimmende Dimension in dem Gegesatz aus Erfolgs- und Aufwandskennzahlen ermittelt hat (siehe 3.2.2.2). Die - enttäuschend geringe - Beziehung zwischen den übrigen Kennzahlen und dem wichtigen Erfolgsmaßstab Rentabilitätskoeffizient kann ebenfalls erneut festgehalten werden.c-CHAID
* Der Chi-Square Automatic Interaction Detector operiert nur mit kategorialen Daten. Verwendet werden daher die bereits unter a- beschriebenen, ordinalen Variablenklassen (ausgewählte Kennzahlen siehe Übersicht B18). Die Quartile der ausgewählten Kennzahlen, die die Klassengrenzen definieren, sind in Übersicht B28 festgehalten. Diese Kennzahlen werden nach Diskretisierung als ordinale Prediktorvariablen mit monotoner Kombinierbarkeit der Klassen verwendet (das heißt eine Zusammenlegung kann nur bei nebeneinanderliegenden Klassen erfolgen). Zusätzlich werden die Gruppierungsdaten Region und Absatzweg als nominale Variablen mit einer beliebigen Kombinierbarkeit der Klassen in die Analyse aufgenommen. Die Aufwandsvariablen allgemeiner Aufwand, Spezialaufwand und Lohnquote, die die CART-Lösung
127
so stark dominieren, bleiben nun unberücksichtigt, um die Struktur hinter diesen Kennzahlen näher zu betrachten. Als abhängige Variable wird wiederum der Rentabilitätskoeffizient gewählt. Es wird nach der ordinalen Methode gerechnet. Den Klassen des Rentabilitätskoeffizienten werden die Koeffizientenwerte der 12,5, 37,5, 62,5 und 87,5 Perzentile der einzelnen Jahre als Werte der jeweiligen Klassenmitte zugeordnet. Es findet die Bonferroni Anpassung in den Chi-Quadrat Tests statt. Ein neuer Split und die Verschmelzung von Kategorien erfolgt bei Unter- beziehungsweise Überschreiten der Signifikanzschwelle von 0,05. Als kleinstes, noch zu trennendes Segment werden 10 Objekte vorausgesetzt. Als kleinste Endsegmentgröße werden fünf Objekte festgelegt.- Die Abbildungen B28 bis B30 beinhalten die Klassifikationsbäume mit den Schätzwerten für die abhängige Variable und den Prozentwerten der Prediktorvariablen in den einzelnen Klassen für die Auswertung der Jahre 1992 bis 1994. Die Übersicht B29 gibt Hinweise zu den gebildeten Segmenten und ihren Werten bei der abhängigen Variablen. In den Abbildungen B31 bis B33 sind für die wichtigsten Prediktorvariablen Balkendigramme und ein Rugplot der abhängigen Variablen, gruppiert nach den Segmenten auf der untersten hier betrachteten Ebene, dargestellt.
Als am stärksten trennende Kennzahl tritt 1992 und 1994 die Betriebsgröße über die Kennzahl Eqm auf. In der zweiten Ebene folgen dann in diesen beiden Jahren die Region und 1992 der Anteil Fremd-AK beziehungsweise 1994 das Fremdkapital. 1993 stehen Fremdkapital und Region in den ersten beiden Ebenen. Auf der dritten und vierten Ebene werden sich die Lösungen der einzelnen Jahre wieder unähnlicher, 1992 tauchen glasqmak, netinvp und anvermp auf, 1993 ak, fremdakp, lohnak und verm, und 1994 heizqm, netinvp, und lohnak. Interessant ist aber, daß alle drei Lösungen die regionale Lage in einer der beiden oberen Ebenen beinhalten, und daß auch die Betriebsgröße einen starken segmentierenden Effekt hat. Darüber hinaus tritt die Kennzahl Anteil Fremdkapital, die in der CART Lösung überhaupt nicht auftaucht, hier deutlich in den Vordergrund. Weitere Splits der Klassifikationsbäume sind an den in den Abbildungen angegebenen Stellen möglich, die Gruppen werden dann aber sehr klein. Durch die Baumstruktur lassen sich die entstandenen Segmente gut beschreiben. So handelt es ich 1992 bei den erfolgreichsten Betrieben mit einem geschätzten durchschnittlichen Rentabilitätskoeffizienten von 1,22 um überdurchschnittlich große Betriebe aus Region 1, die sehr stark investiert haben. 1994 liegen die besten Betriebe mit einem geschätzten durchschnittlichen Rentabilitätskoeffizienten von 1,26 in den mittleren Bertriebsgrößenklassen, mit unterdurchschnittlichem Fremdkapitalanteil und sehr geringem Energieverbrauch je Quadratmeter. Analog lassen sich die übrigen Segmente interpretieren. Allerdings ist kein einheitliches Schema in den drei Erhebungsjahren zu erkennen, das heißt die Variablen, die die Segmente am besten beschreiben unterscheiden sich von Jahr zu Jahr (obwohl es sich um dieselben Betriebe handeln kann). Die Balkendiagramme zeigen überzeugend, daß den Variablen in den ersten beiden Ebenen der Klassifikationsbäume tatsächlich sichtbare Effekte zugrunde liegen. In allen drei Jahren hat die Region 1 deutlich mehr Betriebe in den hohen
128
Rentabilitätsklassen als die übrigen Regionen. Die Zunahme des Erfolgs mit Zunahme der Betriebsgröße beziehungsweise mit Abnahme des Anteils Fremdkapital wird ebenso deutlich. Diese Betrachtung paarweise Beziehungen ist aber nicht unproblematisch, da ein beobachteter Effekt in derartigen Darstellungen möglicherweise nur Ergebnis der starken Korrelation beider Variablen mit einer dritten Variablen ist (Simpsons Paradox, siehe 2.4.2). Schließlich sind die Rugplots in den Abbildungen B31 bis B33, die die Orginalwerte der Zielvariablen für die einzelnen Segmente enthalten, eine Mahnung zur Vorsicht in der Interpretation der Klassifikationsbäume. Zwar ist in allen Fällen ein leichter Trend sichtbar, und die Segmente scheinen sich hinsichtlich ihres Rentabilitätskoeffizienten etwas zu unterscheiden, es wird aber auch deutlich, daß die Überschneidungen enorm sind, und die Abgrenzung der Segmente gegeneinander nur recht undeutlich ist.Diskrete graphische Modelle werden nun eingesetzt, um die Beziehungen der Kennzahlen untereinander zu untersuchen. Die Kennzahlen werden wie für die im vorangegangenen Kapitel beschriebene CHAID-Analyse diskretisiert. Die Anwendung kontinuierlicher graphischer Modelle oder gemischter graphischer Modelle bietet sich aufgrund der starken Abweichungen von der Multinormalverteilung nicht an. Zunächst werden 15 Kennzahlen, darunter eine Erfolgskennzahl und 14 weitere Kennzahlen in die Untersuchung der Jahre 1992 bis 1994 einbezogen (a-). Anschließend erfolgt die Betrachtung der Beziehungen von sechs Erfolgskennzahlen untereinander (b-).
a-Erfolgs- und andere Kennzahlen
Für jedes Erhebungsjahr werden sechs graphische Modelle gesucht. Jedes Modell beinhaltet eine der sechs Erfolgskennzahlen Betriebseinkommen/AK (beinkak), Betriebseinkommen/Eqm (beinkeqm), Betriebseinkommen in % BE (beinkp), Kapitalkoeffizient (kapkoef), Reinertragsdifferenz in % BE (rdiffp), oder Rentabilitätskoeffizient (rentkoef) und 14 weitere Kennzahlen, und zwar diejenigen, die in Übersicht B18 auch für die CHAID-Analyse aufgelistet sind. Die Aufwandskennzahlen werden also auch in dieser Auswertung nicht berücksichtigt, da sich das Interesse auf die Beziehungen der Erfolgskennzahlen zu denjenigen Kennzahlen richtet, die nicht direkt in ihre Berechnung einfließen, sondern von denen eher eine strukturelle Wirkung erwartet wird, die sich möglicherweise in den Erfolgskennzahlen niederschlägt.
* Die Vielzahl der Kennzahlen führt zu sehr schwach besetzten Tabellen, die in sehr vielen Zellen eine 0 besitzen. Es werden daher exakte Tests mit 500 Simulationen zur Modellfindung eingesetzt. Das Signifikanzniveau für Einschluß oder Ausschluß einer Verbindung zwischen zwei Kennzahlen (das heißt für die Ablehnung oder Bestätigung der Hypothese bedingter Unabhängigkeit) liegt bei p = 0,05. Als Suchalgorithmen werden die Rückwärts-Elimination ausgehend vom vollen Modell und die Methode nach EDWARDS & HAVRÁNEK, 1987, gewählt.
129
Bei letzterer erfolgt im ersten Schritt die Ermittlung des minimalen, unbestimmten Modells. Es wird dann geprüft, ob dieses Modell zur Beschreibung der Daten ausreicht, und welche Modelle durch Hinzufügen weiterer Verbindungen zum minimalen Modell ebenfalls akzeptable Modelle für die vorhandenen Daten liefern. So ergibt sich im letzten Schritt eine Liste möglicher Modelle, in denen manche Verbindungen immer, andere Verbindungen nur in einem Teil der möglichen Modelle fehlen. Das Verfahren verdeutlicht also die dem Modellierungsprozeß inhärente Unsicherheit. Es werden ausschließlich ungerichtete Graphen verwendet. Dies ist auch gerade im Blick auf die Kennzahlen sinnvoll, da die Wirkungsrichtung nicht eindeutig ist. Die Wechselwirkungen der Kennzahlen untereinander werden somit unterstrichen.- Da nur Tabellen mit acht Variablen mit der dem Verfasser zur Verfügung stehenden Software (DIGRAM von Svend Kreiner) verrechnet werden können, erfolgt zunächst ein Screening der Variablen auf direkte Beziehungen in allen Zwei- und Drei-Wege-Tafeln. Abbildung B34 zeigt im oberen Teil das gesamte Beziehungsgeflecht im vollen Modell zum Beispiel für 1993 mit der Erfolgskennzahl Betriebseinkommen/AK. Im unteren Teil der Abbildung sind dann alle nach dem Screening ermittelten bedingt unabhängigen Verbindungen entfernt. Derselbe Prozeß wird für alle sechs Erfolgskennzahlen und alle drei Jahre wiederholt. Daraus resultiert Übersicht B30, die zeigt, zwischen welchen Variablen in den einzelnen Jahren direkte Beziehungen bestehen.
Die Ergebnisse des Screenings in den drei Erhebungsjahren sind sich, bezogen auf die Beziehungen der ‘übrigen Kennzahlen zu den Erfolgskennzahlen, relativ ähnlich. So sind zum Beispiel beim Betriebseinkommen/AK immer direkte Beziehungen von beinkak zu eqm, fkp, glasqmak und lohnak vorhanden. 1992 kommen noch netinvp und abswg, 1994 epertp hinzu. Eine vergleichbare Übereinstimmung ergibt sich zwischen den Jahren auch bei den anderen Erfolgskennzahlen, das heißt, daß von einer gewissen Kontinuität der Beziehungen in den Erhebungsjahren ausgegangen werden kann. Die Variablen, zu denen direkte Beziehungen bestehen unterscheiden sich demgegenüber bisweilen auffällig von Kennzahl zu Kennzahl. Nur der Fremdkapitalanteil taucht in allen Modellen, mit einer Ausnahme (kapkoef, 1992), auf. Weitere, häufig auftauchende Kennzahlen sind eqm (in 12 Modellen), lohnak (in 11 Modellen), heizqm (in 10 Modellen) und glasqmak (in 9 Modellen). anvermp taucht nur in drei Modellen, dafür aber konstant in denen mit der Kennzahl Kapitalkoeffizient auf. glasqm und verm sind in keinem der 18 Modelle genannt. Jede Erfolgskennzahl ist somit mindestens teilweise ein Spiegel von Informationen, die von den anderen Erfolgskennzahlen nicht wiedergegeben werden.
- Für 1993 werden die Kennzahlen mit direkten Beziehungen nun der intensiven Analyse mit exakten Tests unterzogen. Die verwendeten Kennzahlen, sowie die Ergebnisse der Rückwärts-Elimination und der EH-Prozedur sind in Übersicht B31 festgehalten. Es ergeben sich nach Rückwärts-Elimination die sechs graphischen Modelle in Abbildung B35.
Die Modelle sind durch eine Vielzahl von Variablenbeziehungen gekennzeichnet. Die direkten
130
Beziehungen, die im Screening beobachtet werden, sind auch im reduzierten Variablensatz nach wie vor vorhanden. Bedingte Unabhängigkeiten, vor allem mit Blick auf die Erfolgskennzahlen, sind praktisch nicht vorhanden. Die Modelle werden häufig durch Cliquen beherrscht, also maximal komplette Subgraphen (ein maximal kompletter Subgraph ist dadurch gekennzeichnet, daß alle Variablenpunkte einander benachbart sind). Zwischen den durch das Screening ausgewählten Variablen bestehen vielfältige direkte und auch indirekte Beziehungen. Hinter den Variablen. die in den Modellen abgebildet sind, stehen alle übrigen Variablen, die entweder keine besonders starke direkte Beziehung zu einer der Erfolgskennzahlen besitzen oder bedingt unabhängig von ihr sind, das heißt unabhängig von ihnen, gegeben die im Modell berücksichtigten Variablen. Das graphische Modell mit der Arbeitsproduktivität (beinkak, B35a) ist gekennzeichnet durch eine die vier Kennzahlen beinkak, eqm, glasqm und lohnak umfassende Beziehung, sowie eine von den übrigen Kennzahlen (gegeben beinkak) unabhängige Wechselwirkung mit fkp. Das Modell für die Flächenproduktivität (beinkeqm, B35b) bestätigt die direkten Beziehungen zu ak, lohnak, glasqmak, heizqm und fkp aus dem Screening, und enthält Querverbindungern aller Kennzahlen zu mindestens zwei weiteren Variablen. Etwas stärker vereinfacht wirkt das Modell für die Wertschöpfungsquote (beinkp, B35c). Eine Clique von beinkp, lohnak und fkp wird ergänzt durch eine, gegeben beinkp, von lohnak und fkp unabhängige, Wechselwirkung zwischen heizqm und beinkp. Der wohl am stärksten verbundene Graph ist der für das Modell, das den Kapitalkoeffizienten beinhaltet (B35d). Die Bildung von vier maximal vollständigen Subgraphen ist möglich und verdeutlicht das enge Geflecht von anverp, fkp, lohnak und fremdakp, in dessen Mittelpunkt immer der Kapitalkoeffizient steht. Reinertragsdifferenz und Rentabilitätskoeffizient liefern (B35e und B35f) einander recht ähnliche Modelle, mit direkten Beziehungen zwischen den Erfolgskennzahlen und region, fkp und fremdakp. Interessanterweise taucht in beiden Modellen auch die Kennzahl eqm auf, die aber gegeben die anderen Variablen von den Erfolgskennzahlen unabhängig ist, der Betriebsgrößeneffekt also bei diesen beiden Kennzahlen durch andere Variablen bereits erklärt wird.
- Die Abbildungen B36 bis B40 fassen einige, nicht alle, der, im wesentlichen direkten, Beziehungen in Form von Trellis-Displays zusammen. In den Panels, die in der Regel in den drei Spalten durch die drei Erhebungsjahre und in den Zeilen durch die in vier Klassen gruppierten Erfolgskennzahlen konditioniert sind, befinden sich die relativen Häufigkeiten der vier Klassen der im Einzelfall betrachteten Kennzahl.
Die Abbildungen B36a und B36b zeigen den Zusammenhang zwischen Betriebsgröße (eqm), ‘Fläche zu Arbeit-Verhältnis (glasqmak) und Arbeitsproduktivität (beinkak). Größere Betriebe gehören in der Mehrzahl der Fälle zu den Betrieben mit höherer Arbeitsproduktivität. Das gleiche gilt für Betriebe mit höherem ‘Fläche zu Arbeit-Verhältnis (glasqmak). Die Flächenproduktivität (beinkeqm) hat nahezu die entgegengesetzten Beziehungsrichtungen (Abbildungen B36c und
131
B36d), das heißt kleinere Betriebe besitzen eher eine hohe Flächenproduktivität als größere Betriebe, und ein weites ‘Fläche zu Arbeit-Verhältnis korrespondiert häufiger mit einer geringen als mit einer hohen Flächenproduktivität. Es bestätigt sich damit eine Beobachtung aus der kanonischen Variablenanalyse (siehe 3.2.2.2).- Das Beziehungsgeflecht von Betriebsgröße und ‘Fläche zu Arbeit-Verhältnis soll noch näher betrachtet werden. Im Modell für die Flächenproduktivität taucht die Kennzahl Einheitsquadrameter nicht auf, sie wird im Screening als bedingt unabhängig, gegeben (unter anderem) Anzahl AK, identifiziert. Deswegen wird in der Folge auch die Anzahl AK als Maß der Betriebsgröße mitverwendet.
Die Abbildungen B37a und B37b zeigen die zu erwartenden Effekte, und zwar, daß das ‘Fläche zu Arbeit-Verhältnis mit zunehmender Fläche zunimmt und mit zunehmender Anzahl AK abnimmt. Auf der anderen Seite zeigt B37c das auch Anzahl AK und Einheitsquadratmeter in enger Beziehung stehen und beide Kennzahlen in gewissem Sinne ein Maß der Betriebsgröße sind, Betriebe mit einer großen Fläche also auch überwiegend viele Arbeitskräfte und Betriebe mit vielen Arbeitskräften auch große Flächen haben. Einheitsquadratmeter, Anzahl AK und ‘Fläche zu Arbeit-Verhältnis sind in B37d nur für das Jahr 1993 noch einmal abgebildet. Die vorangegangenen Beobachtungen werden zwar bestätigt, aber es fällt doch auf, daß die Zunahme des ‘Fläche zu Arbeit-Verhältnisses durch Steigerung der Betriebsgröße auf den einzelnen Stufen der Anzahl AK nicht gleich verläuft.
- Dieser Zusammenhang wird in anderer Weise auch noch einmal in B38 aufgegriffen. Die Panels beinhalten hier nun aber wieder Loess-Regressionslinien (in ihrer Definition identisch zu denen aus 3.2.2.1), es werden die log-transformierten Ausgangsvariablen verwendet und die Klassenbildung erfolgt nach einem equal-count-Algorithmus mit einem großen Überlappungsbereich.
Am auffälligsten ist B38a. In der Gruppe der kleinsten Betriebe stehen Steigerung der Fläche und Zuwachs des ‘Fläche zu Arbeit-Verhältnisses in einem engen Zusammenhang. Dann scheint jedoch eine Art Plateau erreicht zu werden (um das herum natürlich auch hier eine nicht unerhebliche Streuung zu verzeichnen ist). Offensichtlich gibt es also einen Wert beim ‘Fläche zu Arbeit-Verhältnis, über den hinaus selbst recht große, am Kennzahlenvergleich beteiligte Betriebe, im Mittel nicht hinauskommen und der auch schon von den durchschnittlich großen Betrieben erreicht wird. Dieser Wert liegt bei log(7,5) also ungefähr 1100 qm/AK, und damit praktisch am Median. Bei Konditionierung in den Spalten nach log(ak) in B38d scheint sich dagegen der abwärts gerichtete Trend des ‘Fläche zu Arbeit-Verhältnises in allen AK-Klassen sehr ähnlich fortzusetzen (mit Ausnahme von Jahr 1992). B38b und B38c zeigen im Grunde dieselben Effekte wie B37d. Interessant ist aber vor allem in B38b der ein wenig flacher werdende Verlauf der Regressionslinien mit zunehmender Betriebsgröße, das heißt, daß eine Steigerung in der Anzahl der AK in den größeren Betriebsgrößenklassen weniger negativ mit
132
dem ‘Fläche zu Arbeit-Verhältnis in Beziehung steht als in den kleineren Betriebsgrößenklassen. Erneut wird sichtbar, daß mit zunehmender Betriebsgröße auch ein Anstieg des ‘Fläche zu Arbeit-Verhältnisses einhergeht.- Abbildung B39 beinhaltet zwei Trellis-Displays zum Modell des Kapitalkoeffizienten, die zwei interessante Beobachtungen zulassen.
Zum einen haben offensichtlich Betriebe mit einem geringen Anlagevermögen in % des Vermögens einen im Durchschnitt niedrigeren Kapitalkoeffizienten als Betriebe mit einem höheren Anlagevermögen (B39a). Wird anvermp als ein Kriterium für die Beurteilung der Modernität von Betrieben verstanden, so mag diese Beobachtung als ein insgesamt negativer Technologieeffekt interpretiert werden, das heißt eine sehr starke Modernisierung (charakterisiert durch hohe anvermp-Werte) korrespondiert mit hohen Kapitalkoeffizienten und somit mit einer eher unbefriedigerenden Kapitalausnutzung. Ein positiver Technologieeffekt würde sich in fallenden Kapitalkoeffizienten bei steigendem Anlagevermögen auszeichnen. Es mag aber auch sein, daß hier der Kapitalkoeffizient kein besonders gut geeigneter Maßstab ist, da vom Betriebseinkommen noch der Lohnaufwand für Fremd- und und der Lohnanspruch der Familien-AK abgedeckt werden muß und möglicherweise überhaupt erst beim Lohnaufwand die Modernisierungseffekte besonders deutlich hervortreten. Die zweite Beobachtung betrifft das Fremdkapital (B39b). Hier ist es so, daß Betriebe mit niedrigen Kapitalkoeffizienten, das heißt einer effizienten Kapitalausnutzung, in ihrer Mehrzahl entweder sehr geringe oder sehr hohe fkp-Werte haben, während Betriebe mit einer weniger guten Kapitaleffizienz (kapkoef Klassen 3 und 4) beim Fremdkapitaleinsatz eher im mittleren Bereich liegen.
B39c und B39d zeigen exemplarisch für Reinertragsdifferenz und Rentabilitätskoeffizient, die sich auch bei allen anderen Erfolgskennzahlen, außer dem Kapitalkoeffizienten, wiederholende Beobachtung, daß Betriebe im Bereich hoher Erfolgskennzahlen eher niedrige fkp-Werte haben, und weniger erfolgreiche Betriebe hohe fkp-Werte aufweisen.
- B40 schließlich beschäftigt sich mit den Regionsunterschieden, die vor allem bei Reinertragsdifferenz (B40a) und Rentabilitätskoeffizient (B40b) zu Tage treten.
Der Anteil der Betriebe aus Region 1 (das entspricht in den Trellis-Displays der Klasse 2) liegt bei den erfolgreicheren Betrieben immer über dem Anteil der Betriebe aus den übrigen Regionen (hier Klasse 1), bei den weniger erfolgreichen Betrieben ist es fast immer umgekehrt.
- B40c und B40d verdeutlichen eine - wenn auch nicht sehr gut sichtbare - bedingte Unabhängigkeit.
Aus dem Modell für das Betriebseinkommen/AK und dem Screening wird ersichtlich, daß das Betriebseinkommen/AK und Region unabhängig voneinander sind, gegeben glasqmak. B40c bestätigt, daß es zwar Regionsunterschiede gibt, daß diese aber in den vier glasqmak-Klassen (in den Spalten) einander sehr ähnlich sind. B40d zeigt dagegen dieselbe Konstellation bezogen
133
auf den Rentabilitätskoeffizienten, für den (rentkoef) unabhängig (glasqmak) gegeben (region) gilt. Beide Regionen weisen deutlich voneinander abweichende Verläufe bei glasqmak auf, innerhalb der Regionen sind sie jedoch in allen Rentabilitätskoeffizinetenklassen relativ konstant (auffällige Ausnahme rentkoef-Klasse 4 in sonstigen Regionen (Klasse 1)).b-Erfolgskennzahlen
- Es werden nun die sechs Erfolgskennzahlen gemeinsam in ein graphisches Modell einbezogen, um die Beziehungen der Erfolgsvariablen untereinander näher zu betrachten. Übersicht B32 beinhaltet die Ergebnisse des Modellfindungsprozesses nach Rückwärts-Elimination und EH-Prozedur, Abbildung B41 die graphischen Modelle für die drei Erhebungsjahre nach der Rückwärts-Elimination. Die Ergebnisse der Rückwärts-Elimination werden hier, wie unter a-, gewählt, da sie erneut die etwas einfacheren, mit den zu Daten vereinbaren Modelle liefern und im Vergleich mit den Ergebnissen der EH-Prozedur zu einem sehr ähnlichen Ausschluß von Variablenverbindungen und damit Aussagen zur bedingten Unabhängigkeit kommen.
Allerdings wird die recht schwache Verbindung zwischen beinkeqm und beinkp nach EH-Prozedur 1993 und 1994 aus allen akzeptablen Modellen und 1992 aus drei der sechs akzeptablen Modelle ausgeschlossen, während diese Beziehung in den Modellen nach Rückwärts-Elimination für 1993 und 1994 erhalten bleibt. Die drei graphischen Modelle weisen recht große Unterschiede auf, und eine allgemeine Gesetzmäßigkeit läßt sich aus diesen drei Jahren nicht ableiten. Die starken Beziehungen zwischen den Erfolgskennzahlen werden vor allem durch den Graph für das Erhebungsjahr 1992 verdeutlicht. 1993 und 1994 ergeben sich ein wenig differenziertere Bilder. Vor allem in 1993 deutet sich eine Trennung in zwei Kennzahlengruppen an, bestehend aus beinkeqm, beinkp und kapkoef auf der einen und rentkoef, rdiffp und beinkak auf der anderen Seite, die über die Beziehung von Wertschöpfungsquote (beinkp) und Rentabilitätskoeffizient beziehungsweise Kapitalkoeffizient und Reinertragsdifferenz in Verbindung stehen. Abbildung B42 betrachtet das obere, Abbildung B43 das untere Dreieck dieses Modells. Flächenproduktivität und Wertschöpfungsquote zeigen sichtbare negative Korrelationen mit dem Kapitalkoeffizienten, während beinkp als einzige der Erfolgskennzahlen eine einigermaßen deutlich positive Korrelation zu beinkeqm aufweist und somit als Bindeglied zum Rentabilitätskoeffizienten verständlich wird. Unter den Kennzahlenbeziehungen in Abbildung B42 fällt vor allem die fast vollständige Korrelation von Reinertragsdifferenz und Rentabilitätskoeffizient, sowie die sehr starke Beziehung von Arbeitsproduktivität und Rentabilitätskoeffizient auf. Diese drei Kennzahlen führen demnach zu vergleichbaren Einstufungen der Betriebe. Die Beziehungen zu Wertschöpfungsquote und Kapitalkoeffizient sind ebenfalls vorhanden, aber deutlich geringer. Bemerkenswert ist jedoch, daß auch hier, wie schon an anderen Stellen in dieser Arbeit deutlich wird, daß unterschiedliche Erfolgskennzahlen zu unterschiedlichen Beurteilungen und Aussagen zum Erfolg der Betriebe führen. Wenn die Betriebe mit Hilfe von Erfolgskennzahlen in Gruppen eingeteilt werden sollen,
134
wie es zum Beispiel in der Einteilung in erstes Drittel und drittes Drittel im Kennzahlenheft des Arbeitskreises Betriebswirtschaft geschieht, ist zu beachten, daß es vor allem in den mittleren Bereichen der Kennzahlenwerte bei Betrieben mit ähnlichen Erfolgskennzahlen erhebliche Unterschiede bei den übrigen Kennzahlen gibt. Eine, an welcher einzelnen Kennzahl auch immer, festgemachte Gruppierung der Kennzahlenbetriebe kann immer nur zu einer Teilbetrachtung des Erfolges eines Betriebes dienen. Andererseits kann demzufolge eine Gruppierung aufgrund eines Kennzahlenmixes (siehe folgender Abschnitt 3.2.2.5) auch letztlich nur zu einer ähnlich willkürlichen Gruppierung dienen, zumal bereits mehrfach festgehalten worden ist, daß die Beziehungen der Erfolgskennzahlen zu anderen Kennzahlen zum Teil erheblich voneinander abweichen.Die hierarchischen Liniendiagramme der formalen Begriffsanalyse unterstützen die interaktive Exploration umfangreicher Datensätze. Es handelt sich bei der formalen Begriffsanalyse, so wie sie hier eingesetzt wird, weniger um eine Analysetechnik als vielmehr um ein Instrument der Erkundung großer Datenmengen. Der Einsatz der Liniendiagramme, der in Schriftform allerdings nur unbefriedigend dargestellt werden kann, wird an mehreren Beispielen demonstriert. Im ersten Teil geht es um die Beantwortung konkreter Fragestellungen, die im Zusammenhang mit den Beziehungen der Kennzahlen untereinander auftauchen (a-). Im zweiten Teil erfolgt beispielhaft die Identifikation interessanter Betriebsgruppen durch hierarchische Liniendiagramme (b-).
a-Konkrete Fragestellungen
* Die formale Begriffsanalyse operiert nur mit diskreten Daten. Kontinuierliche Daten, wie sie im Kennzahlenvergleich vorliegen, müssen vor Verwendung in den Liniendiagrammen also entsprechend transformiert beziehungsweise, um in der Sprache der Begriffsanalyse zu bleiben, begrifflich skaliert werden. Die begriffliche Skalierung bietet eine Vielzahl von Möglichkeiten, Vorwissen in die Klassenbildung und somit in das Aussehen der Liniendiagramme mit einzubringen. Da im Zusammenhang mit den Kennzahlen allerdings nur wenige Werte eine inhaltlich vorgegebene Bedeutung haben - ein Beispiel ist der Rentabilitätskoeffizient mit einer klaren Schnittstelle bei 1 - und vielfach nur der Vergleich mit anderen Betrieben ein Maßstab dafür ist, ob ein Wert hoch oder niedrig ist, wird die Klassenbildung, die auch für CHAID und die diskreten, graphischen Modelle verwendet wird, im wesentlichen beibehalten. Bisweilen wird sie durch inhaltlich sinnvolle Klassenbildungen ergänzt. Als Skalierungstyp wird in den meisten Fällen eine Biordinalskala eingesetzt, das heißt, das Liniendiagramm teilt sich in zwei Stränge auf, die ihrerseits von unten nach oben sortiert sind. Praktisch bedeutet dies, daß die meisten Liniendiagramme sechs Begriffe umfassen, von denen vier von besonderer Bedeutung sind. Unten links stehen die Betriebe mit Werten unterhalb des ersten Quartils; oben links die Betriebe mit Werten zwischen erstem Quartil und Median; oben rechts die Betriebe mit Werten zwischen dem Median und dem dritten Quartil und unten rechts Betriebe mit Werten oberhalb
135
des dritten Quartils. In der Regel werden, der Übersichtlichkeit halber, nicht mehr als zwei Liniendiagramme ineinander verschachtelt. Das äußere Liniendiagramm steht dann in der Beschriftung der Abbildung (oben links) oben, das innere Liniendiagramm unten. Die Beschriftung der Begriffe erfolgt in Prozentangaben der Betriebe in den einzelnen Begriffen und unter Einbeziehung aller Objekte im Begriff, so daß, entsprechend der Leseregel bei Liniendiagrammen, zum Beispiel oben rechts der Prozentanteil der Betriebe steht, die bei der betrachteten Kennzahl Werte haben, die größer oder gleich dem Median sind (bis zum Maximum), während unten rechts der Anteil der Betrieb steht, die Werte oberhalb des dritten Quartils haben. Die linke Seite des Liniendiagramms stellt die Betriebe unterhalb des Medians, die rechte Seite die Betriebe oberhalb des Medians dar, und die zwei Begriffe auf jeder Seite des Liniendiagramms differenzieren diese Unterteilung noch weiter. Es handelt sich also im Grunde um eine ungewöhnlich aufgebaute Zwei-Wege-Tafel. Die Prozentwerte basieren auf den Werten aller drei Erhebungsjahre gemeinsam.- Die Liniendiagramme werden nun eingesetzt, um die Daten zu konkreten Fragestellungen sichtbar zu machen. Als Fragen werden einige der Feststellungen (Hypothesen oder Schlußfolgerungen) aus der Arbeit von BITSCH, 1994, verwendet, und es ist zu prüfen, ob die Aussagen mit den Werten in den Liniendiagrammen vereinbar sind oder nicht.
- Feststellung 1: Mit dem Betriebserfolg steigt die Entlohnung der Arbeitskräfte an (BITSCH, 1994, Seite 156). Diese Feststellung wird von BITSCH, 1994, tendenziell bestätigt; vor allem die sogenannte Spitzengruppe besonders erfolgreicher Betriebe<44>, weist eine höhere Entlohnung je AK auf als der Rest der Betriebe. Die Abbildungen B44 bis B48 zeigen in Liniendiagrammen die Beziehungen zwischen Lohn je entlohnte AK zu Arbeitsproduktivität, Reinertrag/AK und Rentabilitätskoeffizienten.
Abbildung B44 zeigt, daß diese Beziehung zwischen Lohn je entlohnte AK und Arbeitsproduktivität sehr deutlich ist. Fast 32% der Betriebe<45> mit durchschnittlicher oder überdurchschnittlicher Arbeitsproduktivität zahlen durchschnittliche oder überdurchschnittliche Löhne je AK, die verbleibenden gut 18% zahlen unterdurchschnittliche oder sehr geringe Löhne. Beim Begriff der unterdurchschnittlichen Arbeitsproduktivität tritt genau das entgegengesetzte Bild auf. Allerdings bleibt diese Betrachtung bei anderen Erfolgskennzahlen nicht erhalten. Abbildung B45 zeigt, daß beim Reinertrag/AK praktisch kein Zusammenhang zur Entlohnung der Arbeitskräfte mehr zu erkennen ist, daß zum Beispiel annähernd gleich viel Betriebe mit
136
einem sehr hohen Reinertrag/AK unterdurchschnittlich (11,9% von 25% mit sehr hohem Reinertrag/AK) und durchschnittlich und überdurchschnittlich (13,1% von 25% mit sehr hohem Reinertrag/AK) entlohnen. Bei Betrachtung des Rentabilitätskoeffizienten ergibt sich sogar tendenziell ein leicht gegenteiliges Bild (Abbildung B46). Bei den Betrieben mit sehr hohen Rentabilitätskoeffizienten und Koeffizienten von über 1 überwiegen leicht die Betriebe, die unterdurchschnittlich entlohnt haben. Zoomt man in den Begriff mit sehr hohen Rentabilitätskoeffizienten und betrachtet nun die Beziehung Betriebseinkommen/AK zu Lohn/AK (Abbildung B47), so sieht man, daß 92,5% der Betriebe mit sehr hohem Rentabilitätskoeffizienten ein durchschnittliches oder überdurchschnittliches Betriebseinkommen/AK besitzen und daß eine Beziehung zwischen Betriebseinkommen/AK und Lohn/AK auf dieser Stufe nicht mehr vorliegt. Als Schlußfolgerung mag demnach festgehalten werden, daß die oben gemachte Feststellung auf einer ganz bestimmten Definition dessen beruht, was als erfolgreich verstanden wird, und in Beziehung zur Arbeitsproduktivität wohl zutrifft, bezogen auf Reinertrag/AK oder Rentabilitätskoeffizient aber in den Daten der Jahre 1992 bis 1994 nicht festgemacht werden kann.- Feststellung 2: Mehr Glasfläche je Arbeitskraft führt nach den vorliegenden Ergebnissen nicht zu höherem Erfolg. Die höhere Entlohnung bei den Spitzenbetrieben steht also vermutlich nicht mit der Arbeitsintensität (Kehrwert von ‘Fläche zu Arbeit-Verhältnis, Anmerkung des Verfassers) in Zusammenhang (BITSCH, 1994, Seite 178). Diese Aussagen beruhen im wesentlichen auf den Schlußfolgerungen aus den Kennzahlenwerten der bereits oben angesprochenen Erfolgsgruppen. Ohne erneut das Problem des Begriffes Erfolg anzusprechen, werden in den folgenden Liniendiagrammen in den Abbildungen B48 bis B50 die Beziehungen der Arbeitsintensität zu Betriebseinkommen/AK, Rentabilitätskoeffizient und Lohn je entlohnte AK dargestellt.
Die Abbildungen B48 und B49 zeigen, daß es - abweichend von der formulierten Feststellung 2 - eine recht deutliche Beziehung von Arbeitsintensität und Erfolg gibt, wenn als Erfolgsmaßstäbe die Arbeitsproduktivität und der Rentabilitätskoeffizient verwendet werden. So haben fast die Hälfte der Betriebe mit einem sehr weitem ‘Fläche zu Arbeit-Verhältnis auch eine sehr hohe Arbeitsproduktivität (12,1% von 24,8%) und über die Hälfte der Betriebe mit sehr weitem ‘Fläche zu Arbeit-Verhältnis einen Rentabilitätskoeffizienten von größer 1 (14,8% von 24,8%). Demgegenüber weisen nur gut ein Drittel der Betriebe mit einem unterdurchschnittlichen ‘Fläche zu Arbeit-Verhältnis eine durchschnittliche oder überdurchschnittliche Arbeitsproduktivität oder einen Rentabilitätskoeffizienten von größer 1 auf. Die entgegengesetzten Beziehungen von Arbeitsproduktivität und Flächenproduktivität zu dem ‘Fläche zu Arbeit-Verhältnis (siehe 3.2.2.4) können möglicherweise erklären, daß der Arbeitsintensitätseffekt in der Analyse von BITSCH,
137
1994, von untergeordneter Bedeutung ist<46>. Abbildung B50 schließlich läßt vermuten, daß tendenziell die Entlohnung zunimmt, wenn die Arbeitsintensität abnimmt, das heißt das ‘Fläche zu Arbeit-Verhältnis weiter wird, obwohl die Beziehung nicht sehr ausgeprägt ist. Auch diese Beobachtung liefert eher eine Einschränkung der oben formulierten Feststellung.- Feststellung 3: Die Entwicklung des Anteils der Eigenproduktion am Betriebsertrag zeigt ... eine Zunahme der Spezialisierung mit dem Erfolg (...). Die Ausweitung von Handel oder Dienstleistung erweist sich für Betriebe mit indirektem Absatz folglich nicht als erfolgsfördernd (BITSCH, 1994, Seite 199). Es stellt sich also die Frage, ob es einen sichtbaren Zusammenhang zwischen dem Anteil der Eigenproduktion am Betriebsertrag (epertp) und Erfolgskennzahlen gibt. Die Liniendiagramme in den Abbildungen B51 (für überwiegend indirekt absetzende Betriebe) und B52 (für überwiegend direkt absetzende Betriebe) gehen dieser Frage nach.
Abbildung B51 zeigt zunächst, daß sich bei den überwiegend indirekt absetzenden Betrieben der Anteil der Betriebe mit eher hohen und eher niedrigen Eigenproduktionsanteilen in etwa die Waage halten (54,8% zu 45,2%). Allerdings haben die Betriebe mit einem durchschschnittlichen und überdurchschnittlichen Eigenproduktionsanteil immerhin in über der Hälfte der Fälle Rentabilitätskoeffizienten von größer 1 (28,2% von 54,8%), während dieser Anteil bei den Betrieben mit unterdurchschnittlichen Eigenproduktionsanteilen nur bei gut einem Drittel liegt (16,7% von 45,2%). Bei sehr hohem Eigenproduktionsanteil sind es sogar 16,8% von 28%, daß sind 60% der Betriebe, die einen Rentabilitätskoeffizienten von größer 1 haben. Für die überwiegend indirekt absetzenden Betriebe wird die oben gemachte Feststellung also bestätigt. Bei den überwiegend direkt absetzenden Betrieben, fällt zunächst auf, daß die große Mehrzahl der Betriebe unterdurchschnittliche Eigenproduktionsanteile aufweist (82,3% gegenüber 17,7%), und diese Gruppe nur in knapp einem Drittel der Fälle (27,1% von 82,3%) einen Rentabilitätskoeffizienten von größer 1 besitzt. Zwar überwiegen auch bei den überwiegend direkt absetzenden Betrieben mit durchschnittlichem und überdurchschnittlichem Eigenproduktionsanteil die Betriebe mit Rentabilitätskoeffizienten von unter 1, der Anteil der erfolgreicheren Betriebe ist auf dieser Seite mit 7,7% von 17,7% aber doch spürbar höher, so daß die untersuchte Feststellung auch für die überwiegend direkt absetzenden Betriebe getroffen werden kann. Allerdings ist die Bildung der Variablenklassen durch die sehr viel größere Gruppe der überwiegend indirekt absetzenden Betriebe bestimmt und von daher für die überwiegend direkt absetzenden Betriebe etwas irreführend, da sie sich auf einem allgemein geringeren Niveau des Eigenproduktionsanteils bewegen. Schließlich fällt beim Vergleich der beiden Liniendiagramme noch auf, daß der Anteil der erfolgreicheren Betriebe (mit
138
Rentabilitätskoeffizienten größer 1) bei den überwiegend indirekt absetzenden Betrieben mit 44,9% um immerhin 10% über den 34,8% der eher erfolgreichen direkt absetzenden Betriebe liegt.- Feststellung 4: ... ein Zusammenhang zwischen der Betriebsgröße und dem Betriebserfolg kann nicht ausgeschlossen werden. Als Hypothese läßt sich formulieren, daß Spitzenbetriebe größer sind als andere (BITSCH, 1994, Seite 164, Kursiv durch Orginalautorin). Die Beobachtung, daß es offensichtlich Zusammenhänge zwischen Betriebsgröße und Erfolgskennzahlen gibt, wird ja bereits an anderen Stellen in dieser Arbeit angesprochen.
Die Liniendiagramme in den Abbildungen B53 und B54 zeigen, daß diese Feststellung im wesentlichen sowohl für die Arbeitsproduktivität gilt, wenn der Bezugsmaßstab die Glasfläche ist, als auch für die Flächenproduktivität gilt, wenn als Bezugsmaßstab für Größe die Anzahl der Arbeitskräfte gewählt wird. Werden die Bezugsmaßstäbe für den Begriff der Betriebsgröße vertauscht zeigen sich bei der Arbeitsproduktivität kaum noch (Abbildung B55) und bei der Flächenproduktivität eher entgegengesetzte Beziehungen (Abbildung B56). Wird schließlich der Rentabilitätskoeffizient betrachtet (Abbildungen B57 und B58), halten sich bei durchschnittlich und überdurchschnittlich großen Betrieben die Anteile der Betriebe mit Rentabilitätskoeffizienten von größer beziehungsweise kleiner 1 die Waage (bei beiden Bezugsmaßstäben), der Anteil der weniger erfolgreichen Betriebe ist bei den unterdurchschnittlich großen Betrieben aber deutlich größer als der Anteil der erfolgreicheren Betriebe. Von den 24,6% der Betriebe mit sehr niedrigen Rentabilitätskoeffizienten besitzen über 2/3 unterdurchschnittlich große Glasflächen und unterdurchschnittlich viele Arbeitskräfte (16,7% beziehungsweise 16,6% von 24,6%); von den 24% der Betriebe mit sehr hohen Rentabilitätskoeffizienten dagegen liegen 14,8% beziehungsweise 13% auf der Seite der größeren Glasflächen beziehungsweise der höheren Anzahl an AK. Die Liniendiagramme mit dem Rentabilitätskoeffizienten bestätigen also im wesentlichen die oben gemachte Feststellung, obwohl es sinnvoll erscheint davon zu sprechen, daß kleinere Betriebe eher zu den weniger erfolgreichen als zu den mehr erfolgreichen Betrieben zählen, während bei größeren Betrieben der Anteil erfolgreicher und weniger erfolgreicher Betriebe annähernd gleich ist. Viele weitere Fest- oder Fragestellungen ließen sich noch formulieren und mit Hilfe der interaktiven Liniendiagramme erkunden. Der grundsätzliche Weg ist aber durch die Beispiele ausreichend erläutert.
b-Identifikation von Gruppen und einzelnen Betrieben und deren Beschreibung
Das Programm TOSCANA, das die interaktive Exploration von Liniendiagrammen ermöglicht, eröffnet die Möglichkeit einzelne Objekte oder Gruppen von Objekten zu identifizieren und gesondert zu betrachten. Zoomt man in einen ausgewählten Begriff hinein, so wird das Liniendiagramm der darunterliegenden Ebene sichtbar. Der Umfang des Unterbegriffes entspricht dem des ausgewählten Oberbegriffes, und kann nach weiteren Inhalten untersucht werden kann. Dieser Vorgang ist beliebig oft und mit beliebigen Liniendiagrammen wiederholbar, bis man zu dem
139
Begriff gelangt, den man speziell betrachten möchte. Jedem Begriff ist die Anzahl der zum Begriff zählenden Objekte, das heißt sein Umfang, zugeordnet. Über DDE kann TOSCANA mit einer beliebigen Datenbank verbunden werden (im Beispiel mit MS-Access). In TOSCANA werden dann an jedem Begriff nicht nur die Anzahl der Fälle, sondern auch die Fallnummern aus der Datenbank angezeigt. Durch Anklicken gelangt man zu einem Access-Formularblatt, das alle in der Datenbank enthaltenen Informationen zum ausgewählten Objekt am ausgewählten Begriff enthält. Eine an einem Begriff gefundene Gruppe von Objekten, das heißt der Begriffsumfang, kann in Form der Fallnummern in die Zwischenablage gespeichert werden. Aus MS-Access heraus ist es dann möglich ein eigens für diesen Zweck gestaltetes Genstat-Menu zu starten, das auf Wunsch zu der ausgewählten Gruppe zusammenfassende Statistiken und Graphiken produziert. Die Genstat Codes zur Erstellung dieser Menus sind im Anhang Teil III zu finden. Abbildung B59 zeigt den Weg durch drei Liniendiagramme zu dem Begriff der sehr hoher Arbeitproduktivität, sehr hoher Wertschöpfungsquote und sehr hoher Flächenproduktivität entspricht. Es wird eine Gruppe von 35 Betrieben identifiziert. Abbildung B60 enthält die Menüpunkte in Genstat, die zeigen, welche Auswertungsmöglichkeiten zur Zeit bestehen<47>, und Abbildung B61 einige der Graphiken und eine Liste einiger zusammenfassender univariater Statistiken, die unter anderem zeigen, daß die ausgewählte Gruppe an Betrieben einen deutlich über dem Median liegenden Rentabilitätskoeffizient besitzt, durchschnittlich groß ist, eine recht geringes ‘Fläche zu Arbeit-Verhältnis besitzt und leicht überdurchschnittliche Löhne je AK zahlt. Abbildung B62 zeigt zwei ausgewählte Betriebe aus dieser Gruppe. Die Daten sind verändert, so daß die gezeigten Betriebe nicht tatsächlich am Kennzahlenvergleich beteiligten Betrieben entsprechen und hier nur als Beispiel dienen. Eine weitere Illustration liefert die Abbildung B63. Die gezeigten interordinalskalierten Diagramme sind für die Analyse im Zusammenhang mit CHAID konzipiert. Jede beliebige Zusammenlegung an Klassen ist erreichbar, und der Verlauf des Klassifikationsbaums läßt sich in den Liniendiagrammen nachvollziehen und verändern, Begriffe können ausgewählt und ihr Umfang im Detail betrachtet und wiederum über Genstat deskriptive Statistiken nachgefragt werden.Fußnoten: | |
---|---|
Siehe BORG & GROENEN, 1997. | |
Die in dem Zusammenhang mit der generalsierten kanonischen Analyse verwendete SPSS-Prozedur OVERALS akzeptiert nur Variablenwerte kleiner 100; liegen die Variablenwerte darüber, werden sie automatisch in Ränge transformiert. | |
Auf eine eigene methodisch-begründete Variablenselektion wird mit Blick auf die Ziele der vorliegenden Untersuchung verzichtet. Der Ausschluß einiger Kennzahlen und die Hinzunahme anderer, von BITSCH, 1994, nicht ausgewählter Kennzahlen, ist lediglich durch das Interesse oder Desinteresse des Verfassers an der Betrachtung einzelner Kennwerte begründet. | |
Außer kapkoef, das entspricht aber derselben Beziehungsrichtung da kapkoef = Kapital / Betriebseinkommen. | |
Für die Betriebsgröße wird hier ein Shingle verwendet ohne einen Überlappungsbereich zu berücksichtigen, das heißt alle Betriebe werden eindeutig einer Betriebsgrößenklasse zugeordnet. | |
Obwohl in den Orginalquellen ausschließlich mit der Kovarianzmatrix gearbeitet wird. Die Verwendung der Methoden bei Vorliegen standardiserter Werte wird in diesen abschließend nicht beantwortet. Allerdings ist sie sicher im explorativen Rahmen der vorliegenden Arbeit zulässig. | |
Es ist grundsätzlich zu beachten, daß es sich bei der kanonischen Variablenanalyse nicht um ein annahmenfreies Verfahren handelt und homogene Kovarianzmatrizen und Multinormalverteilung vorausgesetzt werden. Insofern ist erneut der deskriptive Charakter der Analyse zu betonen. | |
Diese Spitzengruppe resultiert aus einer Clusteranalyse der standardisierten Kennzahlen Betriebseinkommen/AK, Betriebeinkommen/Eqm und Betriebseinkommen in % BE, stellt also eine Gruppierung nach einem Kennzahlenmix dar. Als Clusteralgorithmus wird Ward verwendet. | |
Richtiger ist es hier von Nennungen oder Fällen zu sprechen, da ja alle Jahre in die Prozentwerte eingehen, das heißt jeder Betrieb dreimal in den Werten auftaucht. | |
Obwohl hier noch einmal darauf hingewiesen werden muß, daß es sich in dieser Arbeit um andere Erhebungsjahre als in der Arbeit von BITSCH, 1994, handelt. | |
Der Umfang der angebotenen Auswertungen ist beliebig erweiterbar. |
© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 2.0 |
Zertifizierter Dokumentenserver der Humboldt-Universität zu Berlin |
HTML - Version erstellt am: Wed May 24 16:40:53 2000 |