Krusche, Stefan: Visualisierung und Analyse multivariater Daten in der gartenbaulichen Beratung - Methodik, Einsatz und Vergleich datenanalytischer Verfahren |
Humboldt Universität zu Berlin
zur Erlangung des akademischen Grades doctor rerum horticultorum (Dr. rer. hort.)
Landwirtschaftlich-Gärtnerische Fakultät
Prof. Dr. Dr. h. c. Ernst Lindemann
Gutachter:
1. Prof. Dr. E. Thomas
2. Prof. Dr. W. Bokelmann
3. Prof. Dr. E. W. Schenk
eingereicht: 1.3.1999
Datum der Promotion: 16.12.1999
Schlagwörter:
Statistik, multivariate Verfahren, graphische Verfahren, explorative Statistik, Visualisierung, Dimensionserniedrigung, Biplots, graphische Modelle, Klassifikations- und Regressionsbäume, formale Begriffsanalyse, Kennzahlen, betriebsbegleitende Untersuchungen, Gartenbau, Beratung
Keywords:
Statistics, Multivariate methods, Graphical analysis, Exploratory statistics, Visualisation, Reduction of dimensionality, Biplots, Graphical models, CART, Formal concept analysis, Microeconomic indicators, On-site investigation of crop production, Horticulture, Consulting, Extension
In order to interpret large data sets in the context of consultancy and extension in horticulture, this thesis attempts to find ways to visually explore horticultural multivariate data, in order to obtain a concise description and summary of the information available in the data and moreover develop possibilities to interactively analyse survey data.
The thesis is part of an exploratory data analysis which analyses data without making specific model assumptions, is predominantly descriptive, analyses data step by step in a highly interactive setting, and makes full use of all kinds of graphical displays.
The methods used comprise various dimensionality reduction techniques (principal components analysis, correspondence analysis, multidimensional scaling), biplots, the multivariate analysis of grouped data (procrustes rotation and groupwise principal components), graphical models, CART, and line diagrams of formal concept analysis. In addition, further graphical methods are used, like e.g. trellis displays.
Data from an on-site investigation of the production process of Cyclamen in 20 nurseries and from the microeconomics indicators of 297 growers in Germany (so called Kennzahlen) from the years 1992 to 1994 are used to demonstrate the analytical capabilities of the methods used. The data present a perfect example of unperfect data, and therefore represent the majority of the data sets that horticultural consultancy has to work with. Thus, it becomes clear, that despite the variety of results, which helps to enhance the understanding of the data at hand, not only the complexity of the processes observed, but also the low data quality make it fairly difficult to arrive at clear cut conclusions.
The most helpful tools in the graphical data analysis are biplots, hierarchical line diagrams and trellis displays. Finding an empirical grouping of objects is best solved by classification and regression trees, which provide both, the data segmentation, and an intuitively appealing visualisation and explanation of the derived groups. In order to understand multivariate relationships better, discrete graphical models are well suited.
The procedures to carry out a number of the methods which cannot be found in general statistics packages are provided in the form of Genstat codes.
Ausgangspunkt der vorliegenden Arbeit ist die Suche der gartenbaulichen Beratung nach Visualisierungsmöglichkeiten umfangreicher gartenbaulicher Datensätze, die einerseits zu einer graphischen Zusammenfassung der in den Daten enthaltenen Informationen dienen und die andererseits auf interaktivem Weg Möglichkeiten der graphischen Analyse von Erhebungsdaten liefern.
Die weitgehende Freiheit von Modellannahmen, der überwiegend deskriptive Charakter der Untersuchungen, das interaktive, schrittweise Vorgehen in der Auswertung, und die Betonung graphischer Elemente kennzeichnet die Arbeit als Beitrag zur explorativen Datenanalyse.
Das ausgewählte Methodenspektrum, das ausführlich besprochen wird, schließt Verfahren der Dimensionserniedrigung (Hauptkomponentenanalyse, Korrespondenzanalyse und mehrdimensionale Skalierung) und darauf aufbauende Biplots, die Analyse gruppierter Daten (Prokrustes-Rotation und Gruppenanalysemodelle in der Hauptkomponentenanalyse), Linienverbände (Liniendiagramme der formalen Begriffsanalyse, Baumdiagramme und graphische Modelle), sowie ergänzende graphische Verfahren, wie zum Beispiel Trellis-Displays, ein.
Beispielhaft werden eine betriebsbegleitende Untersuchung mit Cyclamen aus der Beratungspraxis der Landwirtschaftskammer Westfalen-Lippe und die Kennzahlen der Jahre 1992 bis 1994 der Topfpflanzenbetriebe des Arbeitskreises für Betriebswirtschaft im Gartenbau aus Hannover analysiert. Neben einer Vielzahl informativer Einzelergebnisse, zeigt die Arbeit auch auf, daß die qualitativ relativ schlechten Datengrundlagen nur selten eindeutige Schlußfolgerungen zulassen. Sie sensibilisiert also in diesem Bereich für die Problematik, die der explorativen Analyse wenig perfekter Daten innewohnt.
Als besonders sinnvolle Hilfsmittel in der graphischen Analyse erweisen sich Biplots, hierarchische Liniendiagramme und Trellis-Displays. Die Segmentierung einer Vielzahl von Objekten in einzelne Gruppen wird durch Klassifikations- und Regressionsbäume vor allem unter dem Gesichtspunkt der Visualisierung gut gelöst, da den entstehenden Baumstrukturen auch die die Segmente bestimmenden Variablen visuell entnommen werden können. Diskrete graphische Modelle bieten schließlich einen guten Ansatzpunkt zur Analyse von multivariaten Beziehungszusammenhängen.
Einzelne, nicht in der statistischen Standardsoftware vorhandene Prozeduren sind in eigens erstellten Programmcodes zusammengefaßt und können mit dem Programm Genstat genutzt werden.
Inhaltsverzeichnis | |
Titelseite | Visualisierung und Analyse multivariater Daten in der gartenbaulichen Beratung - Methodik, Einsatz und Vergleich datenanalytischer Verfahren |
Danksagung | |
1 | Einführung |
1.1. | Motivation, Zielsetzung und Vorgehensweise |
1.2. | Explorative Datenanalyse - Definition und Beispiele |
2 | Erläuterung des Methodenspektrums |
2.1. | Verfahren der Dimensionserniedrigung |
2.1.1. | Hauptkomponentenanalyse |
2.1.2. | Mehrdimensionale Skalierung |
2.1.3. | Korrespondenzanalyse |
2.1.4. | Faktoranalyse |
2.2. | Biplots |
2.2.1. | Hauptkomponentenanalyse-Biplots |
2.2.1.1. | Berechnung der Biplotachsen und Marker |
2.2.1.2. | Interpolation und Prediktion |
2.2.1.3. | Güte der Variablenrepräsentation |
2.2.2. | Mehrdimensionale Skalierungs- und Korrespondenzanalyse-Biplots |
2.2.3. | Nichtlineare und generalisierte Biplots |
2.2.4. | ‘Klassische Biplots |
2.3. | Analyse gruppierter Daten |
2.3.1. | Gemeinsame Hauptkomponentenmodelle |
2.3.1.1. | Gemeinsame Hauptkomponenten |
2.3.1.2. | Gruppenanalysemodell |
2.3.1.3. | Gamma-q-q-Plots |
2.3.2. | Prokrustes-Analyse |
2.3.3. | Gewichtete mehrdimensionale Skalierung, kanonische Variablenanalyse und nichtlineare kanonische Analyse |
2.3.3.1. | Gewichtete mehrdimensionale Skalierung |
2.3.3.2. | Kanonische Variablenanalyse |
2.3.3.3. | Nichtlineare kanonische Analyse |
2.4. | Linienverbände |
2.4.1. | Formale Begriffsanalyse |
2.4.1.1. | Konzeptionelle Grundlagen |
2.4.1.2. | Einfache Liniendiagramme |
2.4.1.3. | Begriffliches Skalieren und gestufte Liniendiagramme |
2.4.2. | Graphische Modelle |
2.4.3. | Regressions- und Klassifikationsbäume |
2.5. | Graphische und ergänzende Verfahren |
2.5.1. | Graphische Verfahren |
2.5.1.1. | Andrews-Kurven und Parallelkoordinatenplots |
2.5.1.2. | Dendrogramme und Multiple Spanning Trees |
2.5.1.3. | Scatterplots und Trellis-Displays |
2.5.1.4. | Interaktive Graphik und sonstige Verfahren |
2.5.2. | Ergänzende Methoden |
2.5.2.1. | Tests auf Multinormalverteilung und Varianzhomogenität |
2.5.2.2. | Robuste Methoden und fehlende Werte |
2.5.2.3. | Beurteilung der Stabilität |
3 | Beispiele der Visualisierung und Analyse |
3.1. | Betriebsbegleitende Untersuchung der Cyclamenkultur in 20 westfälisch-lippischen Gartenbaubetrieben von 1994 |
3.1.1. | Einführung |
3.1.2. | Darstellung der Ergebnisse |
3.1.2.1. | Variablenset 1 - Beurteilung der Qualität |
3.1.2.2. | Variablenset 2 - Analyse der Kultursubstrate |
3.1.2.3. | Variablenset 3 - Aufzeichnung der Kulturmaßnahmen |
3.1.2.4. | Variablenset 4 - Ermittlung der Strukturdaten |
3.1.2.5. | Vergleich aller Variablensets |
3.2. | Kennzahlen des Kennzahlenvergleichs für Topfpflanzenbetriebe des Bundesgebietes der Jahre 1992 bis 1994 |
3.2.1. | Einführung |
3.2.2. | Darstellung der Ergebnisse |
3.2.2.1. | Einführende Datenanalyse |
3.2.2.2. | Vergleich von Gruppen |
3.2.2.3. | Gruppierung und Segmentierung |
3.2.2.4. | Diskrete graphische Modelle |
3.2.2.5. | Formale Begriffsanalyse |
4 | Diskussion der Ergebnisse und Schlußfolgerungen |
4.1. | Diskussion der inhaltlichen Ergebnisse |
4.1.1. | Betriebsbegleitende Untersuchung bei Cyclamen |
4.1.2. | Kennzahlenvergleich |
4.2. | Diskussion der Methoden |
4.2.1. | Verfahren zur Visualisierung - Biplots |
4.2.2. | Verfahren zur Visualisierung - hierarchische Liniendiagramme |
4.2.3. | Verfahren zur Visualisierung - Trellis-Displays |
4.2.4. | Gruppierung und Segmentierung - Clusteranalyse |
4.2.5. | Gruppierung und Segmentierung - CART und CHAID |
4.2.6. | Klärung von multivariaten Beziehungsgefügen - graphische Modelle |
4.3. | Kritik und Ausblick |
5 | Zusammenfassung |
Bibliographie | Literaturverzeichnis |
Abkürzungsverzeichnis | Verzeichnis der Abkürzungen und Symbole |
Lebenslauf | |
Selbständigkeitserklärung | |
Anhang | Anhang Teil I A |
Anhang | Anhang Teil I B |
Anhang | Anhang Teil II A |
Anhang | Anhang Teil II B |
Anhang | Anhang Teil III |
Tabellenverzeichnis | |
Tabelle 1: | Kriterien zur Identifikation 'wesentlicher' Hauptkomponenten |
Tabelle 2: | Überblick über einige Proximitätsmaße |
Tabelle 3: | Gemeinsamkeiten und Unterschiede von Faktoranalyse und Hauptkomponenten-analyse |
Tabelle 4: | Beispiel einer Kreuztabelle eines formalen Kontext |
Tabelle 5: | Einige typische Skalen in der begrifflichen Skalierung |
Tabelle 6: | Agglomerationskriterien unterschiedlicher Clusterverfahren |
Übersicht A1: | Variablenset 1, Qualitätsbeurteilungen |
Übersicht A2: | Variablenset 2, Substratanalysewerte |
Übersicht A | 3a: Variablenset 3, Schattiersollwerte |
Übersicht A | 3b: Variablenset 3, Platzbedarf, Rücken |
Übersicht A | 3c: Variablenset 3, Temperaturführung |
Übersicht A4: | Variablenset 4, Strukturdaten |
Übersicht A5: | Spearman Rangkorrelationen der Sorte ‘Sierra der Merkmale im Variablenset 1 |
Übersicht A6: | Spearman Rangkorrelationen der Sorte ‘Concerto der Merkmale im Variablenset 1 |
Übersicht A7: | Eigenwerte und Spur der Hauptkoordinatenanalysen der Qualitätsbonituren für ‘Sierra und ‘Concerto Woche 44 und Woche 48 |
Übersicht A8: | Spearman Korrelationsmatrizen für Bonituren der Qualitätsmerkmale für ‘Sierra und ‘Concerto in Woche 44 und 48 |
Übersicht A9: | Hauptkoordinatenanlyse der Spearman-Korrelationsmatrix für die Bonituren der Qualitätsmerkmale bei ‘Sierra und ‘Concerto in Woche 44 und 48 |
Übersicht A10: | Spearman Rangkorrelationen der Substratanalysewerte in Variablenset 2 |
Übersicht A11: | Normalverteilungstests der Substratanalysewerte in Variablenset 2 (Reihenfolge der Variablen wie in Übersicht A10) |
Übersicht A12: | Test auf multivariate Ausreißer in Variablenset 2 |
Übersicht A13: | Screeplot der Hauptkomponentenanalyse der Substratanalysewerte |
Übersicht A14a | und b: Bestimmung der Anzahl ‘wesentlicher Hauptkomponenten nach VELICER, 1976 (a)) und EASTMENT & KRZANOWSKI, 1982 (b)) nach Hauptkomponentenanalyse der Substratanalysewerte |
Übersicht A15a | und b: Hauptkomponenten-Residuen nach Hauptkomponentenanalyse der Substratanalysewerte und Betrachtung von einer Dimension (a)) beziehungsweise von zwei Dimensionen (b)) |
Übersicht A16: | Approximation von Variablenwerten durch interaktives Vorgehen bei der Auswertung von Hauptkomponenten-Biplots mit Prediktionsmarkern |
Übersicht A17: | Hauptkomponentenanalyse der Schattiersollwerte |
Übersicht A18: | Variablen und verwendete Proximitätsmaße im Variablenset 3 |
Übersicht A19: | Hauptkoordinatenanalyse und ordinale mehrdimensionale Skalierung von Variablenset 3 |
Übersicht A20: | Nächste Nachbarn, typische Objekte und Ähnlichkeit zwischen Gruppierungen im Variablenset 3 |
Übersicht A21: | Multiple Korrespondenzanalyse der betrieblichen Strukturdaten in Variablenset 4 |
Übersicht A22: | Vorhersage (Prediktion ) der Klassenzugehörigkeit durch die Prediktionsregionen im multiplen Korrespondenzanalyse-Biplot bei Verwendung der Chi-Quadrat-Distanz (mca) und des extended matching-Koeffizienten (emc), sowie Beschreibung der Klassen und wahre Klassenhäufigkeiten |
Übersicht A23: | Hauptkoordinatenanalyse, ordinale, mehrdimensionale Skalierung, nächste Nachbarn und Zentroid Distanzen; Grundlagen für die Abbildungen A59, A60 und A61 |
Übersicht A24: | Variablensets für die generalisierte kanonische Analyse |
Übersicht A25: | Loss-Werte der vier generalisierten kanonischen Analysen in den ersten beiden Dimensionen |
Übersicht A26: | Multiple Anpassungswerte der Variablensets nach generalisierter kanonischer Analyse, ‘Sierra |
Übersicht A27: | Multiple Anpassungswerte der Variablensets nach generalisierter kanonischer Analyse, ‘Concerto |
Übersicht B1: | Ausgewählte Kennzahlen und Gruppierungskriterien Gruppierungsdaten |
Übersicht B2: | Gruppierungsdaten (Anzahl Fälle in den Kategorien) |
Übersicht B3: | Univariate Statistiken der Strukturdaten |
Übersicht B4: | Univariate Statistiken der Investitions- und Vermögensdaten |
Übersicht B5: | Univariate Statistiken der Aufwandsdaten |
Übersicht B6: | Univariate Statistiken der Erfolgsdaten |
Übersicht B7: | Einteilung von Glasfläche, Anzahl Arbeitskräfte und Unternehmensertrag in drei beziehungsweise vier Gruppen mit Hilfe des equal-count-Algorithmus bei einer angestrebten Überlappung von 10% |
Übersicht B8: | Tests auf univariate (marginal) und multivariate (radius) Normalverteilung |
Übersicht B9: | Univariate Statistiken einiger ausgewählter Kennzahlen vor und nach dem Ausschluß extremer Werte |
Übersicht B10: | Rangkorrelationen der Kennzahlen der vier Variablensets untereinander (Korrelationen von mehr als 0,7 sind fett geschrieben) Spearman Rank Correlation |
Übersicht B11: | Rangkorrelationen zwischen den Erfolgskennzahlen und den Kennzahlen der übrigen Datensets (Korrelationen von mehr als 0,7 sind fett geschrieben) Spearman Rank Correlation |
Übersicht B12: | Gruppenbildung der Kennzahlenbetriebe nach Glasfläche, Region und Erhebungsjahr (Anzahl Fälle je Gruppe) |
Übersicht B13: | Schätzung der Parameter (k = Form-, b = Skalenparameter) der Gamma-Verteilung aus den Abweichungen der Eigenvektoren der 24 Gruppen der Kennzahlenbetriebe vom ‘typischen Eigenvektor |
Übersicht B14: | Ergebnisse des Gruppenanalysemodels der 24 Gruppen der Kennzahlenbetriebe; mittlere Koeffizienten der ersten vier Hauptkomponenten |
Übersicht B15: | Ergebnisse des Gruppenanalysemodells der 24 Gruppen der Kennzahlenbetriebe; Winkel (delta) jeder Gruppe zur mittleren Konfiguration in den ersten vier Dimensionen |
Übersicht B16a: | Vergleich der Hauptkomponentenanalyseergebnisse für Gruppe 7 und Gruppe 6 der 24 Gruppen der Kennzahlenbetriebe |
Übersicht B16b: | Vergleich der Hauptkomponentenanalyseergebnisse für Gruppe 8 und Gruppe 13 der 24 Gruppen der Kennzahlenbetriebe |
Übersicht B17: | Eigenwerte und kanonische Mittelwerte der kanonischen Variablenanalyse der 24 Gruppen der Kennzahlenbetriebe; Grundlage der Analyse ist die Matrix der Summen und Produkte der 24 Gruppen, gewichtet mit den Wichtungsfaktoren nach Ausreißeranalyse (CAMPBELL, 1980) |
Übersicht B18: | Variablen und ihre Skalierung oder Transformation in Gruppierungs- und Segmentierungsanalysen |
Übersicht B19: | In CART verwendete, von 1 abweichende Gewichtungen für die Objekte nach multivariater Ausreißerprüfung |
Übersicht B20: | Beurteilung der Normalverteilung bei der Kennzahl Rentabilitätskoeffizient im vollen und im eingeschränkten Datensatz inm den Jahren 1992, 1993, 1994 |
Übersicht B21: | Beurteilung der Normalverteilung bei der Kennzahl Rentabilitätskoeffizient im vollen und im eingeschränkten Datendsatz in den Jahren 1992, 1993, 1994 |
Übersicht B22: | Beschreibung des vollen und des auf sieben Terminalknoten gestutzten Regressionsbaums 1992, Verwendung der Gewichtung nach Ausreißertests |
Übersicht B23: | Beschreibung des vollen und des auf sieben Terminalknoten gestutzten Regressionsbaums 1993, Verwendung der Gewichtung nach Ausreißertests |
Übersicht B24: | Beschreibung des vollen und des auf sieben Terminalknoten gestutzten Regressionsbaums 1994, Verwendung der Gewichtung nach Ausreißertests |
Übersicht B25: | Beschreibung des vollen und des auf sieben Terminalknoten gestutzten Regressionsbaums 1992, um Extremwerte verkleinerter Datensatz |
Übersicht B26: | Beschreibung des vollen und des auf sieben Terminalknoten gestutzten Regressionsbaums 1993, um Extremwerte verkleinerter Datensatz |
Übersicht B27: | Beschreibung des vollen und des auf sieben Terminalknoten gestutzten Regressionsbaums 1994, um Extremwerte verkleinerter Datensatz |
Übersicht B28: | Minima, Maxima und Quartile für die Prediktorvariablen, pro Jahr 297 Werte |
Übersicht B29: | Ergebnisse der Segmentierung durch CHAID für die Kennzahlen der Jahre 1992, 1993 und 1994 |
Übersicht B30: | Direkte Beziehungen nach Screening in den Jahren 1992, 1993 und 1994 zwischen den sechs ausgewählten Erfolgskennzahlen und den 14 übrigen ausgewählten Kennzahlen |
Übersicht B31: | Eliminierte Verbindungen nach Rückwärts-Elimination oder EH-Algorithmus für die Analyse von sechs graphischen Modellen 1993 |
Übersicht B32: | Modellsuche graphischer Modelle bei der Analyse von sechs Erfolgskennzahlen, 1992 bis 1994 |
Abbildungsverzeichnis | |
Abbildung 1: | Einfaches Liniendiagramm, Daten aus Tabelle 4 |
Abbildung 2: | Einige typische Skalen in der begrifflichen Skalierung |
Abbildung A1: | Starplots der Boniturwerte aller Qualitätsmerkmale aller Betriebe für ‘Sierra und ‘Concerto |
Abbildung A2: | Dotplot der Mediane aller Qualitätsmerkmale (über alle Betriebe) für ‘Sierra (Kreis) und ‘Concerto (Kreuz) |
Abbildung A3: | Trellis Display mit xy-Plot, alle Merkmale, konditioniert nach Betrieb, Woche 44 und Woche 48 |
Abbildung A4: | Trellis Display mit Dotplot, Beurteilung Gesamteindruck je Betrieb, konditioniert nach Woche und Sorte |
Abbildung A5: | Trellis Display mit Dotplot, Beurteilung Knospenbesatz je Betrieb, konditioniert nach Woche und Sorte |
Abbildung A6 | a,b,c,d: Kumulierte absolute Beiträge der Variablen; a) bei ‘Sierra in Woche 44, b) bei ‘Sierra in Woche 48, c) bei ‘Concerto in Woche 44, d) bei ‘Concerto in Woche 48 |
Abbildung A7: | Korrespondenzanalyse bipolarer Daten, ‘Sierra Woche 44; Anteil der durch die erste Dimension erklärten Inertia 37,5%, Anteil der durch die zweite Dimension erklärten Inertia 30,6% |
Abbildung A8: | Korrespondenzanalyse bipolarer Daten, ‘Sierra Woche 48; Anteil der durch die erste Dimension erklärten Inertia 51,0%, Anteil der durch die zweite Dimension erklärten Inertia 17,3% |
Abbildung A9: | Korrespondenzanalyse bipolarer Daten, ‘Concerto Woche 44; Anteil der durch die erste Dimension erklärten Inertia 56,5%, Anteil der durch die zweite Dimension erklärten Inertia 17,1% |
Abbildung A10: | Korrespondenzanalyse bipolarer Daten, ‘Concerto Woche 48; Anteil der durch die erste Dimension erklärten Inertia 38,8%, Anteil der durch die zweite Dimension erklärten Inertia 24,5% |
Abbildung A11 | a,b,c,d: Hauptkoordinatenanalyse; Konfiguration in den ersten beiden Dimensionen, mit und ohne überlagerten Multiple Spanning Tree; a) und b) bei ‘Sierra in Woche 44 (erklärte Varianz in der ersten Dimension 24,6%, in der zweiten Dimension 18,5%); c) und d) bei ‘Sierra in Woche 48 (erklärte Varianz in der ersten Dimension 25,5%, in der zweiten Dimension 17,4%) |
Abbildung A11 | e,f,g,h: Hauptkoordinatenanalyse; Konfiguration in den ersten beiden Dimensionen, mit und ohne überlagerten Multiple Spanning Tree; e) und f) bei ‘Concerto in Woche 44 (erklärte Varianz in der ersten Dimension 34,7%, in der zweiten Dimension 15,8%); g) und h) bei ‘Concerto in Woche 48 (erklärte Varianz in der ersten Dimension 25,9%, in der zweiten Dimension 14,6%) |
Abbildung A12: | Nichtlineare Biplots, ‘Sierra Woche 44; Anteil der durch die erste Dimension erklärten Varianz 24,6%, Anteil der durch die zweite Dimension erklärten Varianz 18,5% |
Abbildung A13: | Nichtlineare Biplots, ‘Sierra Woche 48; Anteil der durch die erste Dimension erklärten Varianz 25,5%, Anteil der durch die zweite Dimension erklärten Varianz 17,4% |
Abbildung A14: | Nichtlineare Biplots, ‘Concerto Woche 44; Anteil der durch die erste Dimension erklärten Varianz 34,7%, Anteil der durch die zweite Dimension erklärten Varianz 15,8% |
Abbildung A15: | Nichtlineare Biplots, ‘Concerto Woche 48; Anteil der durch die erste Dimension erklärten Varianz 25,9%, Anteil der durch die zweite Dimension erklärten Varianz 14,6% |
Abbildung A16 | a und b: Konfigurationen der ordinalen, mehrdimensionalen Skalierung in den beiden ersten Dimensionen bei Analyse der Spearman Korrelationsmatrix der Boniturwerte für Woche 44, stress-Wert 0,1073 |
Abbildung A16 | c und d: Konfigurationen der ordinalen, mehrdimensionalen Skalierung in den beiden ersten Dimensionen bei Analyse der Spearman Korrelationsmatrix der Boniturwerte für Woche 48, stress-Wert 0,1774 |
Abbildung A17: | Überblick über die Konfigurationen der Korrespondenzanalyse der Qualitätsbonituren in den ersten beiden Dimensionen |
Abbildung A18: | Konfigurationen von ‘Sierra Woche 44 und Sierra Woche 48, nach Skalierung und Rotation im Rahmen der Procrustes-Analyse |
Abbildung A19: | Konfigurationen von ‘Concerto Woche 44 und Concerto Woche 48, nach Skalierung und Rotation im Rahmen der Procrustes-Analyse |
Abbildung A20: | Konsens-Konfigurationen der Beurteilungswochen 44 und 48 für ‘Sierra und ‘Concerto; erklärte Varianz durch die erste Dimension bei ‘Sierra 39,4%, bei ‘Concerto 43,9%, durch die zweite Dimension bei ‘Sierra 24,3%, bei ‘Concerto 18,6% |
Abbildung A21: | Konfigurationen von Sierra Woche 44 und Concerto Woche 44, nach Skalierung und Rotation im Rahmen der Prokrustes-Analyse |
Abbildung A22: | Konfigurationen von Sierra Woche 48 und Concerto Woche 48, nach Skalierung und Rotation im Rahmen der Prokrustes-Analyse |
Abbildung A23: | Konsens-Konfigurationen der Beurteilungswochen 44 und 48; erklärte Varianz durch die erste Dimension in Woche 44 41,3%, in Woche 48 36,3%, durch die zweite Dimension in Woche 44 21,7%, in Woche 48 23,1% |
Abbildung A24 | a,b,c,d: Dotplots der Boniturdifferenzen zwischen ‘Sierra in Woche 48 und 44 (a)); ‘Concerto in Woche 48 und 44 (b)); in Woche 44 zwischen ‘Concerto und ‘Sierra (c)); in Woche 48 zwischen ‘Concerto und ‘Sierra (d)) |
Abbildung A25: | Konsens-Konfiguration nach Prokrustes Analyse für ‘Sierra und ‘Concerto, Woche 44 und 48; erklärte Varianz in der ersten Dimension 41,7%, in der zweiten Dimension 16,6% |
Abbildung A26: | Dendrogramme unterschiedlicher Clusteralgorithmen bei Analyse aller Boniturwerte der Woche 44 und 48 bei den Sorten ‘Sierra und ‘Concerto |
Abbildung A27: | Scatterplotmatrix der Substratanalysewerte |
Abbildung A28: | CUSUM Diagramm nach Hauptkomponentenanalyse der Substratanalysewerte |
Abbildung A29 | a und b: Bestimmung der Anzahl ‘wesentlicher Hauptkomponenten nach VELICER, 1976 (a)) und EASTMENT & KRZANOWSKI, 1982 (b)) nach Hauptkomponentenanalyse der Substratanalysewerte |
Abbildung A30: | Dotplot der Hauptkomponenten-Residuen nach Hauptkomponentenanalyse der Substratanalysewerte und Betrachtung von einer Dimension (Kreis) beziehungsweise von zwei Dimensionen (Kreuz) |
Abbildung A31: | Hauptkomponenten-Biplots der Substratanalysewerte in Woche 23 mit Interpolationsmarkern; Anteil der durch die erste Dimension erklärten Varianz 41,6%, Anteil der durch die zweite Dimension erklärten Varianz 18,3% |
Abbildung A32: | Hauptkomponenten-Biplots der Substratanalysewerte in Woche 29 mit Interpolationsmarkern; Anteil der durch die erste Dimension erklärten Varianz 41,6%, Anteil der durch die zweite Dimension erklärten Varianz 18,3% |
Abbildung A33: | Hauptkomponenten-Biplots der Substratanalysewerte in Woche 41 mit Interpolationsmarkern; Anteil der durch die erste Dimension erklärten Varianz 41,6%, Anteil der durch die zweite Dimension erklärten Varianz 18,3% |
Abbildung A34: | Hauptkomponenten-Biplots der Substratanalysewerte in Woche 23 mit Prediktionsmarkern; Anteil der durch die erste Dimension erklärten Varianz 41,6%, Anteil der durch die zweite Dimension erklärten Varianz 18,3% |
Abbildung A36: | Hauptkomponenten-Biplots der Substratanalysewerte in Woche 41 mit Prediktionsmarkern; Anteil der durch die erste Dimension erklärten Varianz 41,6%, Anteil der durch die zweite Dimension erklärten Varianz 18,3% |
Abbildung A37: | Herkömmliche Biplot-Darstellung der Substratanalysewerte |
Abbildung A38 : | Dotplots der Hauptkomponentenwerte nach Hauptkomponentenanalyse der Schattiersollwerte (ohne Betrieb 11 und 18, da keine Angaben), a) der ersten Hauptkomponente, b) der zweiten Hauptkomponente |
Abbildung A39: | Shepard-Plots nach ordinaler mehrdimensionaler Skalierung bei Skalierung in zwei (2 dims) und drei (3 dims) Dimensionen |
Abbildung A40: | Shepard-Plot nach ordinaler mehrdimensionaler Skalierung in vier (4 dims) Dimensionen |
Abbildung A41: | Konfigurationen der Betriebe nach Hauptkoordinatenanalyse (PCO) und mehrdimensionaler ordinaler Skalierung (MDS) der Kulturmaßnahmen in zwei Dimensionen mit überlagerten Multiple Spanning Trees |
Abbildung A42: | Darstellung der ersten drei Dimensionen der ordinalen mehrdimensionalen Skalierung der Kulturmaßnahmen |
Abbildung A43: | Andrews Kurven der ersten vier Dimensionen der ordinalen mehrdimensionalen Skalierung aller Variablen des Kultumaßnahmen Datensets |
Abbildung A44: | Parallelkoordinatenplot der ersten vier Dimensionen der ordinalen mehrdimensionalen Skalierung aller Variablen des Kulturmaßnahmen Datensets (farbliche Hervorhebung der aus dem Andrews-Plot abgeleiteten Gruppierung) |
Abbildung A45: | Trellis-Display der dritten und vierten Dimension, konditioniert durch die erste und zweite Dimension (given.dim1 beziehungsweise given.dim2) |
Abbildung A46: | Parallelkoordinatenplot ausgewählter Variablen des Datensets 3 (Kulturmaßnahmen) mit farblicher Hervorhebung der aus dem Andrews-Plot abgeleiteten Gruppierung |
Abbildung A47: | Korrespondenzanalyseplot der Variablen(a)) und der Betriebe (b)) im Variablenset 4; durch die erste Dimension erklärte Varianz 25,5%, durch die zweite Dimension erklärte Varianz 22,9% |
Abbildung A48: | Gemeinsamer Korrespondenzanalyseplot der Variablen und der Betriebe in Normalkoordinaten; durch die erste Dimension erklärte Varianz 25,5%, durch die zweite Dimension erklärte Varianz 22,9% |
Abbildung A49: | Gemeinsamer Korrespondenzanalyseplot der Variablen in Standard- und der Betriebe in Normalkoordinaten mit Interpolationsregion für Betrieb 3; erklärte Varianz durch die erste Dimension 25,5%, durch die zweite Dimension 22,9% |
Abbildung A50: | Prediktionsregionen der Korrespondenzanalyse in getrennten Plots für einzelne Variablen basierend auf der Chi-Quadrat-Distanz (mca); durch die erste Dimension erklärte Varianz 25,5%, durch die zweite Dimension erklärte Varianz 22,9% |
Abbildung A52: | Prediktionsregionen der Korrespondenzanalyse in getrennten Plots für einzelne Variablen basierend auf dem extended matching coefficient (emc); durch die erste Dimension erklärte Varianz 27,6%, durch die zweite Dimension erklärte Varianz 23,9% |
Abbildung A53: | Prediktionsregionen der Korrespondenzanalyse basierend auf dem extended matching coefficient (emc); durch die erste Dimension erklärte Varianz 27,6%, durch die zweite Dimension erklärte Varianz 23,9% |
Abbildung A54: | Darstellung der Korrespondenzanalyse-Konfiguration durch beschriftete Objektmeßwerte-Plots |
Abbildung A55: | Residuen zur Konsenz-Konfiguration der Betriebe und der der Merkmale ohne die Objekte 1, 2 und 3; Konfigurationen der Betriebe und der Merkmale der Korrespondenzanalyse der Strukturmerkmale ohne die Objekte 1, 2 und 3 |
Abbildung A56: | Beurteilung der Stabilität der Positionen der Variablen in der Korrespondenzanalyse der Strukturmerkmale durch konvexe Hüllen |
Abbildung A57: | Beurteilung der Stabilität der Positionen der Objekte in der Korrespondenzanalyse der Strukturmerkmale durch konvexe Hüllen |
Abbildung A58: | Dshade-Diagramme der Proximitätsmatrix der paarweisen Residuen der multiplen Prokrustes-Rotation aller Variablensets |
Abbildung A59: | Hauptkoordinatenanalyse der Proximitätsmatrix der paarweisen Residuen der multiplen Prokrustes-Rotation aller Variablensets; Anteil erklärter Varianz durch die erste Dimension 16,4%, durch die zweite Dimension 15,5% |
Abbildung A60: | Ordinale mehrdimensionale Skalierung der Proximitätsmatrix der paarweisen Residuen der multiplen Prokrustes-Rotation aller Variablensets; Stress in zwei Dimensionen 0,1220 |
Abbildung A61: | Komponentenladungen der generalisierten kanonischen Analyse, ‘Sierra Woche 44 im Datenset 6; mittlerer Loss 0,105 |
Abbildung A62: | Komponentenladungen generalisierter kanonischen Analyse, ‘Sierra Woche 48 im Datenset 6; mittlerer Loss 0,044 |
Abbildung A63: | Komponentenladungen generalisierter kanonischen Analyse, ‘Concerto Woche 44 im Datenset 6; mittlerer Loss 0,083 |
Abbildung A64: | Komponentenladungen generalisierten kanonischen Analyse, ‘Concerto Woche 48 im Datenset 6; mittlerer Loss 0,116 |
Abbildung A65: | Überlagerte Komponentenladungen der generalisierten kanonischen Analyse aller Variablensets, ‘Concerto Woche 44 im Datenset 6; mittlerer Loss 0,083 |
Abbildung A66: | Illustration der Ergebnisse der generalisieren kanonischen Analyse nach Identifikation auffälliger Zusammenhänge bei ‘Concerto Woche 44 in Variablenset 6 |
Abbildung B1: | Univariate Graphiken zur Beurteilung von Lage- und Dispersionsparametern sowie Verteilungen ausgewählter Kennzahlen |
Abbildung B2: | Univariate Graphiken zur Beurteilung von Lage- und Dispersionsparametern sowie Verteilungen ausgewählter Kennzahlen |
Abbildung B3: | Trellis-Displays mit Boxplots für die Kennzahlen Rentabilitätskoeffizient, Lohn je entlohnte AK, Heizmaterial je qm und Glasfläche je AK; konditioniert nach Regionen |
Abbildung B4: | Trellis-Displays mit Loess-Regressionslinien, konditioniert nach Anzahl Arbeitskräfte und Erhebungsjahr, für die Beziehung von Arbeitsproduktivität (Betriebseinkommen/AK) und Lohnquote (a)) beziehungsweise Lohn je entlohnte AK (b)) |
Abbildung B5: | Trellis-Displays mit Loess-Regressionslinien, konditioniert nach Shingle Glasfläche und Erhebungsjahr, für die Beziehung von Flächenproduktivität (Betriebseinkommen/Eqm) und Lohnquote (a)) beziehungsweise Lohn je entlohnte AK (b)) |
Abbildung B6: | Trellis-Displays mit Loess-Regressionslinien, konditioniert nach Shingle Glasfläche und Erhebungsjahr, für die Beziehung von Arbeitsproduktivität (Betriebseinkommen/AK) (a)) und Flächenproduktivität (Betriebseinkomen/Eqm) (b)) zu qm Glasfläche/AK |
Abbildung B7: | Trellis-Displays mit Loess-Regressionslinien, konditioniert nach Shingle Glasfläche und Erhebungsjahr, für die Beziehung von Arbeitsproduktivität (Betriebseinkommen/AK) zu Spezialaufwand (a)) und allgemeinem Aufwand (b)) |
Abbildung B8: | fq-Werte zur Bestimmung der Anzahl der ‘wesentlichen Hauptkomponenten in den 24 Gruppen der Kennzahlenbetriebe |
Abbildung B9: | W-Werte zur Bestimmung der Anzahl der ‘wesentlichen Hauptkomponenten in den 24 Gruppen der Kennzahlenbetriebe |
Abbildung B10: | Boxplots der Eigenwerte der Hauptkomponentenanalysen aller 24 Gruppen der Kennzahlenbetriebe |
Abbildung B11: | Gamma q-q-Plot für den Vergleich des ersten Eigenvektors der 24 Gruppen der Kennzahlenbetriebe mit dem ‘typischen ersten Eigenvektor |
Abbildung B12: | Gamma q-q-Plot für den Vergleich des zweiten Eigenvektors der 24 Gruppen der Kennzahlenbetriebe mit dem ‘typischen ersten Eigenvektor |
Abbildung B13: | Gamma q-q-Plot für den Vergleich des dritten (a)) und vierten (b)) Eigenvektors der 24 Gruppen der Kennzahlenbetriebe mit dem ‘typischen ersten Eigenvektor |
Abbildung B14a: | CUSUM-Diagramme für Gruppe 7 (a)), Gruppe 6 (b)) der 24 Gruppen |
Abbildung 14b: | CUSUM-Diagramme für Gruppe 8)) und Gruppe 13)) der 24 Gruppen |
Abbildung B15: | Gewichtete CVA-Mittelwerte und konvexe Hüllen der Objektkonfigurationen, farblich kodiert nach Erhebungsjahr, Glasfläche und Region; Anteil erklärter Varianz durch die erste Dimension 77,6%, durch die zweite Dimension 14,3% |
Abbildung B16: | Parallekoordinatenplot der Orginalwerte der in der kanonischen Variablenanalyse verrechneten Kennzahlen |
Abbildung B17: | AWE-Werte nach verschiedenen Verfahren modellbegründeter Clusteranalyse für 1 bis 20 Cluster und normales und robustes Vorgehen für 1992, 1993 und 1994 |
Abbildung B18a: | Silhouettenplots für 2 bis 9 Clusterlösungen bei nicht-hierarchischer Klassifikation (Partition um Medoide), 1992 |
Abbildung B18b: | Silhouettenplots für 2 bis 9 Clusterlösungen bei nicht-hierarchischer Klassifikation (Partition um Medoide), 1993 |
Abbildung B18c: | Silhouettenplots für 2 bis 9 Clusterlösungen bei nicht-hierarchischer Klassifikation (Partition um Medoide), 1994 |
Abbildung B19a: | Silhouettenplots für 2 bis 6 Clusterlösungen bei Fuzzy Clusterung, 1992 |
Abbildung B19b: | Silhouettenplots für 2 bis 6 Clusterlösungen bei Fuzzy Clusterung, 1993 |
Abbildung B19c: | Silhouettenplots für 2 bis 6 Clusterlösungen bei Fuzzy Clusterung, 1994 |
Abbildung B20a: | Bannerplots und Dendrogramme für hierarchische, agglomerative Clusteranalysen der Kennzahlenbetriebe, 1992 |
Abbildung B20b: | Bannerplots und Dendrogramme für hierarchische, agglomerative Clusteranalysen der Kennzahlenbetriebe, 1993 |
Abbildung B20c: | Bannerplots und Dendrogramme für hierarchische, agglomerative Clusteranalysen der Kennzahlenbetriebe, 1994 |
Abbildung B20d: | Bannerplots und Dendrogramme für hierarchische, divisive Clusteranalyse der Kennzahlenbetriebe, 1992 bis 1994 |
Abbildung B21: | Normal-q-q-Plots für Kennzahl Rentabilitätskoeffizient im vollen (a)) und eingeschränkten (b)) Datensatz in 1992, 1993 und 1994 |
Abbildung B22: | CART-Analyse 1992, abhängige Variable Rentabilitätskoeffizient, Verwendung der Gewichtung nach Ausreißertests |
Abbildung B23: | CART-Analyse 1993, abhängige Variable Rentabilitätskoeffizient, Verwendung der Gewichtung nach Ausreißertests |
Abbildung B24: | CART-Analyse 1994, abhängige Variable Rentabilitätskoeffizient, Verwendung der Gewichtung nach Ausreißertests |
Abbildung B25: | CART-Analyse 1992, abhängige Variable Rentabilitätskoeffizient, um Extremwerte verkleinerter Datensatz |
Abbildung B26: | CART-Analyse 1993, abhängige Variable Rentabilitätskoeffizient, um Extremwerte verkleinerter Datensatz |
Abbildung B27: | CART-Analyse 1994, abhängige Variable Rentabilitätskoeffizient, um Extremwerte verkleinerter Datensatz |
Abbildung B28: | CHAID-Klassifikationsbaum; Analyse der ordinalskalierten Kennzahlen für 1992, abhängige Variable Rentabilitätskoeffizient |
Abbildung B29: | CHAID-Klassifikationsbaum; Analyse der ordinalskalierten Kennzahlen für 1993, abhängige Variable Rentabilitätskoeffizient |
Abbildung B30: | CHAID-Klassifikationsbaum; Analyse der ordinalskalierten Kennzahlen für 1994, abhängige Variable Rentabilitätskoeffizient |
Abbildung B31: | Balkendiagramme der wichtigsten Segmentierungsvariablen nach CHAID-Analyse für 1992 und Rugplot für die abhängige Variable in den Segmenten auf der untersten Ebene des Klassifikationsbaumes |
Abbildung B32: | Balkendiagramme der wichtigsten Segmentierungsvariablen nach CHAID-Analyse für 1993 und Rugplots für die abhängige Variable in den Segmenten auf der untersten Ebene des Klassifikationsbaumes |
Abbildung B33: | Balkendiagramme der wichtigsten Segmentierungsvariablen nach CHAID-Analyse für 1994 und Rugplot für die abhängige Variable in den Segmenten auf der untersten Ebene des Klassifikationsbaumes |
Abbildung B34: | Beziehungsgeflecht eines vollständigen (oben) und eines auf direkte Beziehungen gescreenten (unten) graphischen Modells für die Analyse von 15 Kennzahlen im Jahr 1993; beteiligte Erfolgskennzahl: Betriebseinkommen/AK |
Abbildung B35: | Graphische Modelle nach Rückwärts-Elimination 1993 |
Abbildung B36: | Beziehungen von Betriebseinkommen/AK und Betriebseinkommen/Eqm zu Einheitsquadratmeter beziehungsweise qm Glasfläche/AK, 1992 bis 1994 |
Abbildung B37: | Beziehungen von Einheitsquadratmeter, Anzahl AK und Glasläche/AK, 1992 bis 1994 |
Abbildung B38: | Beziehungen von Einheitsquadratmeter, Anzahl AK und qm Glasfläche/AK; Loess-Regressionslinien der log-transformierten Variablen in den Panels mit 50% überlappenden Intervallen, 1992 bis 1994 |
Abbildung B39: | Beziehungen von Fremdkapital und Anlagevermögen zu Kapitalkoeffizient, Reinertragsdifferenz und Rentabilitätskoeffizient, 1992 bis 1994 |
Abbildung B40: | Beziehungen von Region und qm Glasfläche/AK zu Reinertragsdifferenz, Rentabilitätskoeffizient und Bertriebseinkommen/AK, 1992 bis 1994 |
Abbildung B41: | Graphische Modelle für sechs Erfolgskennzahlen nach Rückwärts-Elimination |
Abbildung B42: | Beziehungen von Betriebseinkommen/Eqm, Betriebseinkomen in % BE, Kapitalkoeffizient und Rentabilitätskoeffizient, 1992 bis 1994 |
Abbildung B43: | Beziehungen von Betriebseinkommen/Eqm, Betriebseinkommen in % BE, Kapitalkoeffizient und Rentabilitätskoeffizient, 1992 bis 1994 |
Abbildung B44: | Liniendiagramm für Betriebseinkommen je AK und Lohn je entlohnte AK |
Abbildung B45: : | Liniendiagramm für Reinertrag je AK und Lohn je entlohnte AK |
Abbildung B46: | Liniendiagramm für Rentabilitätskoeffizient und Lohn je entlohnte AK |
Abbildung B47: | Liniendiagramm für Betriebseinkommen je AK und Lohn je entlohnte AK bei sehr hohem Rentabilitätskoeffizienten |
Abbildung B48: | Liniendiagramm für Glasfläche je AK und Betriebseinkommen je AK |
Abbildung B49: | Liniendiagramm für Glasfläche je AK und Rentabilitätskoeffizient |
Abbildung B50: | Liniendiagramm für Glasfläche je AK und Lohn je entlohnte AK |
Abbildung B51: | Liniendiagramm für Erträge aus Eigenproduktion und Rentabilitätskoeffizient, überwiegend indirekt absetzende Betriebe |
Abbildung B52: | Liniendiagramm für Erträge aus Eigenproduktion und Rentabilitätskoeffizient, überwiegend direkt absetzende Betriebe |
Abbildung B53: | Liniendiagramm für Glasfläche in qm und Betriebseinkommen je AK |
Abbildung B54: | Liniendiagramm für Arbeitskräfte insgesamt und Betriebseinkommen je Eqm |
Abbildung B55: | Liniendiagramm für Arbeitskräfte insgesamt und Betriebseinkommen je AK |
Abbildung B56: | Liniendiagramm für Glasfläche in qm und Betriebseinkommen je Eqm |
Abbildung B57: | Liniendiagramm für Glasfläche in qm und Rentabilitätskoeffizient |
Abbildung B58: | Liniendiagramm für Arbeitskräfte insgesamt und Rentabilitätskoeffizient |
Abbildung B59: | Der Weg durch Liniendiagramme zu der Gruppe von Betrieben mit sehr hoher Arbeits- und Flächenproduktivität und sehr hoher Wertschöpfungsquote |
Abbildung B60a: | Genstat Menüs zur Ergänzung der Analyse der Liniendiagramme |
Abbildung B60b: | Genstat Menüs zur Ergänzung der Analyse der Liniendiagramme |
Abbildung B61: | Ergebnisausdruck der Genstat-Menüs aus Abbildung B60 |
Abbildung B62: | Zwei Betriebe des in Abbildung B 59 fokussierten Betriebes |
Abbildung B63: | Der Weg durch ein Liniendiagramm zum Segment mit dem höchsten geschätzten Rentabilitätskoeffizienten 1994 in der CHAID-Analyse; jahr 1994, eqm Klasse 2 und 3, fkp Klasse 1 und 2, heizqm Klasse 1 |
© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 2.0 |
Zertifizierter Dokumentenserver der Humboldt-Universität zu Berlin |
HTML - Version erstellt am: Wed May 24 16:40:53 2000 |