|
|
 |
 |
|
Matrix- und Clusteranalyse |
 |
 |
 |
 |
 |
 |
|
 |
 |
 |
 |
 |
 |
|
Als Matrixanalyse im Sinne des PS-Explore-Systems wird hier ein auf BERTIN (La Graphique et la Traitement Graphique de´l Information,
Paris, 1977) zurückgehendes Verfahren verstanden, welches durch systematische Umordnung (Permutation) von Zeilen und/oder Spalten einer sonst ungeordneten Datenmatrix die Offenlegung von möglichen Zusammenhängen
zwischen den Zeilen und Spalten visuell sichtbar und interpretierbar zu machen versucht.
Nachstehend sieht man die Daten aus einem von Bertin gegebenen einfachen Beispiel, in dem eine Datenmatrix umgeordnet wird,
in der die Informationen zu 16 Gemeinden (A - P) im Hinblick auf das Vorhandensein (1) oder Nicht-Vorhandensein (0) von 9 Faktoren abgelegt sind: |
|
|
|
 |
|
|
|
Eine inhaltliche Fragestellung, die zur Anwendung der Matrixanalyse auf diese Daten führen könnte, lautet etwa:
“Sind bei der
Regionalplanung alle Gemeinden gleich zu behandeln oder muß spezifischen Unterschieden Rechnung getragen werden?”
Die Umordnung der Tabelle wird nun so vorgenommen, daß zunächst die Zeilen der Matrix im Hinblick
auf ihre Ähnlichkeit umgestellt werden, also ähnliche Zeilen direkt beieinander zu stehen kommen. Je unähnlicher zwei Zeilen sind, desto größer sollte nach der Permutation deren Distanz in der Tabelle sein:
|
|
|
|
 |
|
|
|
Die Umordnung der Zeilen in vorstehender Abbildung wurde bereits automatisch mit der Matrixanalyse aus PS-Explore vorgenommen. Das System
erzeugt dabei die Spalte MA.Gruppe, in welcher eine Zuordnung der Zeilen in Ähnlichkeitsklassen vorgenommen wurde. Betrachtet man, welche Institutionen hier ein die entsprechenden Gruppen eingeordnet wurden, so ahnt man
bereits deren inhaltliche Zugehörigkeit. Gruppe 2 (Oberschule, Polizeirevier, Bahnhof) steht eher für Orte mit städtischem Charakter, während Gruppe 3 (Zwergschule, ohne Arzt, ohne Wasserversorgung) eher auf ländliche
Strukturen verweist.Nach gleichem Umordnungsprinzip wird schließlich auch mit den Spalten der Datenmatrix verfahren, was dann zur Anordnung der Gesamtinformation unserer Gemeindedaten wie folgt führt: |
|
|
|
 |
|
|
|
Die 16 Gemeinden wurden (siehe Tabellenkopf!) nun vom Verfahren in 4 Gruppen (Cluster) unterteilt. Ein Blick auf die Matrix zeigt, das die
Einsen nun nahezu diagonal von unten links nach oben rechts verteilt sind. Durch die Umordnung nach Zeilen und Spalten offenbart sich also eine klare Struktur der Gemeindedaten.
Dementsprechend wird man von den 9 Institutionen die Merkmale Oberschule, Bahnhof und Polizeirevier als Charakteristika städtisch geprägter Gemeinden verstehen. Dem entgegen stehen nun die Merkmale
Zwergschule, ohne Arzt und ohne Wasserversorgung, welche jene Faktoren darstellen, die eine ländlich geprägte Gemeinde wiedergeben. Dazwischen stehen schließlich solche Gemeinden, die durch die Merkmale
Landwirtschaftliche Genossenschaft, Tierarzt und Flurbereinigung geprägt sind.
Als Konsequenz auf die eingangs formulierte inhaltliche Fragestellung würden die Regionalplaner hinsichtlich der Gemeinden N, J,
P, M, I, F, E, A (Cluster 1 und Cluster 2) andere Maßnahmen ergreifen als für die Gemeinden O, L, G, D, C, B (Cluster 3) bzw. H und K (Cluster 4).
Dieses einfache Beispiel zur Matrixanalyse zeigt eindrucksvoll
die mit großem Effekt und einfachen methodischen Mitteln betreibbaren Vorteile des auf Bertin zurückgehenden Verfahrens.
Natürlich läßt sich die hier vorgestellte Methodik noch erheblich elaborieren. Nicht immer
werden natürlich die visuellen Effekte der Matrixanalyse dabei so augenfällig sein wie im dargestellten Beispiel.
Im o. g. Beispiel wurden sog. binäre Daten benutzt, d. h. Informationen der Form "liegt vor -
liegt nicht vor" oder "Ja - Nein", "0 - 1" etc.. Natürlich ist es auch möglich, ordinale oder kontinuierliche Merkmale per Matrixanalyse zu untersuchen. Hinsichtlich der Kodierung und
visuellen Darstellung der einzelnen Matrixelemente wird man dann Symbole benutzen, die durch ihre unterschiedliche optische Dichte die numerischen Unterschiede wiederzuspiegeln in der Lage sind. Entsprechend kann man
auch die Graustufenkodierung wählen. Um einen noch besseren visuellen Eindruck einer permutierten Datenmatrix zu vermitteln, bietet die PS-Explore-Matrixanalyse zusätzlich neben der Ausgabe der numerischen Matrix eine
graustufenkodierte Ergebnismatrix als Grafik: |
 |
|
|
 |
|
|
 |
 |
|
 |
|
Das in PS-Explore realisierte Verfahren der Bertinschen Matrixanalyse verfügt über verschiedene Optionen, die es erlauben eine
solche Analyse nach allen Regeln der Kunst durchzuführen. Bei günstiger Vorauswahl der Merkmale liefert das Verfahren oft schon im ersten Anlauf gut interpretierbare grafische Matrizen.Zu den
Zusatzoptionen gehören etwa Möglichkeiten der Datentransformation, sowie verschiedene Maße, über welche die Ähnlichkeit von Zeilen und Spalten ermittelt wird. In Fällen, in denen intervallskalierte Daten
in die Analyse eingehen, empfiehlt sich eine im Verfahren selbst automatisch durchgeführte Standardisierung der verschiedenen Merkmalswerte. Hierbei ist es dann auch möglich der Standardwertberechnung
resistente oder robuste Varianzschätzer zugrunde zu legen. |
|
|
 |
|
|
 |
 |
|
Ein weiteres interessantes Analyseverfahren, welches ergänzend oder alternativ zur Matrixanalyse eingesetzt werden kann, ist die Segmentationsanalyse des Moduls PS-Explore/MiningTree. |
|