Suchen...
Generic filters
Exact matches only
Search in title
Search in excerpt
Search in content

Ähnliche Wertverteilungen mit der Clusteranalyse aufdecken

PDF Download

Liebe Datenanalysten,

der große Vorrat an Analyseverfahren ist eine besondere Stärke von DeltaMaster. Dazu zählen, ganz offensichtlich, die Methoden im Modus Miner mit ihren speziellen Algorithmen, Heuristiken und Berichtsformaten. Daneben gibt es zahlreiche weitere Funktionen, die innerhalb von tabellarischen Berichten bereitstehen und neue Erkenntnisse liefern. In diese Kategorie fällt die Clusteranalyse. Sie fahndet nach ähnlichen Strukturen in den Berichtsdaten und hebt hervor, was auffällig ist. Dabei ist sie so einfach anzuwenden und geht so unauffällig zu Werke, dass wir uns fast gefragt haben, ob wir diese Ausgabe der DeltaMaster clicks! überhaupt damit füllen können – aber genau diese Unauffälligkeit soll auch einmal auffallen dürfen.

Herzliche Grüße
Ihr Team von Bissantz & Company

Zur genaueren Untersuchung von Pivot- und Kreuztabellen bietet DeltaMaster eine Reihe von Schnellanalysen an. Diese wirken wie ein guter Assistent: Sie nehmen die Tabelle unter die Lupe und heben automatisch hervor, was bemerkenswert ist. Eine dieser Schnellanalysen ist die Clusteranalyse. Sie identifiziert ähnliche Objekte und fasst sie zu Gruppen zusammenfassen. Das benötigt man beispielsweise bei der Kundenprofilierung oder Marktsegmentierung – oder einfach, um die Objekte in der Tabelle einmal auf Ähnlichkeiten abzuklopfen.

Ein Cluster (auf Deutsch etwa: Gruppe, Anhäufung, Ansammlung, Ballung) soll dabei so definiert sein, dass die Objekte in diesem Cluster möglichst ähnlich zueinander sind – und möglichst verschieden von den Objekten in anderen Clustern. Es sollen also die Cluster in sich möglichst homogen sein, damit die enthaltenen Objekte gut zu charakterisieren sind; untereinander sollen sie möglichst heterogen sein, um trennscharf Handlungen folgen zu lassen.

Clusteranalyse

Die Clusteranalyse in Pivot- und Kreuztabellen funktioniert in DeltaMaster besonders einfach und benötigt keine Parameter oder Vorwissen – die Ergebnisse sprechen für sich.

Analyse starten

Angeboten wird die Clusteranalyse in zwei Modulen: in Pivottabellen und in der Kreuztabellenanalyse. Für Pivottabellen ist der Modus Pivotizer, Analyzer oder Miner erforderlich, für die Kreuztabellenanalyse der Modus Analyzer oder Miner. Von der Methodik her funktioniert die Analyse in beiden Modulen gleich, lediglich die Analysekettentechnik ist der Kreuztabellenanalyse vorbehalten.

Zusammen mit den anderen Schnellanalysen ist die Clusteranalyse im Kontextmenü der Tabelle zu finden, und zwar im Abschnitt Analyse.

Clusteranalyse im Abschnitt Analyse neben Ausreißeranalyse, Konzentrationsanalyse, Erwartungswertanalyse, Assoziationsanalyse, Comparatorenanalyse, Descriptoranalyse und RankCluster-Analyse

Im Untermenü wählen Sie aus, welche Objekte DeltaMaster gruppieren soll (Zeilen oder Spalten) und nach welchen Kennzahlen (Anteilen an der Zeilen- bzw. Spaltensumme oder absoluten Werten).

Auswahl bei Clusteranalyse: Zeilen nach Anteilen gruppieren, Spalten nach Anteilen gruppieren, Zeilen nach Werten gruppieren, Spalten nach Werten gruppieren

Das war’s schon! Sofort startet DeltaMaster die Berechnung und versucht, Zeilen oder Spalten zusammenzufassen, bei denen sich die Werte oder Anteile ähnlich auf die Elemente der jeweils anderen Achse verteilen.

Ballungsräume

Als Beispiel haben wir in unserer Referenzanwendung „Chair“ die Produkt- und die Kundendimension gegenübergestellt, eine durchaus typische Ausgangslage für Clusteranalysen. Zur Verdeutlichung der Wertverhältnisse sind global skalierte Kreise eingeblendet (Kontextmenü, Abschnitt Grafik; die Skalierung legt man in den Tabelleneigenschaften auf der Registerkarte Grafik (1) fest). Diese Darstellung mag zunächst etwas überraschen: In den meisten Berichten verwenden wir Balken oder Säulen, weil man Längen und Höhen besser abschätzen kann als Flächen. Kreise haben jedoch den Vorteil, dass sie sich gut in zwei Richtungen vergleichen lassen, vertikal und horizontal, zeilen? und spaltenweise, und genau das ist hier gefragt. Produkte und Regionen sind „gleichberechtigte“ Merkmale, Kreise somit geeignet zu signalisieren, welche Kombinationen von Bedeutung sind („Kreise können kreuzweise“, siehe bissantz.de/kreuzkreise). Aber trotz der passenden Grafiken: Ähnliche Nachfrageprofile sind so nicht auf einen Blick zu erkennen.

Produkt- und Kundendimension mit Einblendung von skalierten Kreisen

Die Clusteranalyse ändert das sofort. In der nebenstehenden Abbildung haben wir DeltaMaster die Zeilen nach Anteilen gruppieren lassen. Die Tabellenansicht wird dabei automatisch umgeschaltet, um die Anteile an der Zeilensumme anzuzeigen (anstelle der absoluten Ergebnisse). Die Clusteranalyse sortiert die Zeilen so um, dass die ähnlichen Elemente zusammenstehen; eine eventuelle Sortierung der Achse wird dabei ignoriert. Mit der schwarzen Umrandung markiert DeltaMaster die Cluster. Im Beispiel wurden deren fünf gefunden – und der optische Eindruck bestätigt den statistischen Befund.

Clusteranalyse mit Gruppierung der Anteile

  • Im ersten Cluster liegen Produkte mit hohem Umsatz im Norden, mittlerem Umsatz im Süden und niedrigem Umsatz im Osten und Westen – jeweils gemessen am Gesamtumsatz mit diesem Produkt, also der Zeilensumme.
  • Im zweiten Cluster liegen Produkte mit hohem Umsatz im Norden und etwa gleichen, eher niedrigen Umsätzen in den übrigen Regionen.
  • Im dritten Cluster liegen Produkte, die praktisch nur im Norden „laufen“.
  • Im vierten Cluster liegen Produkte, deren Umsatz überwiegend aus dem Norden, zu einem guten Teil aber auch aus dem Süden stammt; die anderen Regionen sind zu vernachlässigen.
  • Im fünften Cluster liegen Produkte, bei denen auch der Osten und Westen einen beträchtlichen Umsatzanteil haben.

Außerhalb der Cluster, am Ende der Tabelle, stehen einige Einträge, die zu keinem der anderen Muster und auch nicht zueinander so recht passen wollen. Deshalb sind sie keinem Cluster zugeordnet.

Wenn man mit absoluten Werten anstatt mit Anteilen rechnet, ergibt sich ein anderes Bild. Beide Analysevarianten haben ihre Berechtigung. Häufig konzentriert man sich auf die absoluten Werte und dabei wiederum auf die Cluster mit hohen Werten. Aber auch relative Betrachtungen sind sinnvoll und interessant. Beispielsweise mag man für Produkte mit ähnlicher Absatzstruktur gleiche Richtlinien in der Versandlogistik entwickeln, auch wenn die Umsätze in unterschiedlichen Größenordnungen liegen.

Clusteranalyse mit Gruppierung der absoluten Werte

Wird die Pivottabelle oder die Kreuztabelle mit berechneter Clusteranalyse gespeichert, so ist sie auch im Modus Viewer verfügbar. Beim Aktualisieren des Berichts oder etwa bei einem Wechsel der Sicht, zum Beispiel zu einem anderen Monat, berechnet DeltaMaster die Clusteranalyse automatisch neu.

Unter der Haube

Das Verfahren der Clusteranalyse ist in DeltaMaster so angelegt, dass es für den Anwender möglichst einfach zu bedienen und robust gegenüber unterschiedlichen Datenkonstellationen ist. Wer es genau wissen will: Die Ähnlichkeit von Objekten wird über den sogenannten Euklidischen Abstand ermittelt, die Gruppierung erfolgt nach dem Average-Linkage-Verfahren. Zusätzlich sorgt ein Regelwerk dafür, dass die Analyse auch unter widrigen Umständen brauchbare Ergebnisse liefert. Beispielsweise werden Sie es dank adaptiver Schwellwerte nur selten erleben, dass kein Cluster oder nur ein Cluster gefunden wird, der alle Objekte enthält.

Analysekettentechnik: gefundene Cluster weiterverwenden

Eine schnelle Clusteranalyse kann für viele Zwecke schon genügen – als Hinweis auf Zusammenhänge in den Daten, die man ohne Systemunterstützung kaum hätte finden können. Manchmal will man aber mehr: nämlich mit den ermittelten Gruppen weiter analysieren und die Cluster in anderen Berichten und Analysen aufgreifen.

Im Modus Miner ist dies in der Kreuztabellenanalyse möglich: Die gefundenen Gruppierungen lassen sich als sogenannte virtuelle Hierarchie speichern. Diese wiederum steht im Dimensionsbrowser, in Pivottabellen, Analyseverfahren usw. genauso zur Verfügung wie die Dimensionen, die DeltaMaster aus der Datenbank übernommen hat. Veränderungen an der Datenbank sind jedoch nicht erforderlich, die Hierarchie wird allein in DeltaMaster verwaltet. Die virtuellen Elemente heißen zunächst „Cluster 1“, „Cluster 2“ usw. Im Dimensionsbrowser lassen sie sich umbenennen (Kontextmenü oder Taste F2). Elemente, die in keinen Cluster fallen, werden dem virtuellen Element „Nicht geclustert“ zugeordnet. Bei Bedarf legt DeltaMaster außerdem eine „Restklasse“ an, als Sammelposten für Elemente, die in der aktuellen Tabellenansicht ausgeschlossen sind, zum Beispiel leere oder nach Analysewerten ausgefilterte Zeilen oder Spalten. Einzelheiten finden Sie in den DeltaMaster deltas! 5.5.5, Punkt 10.

Produkt Cluster im Dimensionsbrowser

Um eine virtuelle Hierarchie zu erstellen, rufen Sie den entsprechenden Befehl im Menü Drill-in (Fenster Analyse) auf. Voraussetzung ist, dass die Clusteranalyse berechnet ist und Cluster gefunden wurden.

Virtuelle Hierarchie erstellen im Menü Drill-in

Vor allem für die Weiterverwendung als virtuelle Hierarchie kann es sinnvoll sein, eine feste Clusteranzahl vorzugeben. Diese lässt sich in den Einstellungen der Kreuztabellenanalyse eintragen (siehe DeltaMaster deltas! 5.5.6, Punkt 7).

Clusteranzahl in der Registerkarte Analyse in Kreuztabellenanalyse Einstellungen

Universell einsetzbar

Die Clusteranalyse können Sie auf beliebige Pivot- und Kreuztabellen ansetzen. Prädestiniert ist sie für Merkmale wie Kunden, Regionen, Produkte, Materialien und Ähnliches – Merkmale, deren Kombination gut zu interpretieren ist und eine plausible Gruppendefinition erlaubt. Auch verschachtelte Achsen sind möglich, etwa, wenn man Artikel und Ausstattungsvarianten gemeinsam betrachtet. Nur in einigen Anwendungsgebieten wird man von Clusteranalysen Abstand nehmen, aus inhaltlichen Gründen. So ist es wenig sinnvoll, Konten, GuV-Zeilen oder etwa die Analysewerte eines Kennzahlenschemas zu gruppieren. Auch entlang der Zeitdimension wird man im Allgemeinen nicht nach Clustern suchen.