Suchen...
Generic filters
Exact matches only
Search in title
Search in excerpt
Search in content

Analysen: Verteilungen vergleichen mit dem Comparator

Mit dem neuesten Release steht in DeltaMaster der Comparator zur Verfügung, um Auffälligkeiten in der Verteilung von Kennzahlen zu finden. Wo und wie er genau eingesetzt wird, erfahren Sie im heutigen Blogbeitrag.

Um den Comparator einzusetzen, brauchen Sie zunächst – neben der Analyselizenz und einem Release ab Version 6.3.2 – zwei Analysewerte, die beide additiv sein müssen.

Wir nehmen als Anwendungsbeispiel wieder unsere stets aktualisierte Corona-Datenbank her und wollen zum Beispiel die Anzahl der Fälle (kumuliert) mit der – ebenfalls kumulierten – Anzahl der Todesfälle vergleichen. Der verwendete Stichtag ist der 23.6.2020.

Hier stehen weniger die beiden absolute Werte, sondern vielmehr die relativen Verteilungen über die Elemente einer noch zu wählenden Dimensionsebene im Vordergrund.

Legen wir also eine Comparator-Analyse an, erwartet DeltaMaster die Angabe einer Dimensionsebene und der beiden zu verwendenden Analysewerte:

Gesucht: eine Dimensionsebene und zwei Analysewerte

Gesucht: eine Dimensionsebene und zwei Analysewerte

Per Drag-and-drop befördern wir nun Fälle bzw. Todesfälle auf die beiden Analysewertfelder und ziehen nun zunächst die Ebene der Bundesländer auf das Feld Dimensionsebene:

Verteilung von Fällen und Todesfällen über die Bundesländer

Wir sehen nun, wie sich jeweils die beiden Werte prozentual auf die Bundesländer verteilen, die jeweiligen absoluten Gesamtzahlen sind immer auch in der Fußzeile sichtbar. Die prozentualen Anteile ergeben nur bei additiven Kennzahlen einen Sinn; eine nicht-additive Kennzahl wie etwa die Quote „Case Fatality Rate“ wäre nicht geeignet, da sich der Wert von Deutschland nicht als Summe der Werte der Bundesländer ergibt. Eine additive Kennzahl mit Wert 0 für Deutschland käme auch nicht in Frage, da dann die Anteile der Bundesländer nicht definiert wären.

Standardmäßig sind 10 Elemente aktiv und der Rest in Form von 6 weiteren Bundesländern wird ausgeblendet. Hier wollen wir ruhig alle 16 Bundesländer sehen und erhöhen die Anzahl in den Einstellungen auf 16. Gleichzeitig aktivieren wir den Magic Button „%-Abw.“ und erhalten im Präsentationsmodus die folgende Darstellung:

Verteilung von Fällen und Todesfällen über alle 16 Bundesländer, mit Abweichung in Prozentpunkten

Verteilung von Fällen und Todesfällen über alle 16 Bundesländer, mit Abweichung in Prozentpunkten

Jetzt wird die oben sichtbare Sortierung der Elemente deutlicher – sie erfolgt absteigend nach der Abweichung in Prozentpunkten, gerechnet als „Anteil links“ – „Anteil rechts“. Somit gibt es in NRW höhere Anteile bei den Fällen im Vergleich zu den Anteilen bei den Todesfällen, während sich Bayern am anderen Ende der Skala genau andersrum verhält.

Die zuvor ausgeblendeten Bundesländer von Mecklenburg-Vorpommern bis Hamburg waren diejenigen mit den geringsten absoluten Abweichungen.

Möchte man zu jedem Element nicht nur den relativen Anteil, sondern auch die absolute Anzahl sehen, lässt sich dies im Editiermodus mit Betätigung des Magic Button „Absolut“ bewerkstelligen. Auch kann zusätzlich noch nach den Analysewertspalten sortiert werden, im vorliegenden Fall haben wir auf dem Spaltenkopf von „Fälle“ einen Doppelklick ausgeführt:

Absteigend nach Fällen sortiert, mit Angabe von absoluten Anzahlen

Absteigend nach Fällen sortiert, mit Angabe von absoluten Anzahlen

Hier hatten wir eine Dimensionsebene gewählt, bei der ohne weitere Vorkenntnisse zu erwarten war, dass sich die prozentualen Anteile auf beiden Seiten bei identischen Elementen ungefähr entsprechen sollten. Dies ist genau dann der Fall, wenn sich die absoluten Anzahlen nur durch einen festen Proportionalitätsfaktor unterscheiden.

Die relativen Anteile einer Größe bei verschiedenen Elementen können natürlich durchaus variieren.

Nach der Darstellung der Grundtabelle bei der Comparator-Analyse kommen wir nun zur eigentlichen Stärke der Anwendung: Es lassen sich nämlich beliebig viele Ebenen simultan analysieren!

Dazu werden entweder die Ebenen der Reihe nach per Drag-and-drop in die Analysefläche gezogen oder man wählt wie wir hier zur Illustration den Weg über den Analysekontext in den Einstellungen:

4 Ebenen im Analysekontext ausgewählt

4 Ebenen im Analysekontext ausgewählt

Zusätzlich zu den Bundesländern wählen wir hier noch die Ebene der Stadt-/Landkreise und Altersgruppen und Geschlecht aus.

Wir erhalten dann eine sortierte Liste von 4 Tabellen (klicken Sie bitte auf die Grafik für einen vergrößerte Darstellung!):

Comparator mit mehreren Ebenen

Comparator mit mehreren Ebenen

Es werden diejenigen Dimensionsebenen zuerst aufgeführt, bei denen sich Anteile von Kennzahl zu Kennzahl stärker unterscheiden. In der Altersverteilung wird etwa deutlich, dass Menschen mit einem Alter oberhalb von 80 bei den Fällen nur mit 11.0 %, aber bei den Todesfällen mit 63.2 % vertreten sind.

Bei den Geschlechtern sind Frauen bei den Fällen leicht über-, aber bei den Todesfällen unterdurchschnittlich vertreten.

Für die interne Berechnung der Sortierung sei so viel verraten, dass große beobachtete Abweichungen bei vielen Elementen eher für einen vorderen Platz bei den Tabellen sprechen.

Da wir hier sehen, dass hohes Alter und Zugehörigkeit zum männlichen Geschlecht eher nachteilig auf die Überlebenschance einwirken, schränken wir uns einmal auf die Altersgruppe über 80 und auf Männer ein und betrachten dann die Bundesländer:

Bayern bleibt Letzter

Bayern bleibt Letzter

Auch nach der Einschränkung bleibt Bayern auf dem letzten Platz; die bereits oben beobachte rote Laterne auf den Gesamtdaten kann somit nicht gänzlich allein durch einen möglicherweise höheren Anteil alter Männer erklärt werden. Bereits diese Gruppe selbst ist in Bayern schlechter gestellt!

Schauen wir nun auf die Entwicklung von Fallzahlen. Wir vergleichen die aktuell letzten zwei Wochen mit den zwei Wochen zuvor. Für die Berechnung legen wir Zeitanalyseelemente an (aktuell, vor 14 Tagen, vor 28 Tagen), definieren Filterwerte der kumulierten Fallzahlen mit diesen Zeitanalyseelementen und bilden schließlich Differenzen der Filterwerte an diesen Stichtagen und erhalten somit die Neuzugänge innerhalb der jeweiligen zwei Wochen:

Zwei-Wochen-Vergleiche der Fallzahlen

Zwei-Wochen-Vergleiche der Fallzahlen

Bei diesen zwei Kennzahlen werden die Verschiebungen bei den Bundesländern nun am höchsten gewichtet. Nordrhein-Westfalen hat dank der Landkreise Gütersloh und dem benachbarten Warendorf prozentual stark zugelegt, ebenso Berlin, während bei Bayern und Niedersachsen die anteiligen Fallzahlen zurückgingen – was übrigens natürlich nicht zwingend heißen muss, dass auch die absoluten Fallzahlen abnehmen.

Der Comparator ist häufig einsetzbar und auffällige Unterschiede in der Verteilung zweier Kennzahlen werden durch die Art der Visualisierung leicht erkennbar.