Erfolgs- oder Ablehnungsquoten, die auf geringen absoluten Anzahlen beruhen, stören häufig bei der Analyse. Wie man dann bei der Auswertung am besten vorgeht, zeigen wir im heutigen Beitrag.
Ein fiktives Datenbeispiel aus dem Chemie-Sektor
Stellen wir uns einen produzierenden Betrieb aus der chemischen Industrie vor, der diverse Flüssigkeiten herstellt. Diese Flüssigkeiten besitzen Eigenschaften wie zum Beispiel Viskosität oder Dichte, für die Zielwerte existieren. Regelmäßige Kontrollen sollen sicherstellen, dass diese Zielwerte – mit einer gewissen tolerierten Abweichung – eingehalten werden.
Entweder wird die zugehörige Charge dann akzeptiert oder abgelehnt.
Der Betrieb verfolgt nun fortlaufend die Ablehnungsquoten bei den Kontrollen und möchte Produkte identifizieren, die zurzeit Schwierigkeiten bereiten. Eine Tabelle mit Produktgruppen und geprüften Eigenschaften hält die Anzahl der Kontrollen und die Ablehnungsquote mit der Historie der letzten Monate fest:
Bei der Generierung der fiktiven Namen der Produktgruppen hat mir ChatGPT geholfen; mit dem Prompt “erzeuge eine Liste von 20 Produktgruppennamen, die sich nach chemischen Erzeugnissen anhören, aber nicht existieren” wurden die Produktgruppennamen vorgeschlagen, ebenso hat mich ChatGPT bei den Eigenschaften mit der Antwort auf “nenne 10 Eigenschaften von chemischen Flüssigkeiten, die gemessen werden könnten, wie zum Beispiel Viskosität” unterstützt.
Die Produktgruppen lassen sich noch nach den Produkten aufklappen, wie bei den Zephyrolaten sichtbar.
Die Abteilung für Qualitätssicherung möchte nun Fragen wie die folgenden beantworten:
- Welche Produktgruppen bzw. Produkte haben allgemein die höchsten Ablehnungsquoten?
- Welche Eigenschaften haben die höchsten Ablehnungsquoten?
- Welche Produktgruppen-Eigenschaften-Kombinationen haben die höchsten Ablehnungsquoten?
Erwähnte Elemente sollen aber immer einer bestimmten vorgegebenen Anzahl von Kontrollen unterlegen haben. Ist dies nicht der Fall, sollen Elemente oder Elementkombinationen nicht genannt werden.
In unserer Business-Intelligence-Software DeltaMaster gibt es nun mehrere Ansätze, mit der Problematik umzugehen. Schauen wir sie uns der Reihe nach an!
Herausfiltern bei einer Dimension: Produktgruppen
Liegt nur eine Dimension wie beispielsweise die der Produktgruppen vor, können wir das Analyseverfahren Rangfolge wählen oder wie im Folgenden auch einfach beim Standardwerkzeug Grafische Tabelle bleiben. Wir gehen einmal über “Achse bearbeiten” zum Reiter Ranking und wählen über “Obere nach Anzahl” die Top 5 der Ablehnungsquoten aus – zunächst ohne aktivierte Filter:
Im August 2024 belegen dann die folgenden Produktgruppen die ersten 5 Plätze:
Nehmen wir nun an, dass der Betrieb nur Produktgruppen sehen möchte, die mindestens 50 Kontrollen aufzuweisen haben. Oben war im Screenshot schon der Reiter Filter zu sehen: Damit wir die Produkte mit weniger als 50 Kontrollen herausfiltern, erstellen wir die folgende Filterbedingung:
Mit diesem Filter bleiben nur noch die Produktgruppen mit mindestens 50 Kontrollen im Rennen, diejenigen mit weniger als 50 können wir demnach herausfiltern:
Wir sehen wieder 5 Produktgruppen und nicht 4, da zuerst der Filter greift und danach die Top 5 berechnet werden, nicht umgekehrt.
Herausfiltern bei einer Dimension: Eigenschaften
Analog gehen wir bei den Eigenschaften vor. Hier sortieren wir die geprüften Eigenschaften mit Hinblick auf Ablehnungsquoten absteigend:
Jede Eigenschaft wurde mindestens 230-mal geprüft, deshalb verzichten wir zunächst auf einen Filter für die Anzahlen.
Bis hierhin sollte die Vorgehensweise problemlos nachvollzogen werden. Etwas kniffliger mit der Filterung wird es, wenn in der Tabelle 2 oder mehr Dimensionen sichtbar sind.
Herausfiltern bei zwei Dimensionen: Auffällige Produkte mit getesteten Eigenschaften
Nehmen wir nun an, dass der Hersteller die Top 5 der auffälligen Produktgruppen nach Ablehnungsquote ermitteln möchte, und für jede dieser Produktgruppen wiederum die Top 3 der Eigenschaften, die Probleme bereitet haben.
Wir ziehen sowohl Produktgruppen als auch die Eigenschaften auf die Zeilenachse. Die Ranking-Option “Obere nach Anzahl” mit Anzahl 5 bezüglich Analysewert “Abgelehnt %” halten wir weiterhin aktiviert. In “Achse bearbeiten” der Dimension Eigenschaften stellen wir analoge Werte ein, nehmen aber als Anzahl 3:
Schauen wir nun auf die entstandene Grafische Tabelle und versuchen uns mit einer Interpretation des Gesehenen:
Zunächst halten wir fest, dass die angezeigten 5 Produkte mit denen aus der oben gezeigten 1-dimensionalen Top-5-Liste übereinstimmen:
Betrachten wir nun die Eigenschaften, so stellen wir erstens fest, dass nur drei verschiedene Eigenschaften Brechungsindex, pH-Wert und Leitfähigkeit auftauchen, und zweitens, dass die Quoten nicht immer absteigend sortiert sind. Dies ist bei Carbexium und den Polystyratiden der Fall. Vergleichen wir wieder die Tabelle mit der eindimensionalen Rangliste der absteigend nach Ablehnungsquote sortierten Eigenschaften:
Die sichtbaren drei Produktgruppen entsprechen den Top 3 der nach Ablehnungsquote absteigend sortierten Eigenschaften. Sie tauchen in der linken Seite auch immer in der Reihenfolge auf, die sich aus den Top 3 ergibt: Brechungsindex vor pH-Wert vor Leitfähigkeit.
Die Erklärung ist ganz einfach: In der Default-Einstellung werden Ranking-Optionen und Filter für jede Dimension einzeln betrachtet, also auf die 1-dimensionalen Tabellen angewendet. Die erhaltenen sortierten Mengen jeder Dimension werden erst danach kombiniert. Damit hier ein gesetzter Filter nach Anzahlen bei den Eigenschaften einen sichtbaren Effekt hat, müsste die Grenze mindestens bei 231 gesetzt werden, dann würden wir Leitfähigkeit herausfiltern und durch Löslichkeit ersetzen.
Veranschaulichung an Kreuztabelle
Der Filter wirkt somit nicht auf den Anzahlen der Kombinationen; deshalb sehen wir Anzahlen 29, 11, 6, … usw., die allesamt kleiner sind als die eingestellte Mindestanzahl von 50. Bevor wir die weiterführende Lösung in Form einer anzuklickenden Checkbox verraten, werfen wir noch einen Blick auf die Kreuztabelle, die sich ergibt, wenn wir die Eigenschaften von der Zeilenachse auf die Spaltenachse ziehen:
Wir haben die Elemente beider Achsen jeweils absteigend nach Ablehnungsquote sortiert (zum Vergleich siehe die eindimensionalen Tabellen), während Filter nach Anzahlen noch nicht aktiviert sind. Die relevanten Anzahlen für einen etwaigen Filter sehen wir hier als Randsummen: als Zeilensummen für die Produktgruppen und als Spaltensummen für die Eigenschaften.
Ein nun auf der Produktachse gesetzter Filter “Kontrollen Anzahl >= 50” sorgt für das Herausfiltern der Produkte Elastomexyl, Zephyrolate und Neurotactine. Ein analoger Filter “Kontrollen Anzahl >= 50” auf Eigenschaften bewirkt gar nichts, denn die Anzahlen in den Spaltensummen betragen ja bereits mindestens 230.
Aktivierte Ranking-Option
Verwenden wir nun auf beiden Achsen die Ranking-Option “Obere nach Anzahl”, mit Einstellung 5 bei den Produktgruppen und mit Einstellung 3 bei den Eigenschaften. Als Resultat bleiben die Elementkombinationen innerhalb des blauen Rahmens übrig. Nicht jede Produktgruppe wurde auf alle drei Eigenschaften geprüft. Die nun sichtbaren Zahlen haben wir bereits in der Grafischen Tabelle gesehen, bei der sich beide Dimensionen auf der Zeilenachse befanden:
Wenn wir die Zahlen im blauen Rahmen zeilenweise durchgehen, stimmen diese exakt mit den Zahlen aus der Spalte in der linken Tabelle überein.
Wir halten fest, dass nach Berücksichtigung des Filters “Kontrollen Anzahl >= 50” bei den Produktgruppen eine einzelne Kombination nicht über 50 liegen muss (hier ist die 67 die einzige Ausnahme), aber auch die Summe über die verbliebenen Eigenschaften muss diesen Wert für eine Produktgruppe nicht zwingend erreichen: Bei Velocitrene (40), Carbexium (19) und den Polystyratiden (31) liegen wir unterhalb der Grenze.
Richtig sind nur die folgenden Aussagen: Die hier sichtbaren Produktgruppen wurden insgesamt mindestens 50-mal kontrolliert. Wir sehen die Eigenschaften, die über alle Produktgruppen hinweg am schlechtesten abgeschnitten haben.
Man kann sich Konstellationen zurechtbiegen, dass die sichtbaren Produktgruppen bei den sichtbaren Eigenschaften im Gegenteil sogar wenig Probleme hatten:
Das Produkt A hat mit 85,7 % Ablehnungsquote viel mehr Probleme als Produkt B mit 8,3 %. Genauso liegt Viskosität mit 38,5 % vor Dichte mit 32,0 %. Also würden wir bei den jeweiligen Top-Elementen Produkt A der Viskosität gegenüberstellen, sähen dann aber nur 0 Probleme bei 3 Kontrollen.
Dass Produkt A im Falle von Dichte bei 24 von 25 Kontrollen durchgefallen ist, würde uns entgehen!
Hierarchien ineinander schachteln
DeltaMaster bietet nun eine Option an, die uns bei der geplanten Analyse einen großen Schritt weiterbringt: Über Achse bearbeiten aktivieren wir auf dem Reiter Optionen die Checkbox für Hierarchien ineinander schachteln:
Mit dieser Option wirken die Ranking- und Filteroptionen der inneren Dimension, gegeben die äußeren Dimensionselemente:
Mit dieser Einstellung werden wie vorher die Top-5-Produktgruppen mit besonders schlechter Gesamtablehnungsquote mit insgesamt mindestens 50 Kontrollen ausgewählt. Da hat sich im Vergleich zu vorher nichts verändert.
Nun sehen wir aber pro Produktgruppe die 3 individuellen Eigenschaften mit den höchsten Ablehnungsquoten.
Auch im konstruierten Beispiel hilft die Aktivierung der Checkbox:
Wir sehen nun bei Top 1 bei beiden Dimensionen die kritische Eigenschaft Dichte für Produkt A.
Berücksichtigung der Anzahlen pro Eigenschaft
Der einzige Sachverhalt, der uns nun noch stören könnte, sind Eigenschaften, die nur eine geringe Anzahl von Kontrollen aufweisen. Wir können nun einen Filter auf der inneren Dimension Eigenschaften setzen, aber welchen Mindestwert sollten wir nehmen?
Es folgen zwei Aussagen, die uns weiterhelfen könnten:
- Bei einer Gesamtmindestzahl von 50 Kontrollen gibt es bei 7 Eigenschaften mindestens eine mit einer Anzahl von 8 oder mehr.
- Bei einer Gesamtmindestzahl von 50 Kontrollen ist aber nicht notwendigerweise eine Eigenschaft dabei, die allein 9 oder mehr Kontrollen auf sich vereinigt.
Es folgt: Wenn wir eine Grenze oberhalb von 8 wählen, könnte es somit passieren, dass zwar die Gesamtzahl 50 erreicht oder übersteigt, aber trotzdem keine Eigenschaft angezeigt wird.
Wählen wir einmal für die Eigenschaften über “Achse bearbeiten” im Reiter Filter eine Grenze “Kontrollen Anzahl >= 20”. Wir erhalten die folgende verkürzte Tabelle:
Im Gegensatz zur Tabelle vorher sehen wir nun nur noch Kombinationen mit einer Anzahl von mindestens 20 Kontrollen. Bei ineinander verschachtelten Hierarchien wirkt der Filter nur noch auf die Fälle mit dem gegebenen Produktgruppenelement, und nicht – wie weiter oben beschrieben – auf die eindimensionale Tabelle der Eigenschaften. In dieser Hinsicht haben wir das gewünschte Ziel erreicht.
Allerdings ist die Produktgruppe Carbexium verschwunden, da sie zwar insgesamt mehr als 50 Kontrollen aufweisen konnte, aber in keiner einzigen Eigenschaft 20 oder mehr.
In dieser Hinsicht ist die Aufgabe, für die Produktgruppen mit einer Mindest-Gesamtanzahl von 50 und den höchsten Ablehnungsquoten die beitragenden Top-3-Elemente der Eigenschaften zu finden, dabei aber Mindestanzahlen von 20 einzuhalten, nicht immer sauber lösbar.
Lösungen für abgewandelte Aufgabenstellungen
Wir müssen also genauer spezifizieren, welche der Vorgaben uns wichtig sind. Betrachten wir zunächst offensichtliche Varianten, die uns nicht Elemente durch ausnahmsweise unerwünschte Filterung vorenthalten.
In einem ersten Ansatz könnten wir inneren und äußeren Filter aufeinander abstimmen. Soll die Mindestanzahl der Produktgruppen 50 und mehr betragen, setzen wir den inneren Filter auf 8, um sicherzustellen, dass auch mindestens ein Eigenschaften-Element pro Produktgruppe übrigbleibt.
In der linken Tabelle ist der innere Filter noch nicht aktiv. Durch das Aktivieren (rechte Tabelle) wird bei Carbexium der pH-Wert entfernt, Viskosität schließt die Lücke und Dichte rückt nach.
Mit diesem Ansatz haben wir sichergestellt, dass für Produktgruppen mit der Mindestanzahl 50 sicher die schlechtesten 5 (genauer: bis zu 5) Produktgruppen angezeigt werden, aber auch mindestens eine bis maximal drei konkrete Eigenschaften mit der Mindestanzahl 8.
Nehmen wir die 20 als inneren Filter, müssen wir den äußeren Filter auf 140 setzen:
Mit dieser Herangehensweise können wir garantieren, dass DeltaMaster für Produktgruppen mit der Mindestanzahl 140 von Kontrollen sicher die schlechtesten 5 Produktgruppen anzeigt, aber auch mindestens eine bis maximal drei konkrete Eigenschaften bei einer Mindestanzahl von 20 darstellt.
Ohne äußeres Ranking
Wir könnten auch die “Obere nach Anzahl”-Bedingung mit Anzahl = 5 entfernen und durch ein “absteigend sortiert” ersetzen, sodass wir prinzipiell erst einmal alle Produktgruppen betrachten. Den äußeren Filter deaktivieren wir vollständig, während wir den inneren Filter bei 20 belassen:
Nun haben wir erreicht, dass wir die Produktgruppen absteigend nach Gesamt-Ablehnungsquote sortieren können, diese in der Liste aber nur erscheinen, wenn sie mindestens eine Eigenschaft aufweisen, die mindestens 20-mal kontrolliert wurde.
Diese Liste mit Tabellenumbruch sortieren wir durch Klick auf den Spaltenkopf absteigend nach Ablehnungsquote:
Jetzt mussten wir zwar Eigenschaften bei gegebener Produktgruppe auseinanderreißen und über die Tabelle verteilen. Wir sehen Produkt-Eigenschaften-Kombinationen, absteigend sortiert nach Ablehnungsquote, mit einer Kontroll-Mindestanzahl von 20 – und das ohne jeglichen Einsatz von MDX.
Herausfiltern unter Einsatz von MDX
Kehren wir noch einmal zur ursprünglichen Aufgabe zurück, die 5 auffälligsten Produktgruppen mit einer Anzahl >= 50 zu finden und die drei jeweils auffälligsten Eigenschaften zu nennen, die mindestens 20-mal geprüft wurden. Wir haben oben gesehen, dass Carbexium unterdrückt wurde, da keine der Eigenschaften die 20er-Schranke erfüllen konnte.
Wir retten die Situation, indem wir nun immer die Gesamtablehnungsquote einblenden:
Es sind wieder die Top-5-Produktgruppen zu sehen, absteigend nach der Ablehnungsquote für “Alle Eigenschaften”, sofern die Anzahl der Kontrollen mindestens 50 beträgt. Die Werte für alle Eigenschaften sind immer sichtbar, die bis zu 3 konkreten Eigenschaften mit hohen Ablehnungsquoten aber nur, wenn die Mindestanzahl von 20 erfüllt ist. Bei Carbexium sehen wir nun wenigstens den Wert für “Alle Eigenschaften”.
Wie sind wir vorgegangen?
Die äußere Achse ist unverändert. Auf der inneren haben wir neben der Ebene Eigenschaften auch das All-Element aktiviert.
Wir definieren eine Hilfsgröße: Zunächst ist der Ausdruck [Eigenschaften].[Eigenschaften_].currentmember.level.ordinal auf dem All-Element 0 und auf der Ebene der Eigenschaften 1.
Zur Ablehnungsquote addieren wir den Term (1 – [Eigenschaften].[Eigenschaften_].currentmember.level.ordinal). Auf dem All-Element wird somit zur Ablehnungsquote eine 1 addiert, auf der Ebene der Eigenschaften eine 0. Damit erreichen wir, dass der Wert auf dem All-Element über 1 liegt und hier am größten ist, aber ansonsten auf der Ebene der konkreten Eigenschaften der Ablehnungsquote entspricht.
Bei Obere nach Anzahl wählen wir nun 4 anstatt 3 und als Sortierkriterium verwenden wir unsere Hilfsgröße. Alle Eigenschaften wird somit immer als erstes Element angezeigt, auch wenn die Ablehnungsquote geringer sein sollte als bei der schlechtesten Eigenschaft.
Da das All-Element mindestens eine Anzahl von 50 aufweist und somit sicher über den 20 liegt, wird es auf jeden Fall angezeigt. Dann folgen absteigend sortiert die Eigenschaften, sofern sie die 20 erreichen oder übertreffen.
Weitere geeignete Analysemodule zum Herausfiltern
Mit PowerSearch lassen sich Kombinationen gut sortieren und filtern. Es fehlt aber im Vergleich zu den ineinander geschachtelten Hierarchien das sequenzielle Vorgehen.
Hier definiere ich über MDX eine Kennzahl Grenze, die bei konkreten Eigenschaften in Verbindung mit einer Produktgruppe bei 20 liegt und bei einer reinen Produktgruppe bei 50. Dabei lasse ich Kombinationen von Produktgruppen und Eigenschaften als auch reine Produktgruppen zu.
Da eine Filtereinstellung pro Filter nur einen Analysewert erlaubt, bilde ich in einer Hilfskennzahl die Differenz zwischen Anzahl Kontrollen und der Grenze. Nur wenn diese Differenz >= 0 ist, erfolgt die Anzeige.
Es werden nun die Produktgruppen-Eigenschaften-Kombinationen wie in der oben dargestellten Grafischen Tabelle aus dem Abschnitt “Ohne äußeres Ranking” angezeigt, aber auch die einzelnen Produktgruppen. Zum Beispiel ist Carbexium in dieser Liste – im Gegensatz zur Grafischen Tabelle – auf Platz 16 sichtbar.
So lassen sich sehr kompakt die wichtigsten Informationen unterbringen, allerdings nicht getrennt nach Produktgruppen.
Multiples
Mit Multiples lässt sich eine Darstellung erreichen, die die Problemstellung zu 100 % berücksichtigt und gleichzeitig übersichtlich bleibt:
Die oberen zwei Drittel des Bildschirms werden durch drei Berichte eingenommen, bei denen die Mindestanzahlen erfüllt sind: Produktgruppen haben 50 oder mehr Kontrollen, Eigenschaften entsprechend 20 oder mehr Kontrollen und konkrete Produkte (Top 3) ebenfalls 20 oder mehr Kontrollen. Im unteren Bereich gibt es Kopien, bei denen man jeweils unter den Grenzwerten liegt.
Die Berichte zeigen anfangs die Gesamtresultate der Produktgruppen und Eigenschaften und die besonders auffälligen Produkte.
Mittels Cross-Filterung (Strg + Mausklick auf ein Zahlenfeld) wird das zugehörige Element in die Filter der übrigen Berichte übertragen. Hier sind die Berichte so konzipiert, dass eine Produktgruppe ausgewählt werden soll, das heißt, die linken 2 Berichte dienen zur Steuerung, die 4 Berichte rechts zeigen angepasste Ergebnisse.
Analysewerte könnten auch übertragen werden. Dazu dürfen die Zielberichte nur einen Analysewert auf den Achsen aufweisen, was hier aber nicht der Fall ist.
Cross-Filterung – Beispiele
Klicken wir einmal auf die schlimmsten 35,0 % bei Velocitrene:
Bei sämtlichen Berichten wird nun die Produktgruppe Velocitrene im Filter eingestellt.
Konzentrieren wir uns auf den oberen Bereich, wissen wir bei allen sichtbaren Größen, dass die Mindestanforderungen an die Anzahl erfüllt sind. Viskosität und Brechungsindex machen hier die größten Probleme. Beim Brechungsindex erkennen wir, dass er in den letzten Monaten nicht oder kaum kontrolliert wurde – es wurde Zeit! Rechts sehen wir die auffälligsten Produkte. Wir könnten auch noch einen Bericht anlegen, der Produkte und Eigenschaften kombiniert.
Wenn wir wollen, aber auch nur dann, können wir in den unteren Bereich schauen und einen Blick auf die Eigenschaften und Produkte mit geringen Kontrollanzahlen werfen. Der Bericht links unten ist nun leer, da ja für Velocitrene 103, also mehr als 50 Kontrollen vorlagen.
Klicken wir zum Abschluss auf die 33,3 % von Carbexium (bei gedrückter Strg-Taste):
Wie wir bereits weiter oben festgestellt haben, weist keine Eigenschaft die Mindestanzahl von 20 auf. Es gibt auch nur ein Produkt über der Schwelle. Wenn wir nun den Blick nach unten schwenken, wissen wir bereits, dass hier bei den Kontrollen nur geringe Anzahlen vorlagen.
Möchten wir wieder die Gesamtansicht sehen, müssen wir mit einem weiteren Strg + Mausklick die orangefarbene Markierung wieder aufheben.