CiAgICA8IS0tIExpbmtlZEluIC0tPgogICAgPHNjcmlwdCB0eXBlPSJ0ZXh0L2phdmFzY3JpcHQiPgogICAgICAgIF9saW5rZWRpbl9wYXJ0bmVyX2lkID0gIjEyMzUwNzMiOwogICAgICAgIHdpbmRvdy5fbGlua2VkaW5fZGF0YV9wYXJ0bmVyX2lkcyA9IHdpbmRvdy5fbGlua2VkaW5fZGF0YV9wYXJ0bmVyX2lkcyB8fCBbXTsKICAgICAgICB3aW5kb3cuX2xpbmtlZGluX2RhdGFfcGFydG5lcl9pZHMucHVzaChfbGlua2VkaW5fcGFydG5lcl9pZCk7CiAgICA8L3NjcmlwdD48c2NyaXB0IHR5cGU9InRleHQvamF2YXNjcmlwdCI+CiAgICAgICAgKGZ1bmN0aW9uKCl7dmFyIHMgPSBkb2N1bWVudC5nZXRFbGVtZW50c0J5VGFnTmFtZSgic2NyaXB0IilbMF07CiAgICAgICAgICAgIHZhciBiID0gZG9jdW1lbnQuY3JlYXRlRWxlbWVudCgic2NyaXB0Iik7CiAgICAgICAgICAgIGIudHlwZSA9ICJ0ZXh0L2phdmFzY3JpcHQiO2IuYXN5bmMgPSB0cnVlOwogICAgICAgICAgICBiLnNyYyA9ICJodHRwczovL3NuYXAubGljZG4uY29tL2xpLmxtcy1hbmFseXRpY3MvaW5zaWdodC5taW4uanMiOwogICAgICAgICAgICBzLnBhcmVudE5vZGUuaW5zZXJ0QmVmb3JlKGIsIHMpO30pKCk7CiAgICA8L3NjcmlwdD4KICAgIDxub3NjcmlwdD4KICAgICAgICA8aW1nIGhlaWdodD0iMSIgd2lkdGg9IjEiIHN0eWxlPSJkaXNwbGF5Om5vbmU7IiBhbHQ9IiIgc3JjPSJodHRwczovL3B4LmFkcy5saW5rZWRpbi5jb20vY29sbGVjdC8/cGlkPTEyMzUwNzMmZm10PWdpZiIgLz4KICAgIDwvbm9zY3JpcHQ+CiAgICA8IS0tIEVuZCBMaW5rZWRJbiAtLT4KICAgIA==
Generic filters
Exact matches only
Search in title
Search in excerpt
Search in content

Warenkorbanalyse: DeltaMaster-Assoziationsanalyse

Bier und Windeln – wer kennt sie nicht, die in der Business-Intelligence-Community oft zitierte und beinahe ebenso oft für unwahr erklärte Legende aus einem Projekt beim US-amerikanischen Handelsfilialriesen Walmart in den Kindertagen des Data Warehousing? Demnach begab es sich, dass die Datenanalysten dort während einer Sonderpreisaktion für eine bestimmte Sorte Babywindeln auffällige Kaufmuster entdeckten, denn eine zufällig (oder nicht?) in der Nähe dieser Windeln platzierte Sorte Bier war häufig auf denselben Bons zu finden – und das, Bonuskarten und der resultierenden persönlichen Identifizierungsmöglichkeit sei Dank, auch noch vornehmlich bei männlichen Kunden bestimmten Alters und Familienstandes…

Wie viel wahrer Kern auch immer an dieser Geschichte sein mag – eine Wunschvorstellung jedes Verkäufers oder Produzenten ist und bleibt die Fähigkeit, Kundenverhaltensmuster auf der Basis verfügbarer Vergangenheitsdaten auf andere Kunden(-gruppen) übertragen oder gar voraussagen zu können. Ob für zielgruppengerechtes Marketing, zur Angleichung des Sortiments oder aus anderen Erwägungen, Datenmustererkennung ist eine der faszinierendsten Facetten innerhalb der Business Intelligence – und vor allem kann hier im Gegensatz zum oft rein in die Vergangenheit gerichteten Standardreporting ein konkreter Nutzen für künftiges Handeln gestiftet werden.

Es gibt viele Abhandlungen über Warenkorbanalyse, von denen die allermeisten jedoch entweder eher vertrieblicher Natur oder aber zu akademisch sind. In diesem Artikel liegt der Fokus daher auf der konkreten Anwendung innerhalb DeltaMaster. Bissantz-Kunden, Mitarbeiter und Businesspartner können und sollten dazu die im Modus Miner Expert integrierte Assoziationsanalyse nutzen. Die Nutzungsmöglichkeiten sind vielfältig, und Bedienung und Ergebnisinterpretation sind bei weitem nicht so komplex wie weithin erwartet.

Einsatzgebiete

Die klassische Warenkorbanalyse entspricht dem obigen Beispiel bei Wal-Mart: “Wenn Produkt A gekauft wurde, wurde auch Produkt B gekauft”. Abstrahiert betrachtet werden hier also Fälle (technisch: Datensätze einer relationalen Datenbank) anhand zweier Kriterien analysiert: eine „Elementmenge“ und die enthaltenen „Elemente“. Konkret: Der „Warenkorb“ in typischen Vertriebsanwendungen ist eine Bestell- oder Rechnungsnummer, darin enthalten sind meist mehrere Positionen, also die gekauften Artikel. Die Elementmenge bzw. die Bestell-/Rechnungsnummer ist das Gruppierungskriterium und bildet die Anzahl der zu untersuchenden Fälle. Die Strukturen dieser Fälle, z.B. die in den Bestellungen/Rechnungen enthaltenen Produktnummern, werden mit Hilfe bedingter Wahrscheinlichkeiten verglichen. So entstehen im Ergebnis Aussagen wie oben beschrieben.

Dem DeltaMaster-Paradigma der generischen Implementierung von Analyseverfahren folgend kann die Assoziationsanalyse aber weit mehr. Durch wenige einfache „Spielregeln“ ist eine enorme Flexibilisierung für vielfältige Anwendungen möglich:

  • Die Auswahl der „Elemente“ ist nicht auf eine einzige Spalte beschränkt. So können z.B. neben Produkten auch Kunden oder die Vertriebsorganisation einbezogen werden, und es wird nicht nur innerhalb der einzelnen Spalten („Wenn Produkt A, dann Produkt B“), sondern auch spaltenübergreifend („Wenn Kundengruppe 1, dann Vertriebskanal 2“) analysiert.
  • Die „Elemente“ müssen nicht aus der Faktentabelle gewählt werden. Stattdessen können alle im Star-/Snowflake-Schema verbundenen Dimensionstabellen genutzt werden. Aussagen sind also nicht nur auf Einzelproduktebene, sondern auch hinsichtlich beliebiger Aggregationsebenen und/oder Attribute (und deren Kombination, siehe oben) möglich. OLAP-Modellierungsdetails wie beispielsweise die Implementierung von Eigenschaften als Dimension oder Attribut spielen folglich ebenfalls keine Rolle.
  • Die gewählte „Elementmenge“ muss nicht zwingend eine Rechnungsnummer sein. Wird stattdessen beispielsweise eine Kundennummer gewählt, ist die Arbeitsweise des Verfahrens in etwa zu verstehen wie bei der bekannten Amazon-Empfehlung: „Kunden, die dieses Produkt kauften, kauften auch…:“.
  • Als „Elementmenge“ ist auch eine Mehrfachauswahl erlaubt. Im Ergebnis entsteht nichts anderes als ein Surrogatschlüssel. Auch wenn keine Bon-/Rechnungsnummer verfügbar ist, können also z.B. bei einem Handelsfilialisten durch die Kombination aus Tag, Kundennummer und Filial-ID je nach Struktur der Rohdaten exakt oder zumindest näherungsweise identische Ergebnisse erzielt werden wie im klassischen Warenkorbszenario – und das ohne vorherige Anreicherung des relationalen Rohdatenmaterials!

Bedienung und Parametrierung in Kurzform

Elementmenge/Warenkorb

  • klassisch: Bon-/Bestell-/Rechnungsnummer (NICHT Positionsnummer!)
  • alternativ: Kundennummer
  • Multiselektion: z.B. Kombination Tag-Kunde-Filiale; Wirkung wie Surrogatschlüssel

Elemente

  • einfachster Fall: ID-Spalte aus Faktentabelle
  • Erweiterung: ID oder BEZ aus direkt verbundener Dimensionstabelle
  • Erweiterung: ID oder BEZ höherer Ebene in indirekt verbundener Dimensionstabelle
  • Erweiterung: IDs/BEZ aus mehreren Dimensionen

Einstellungen

Großen Einfluss auf Rechenzeit und Ergebnis haben:

  • Häufigkeit AuB

Mindestanteil der Fälle, in denen Bedingung und Konsequenz zusammen auftreten
(Default 3%; je geringer, desto mehr Ergebnisse)

  • Ergebnis beschränken auf n Itemsets

Ein Itemset ist die Vereinigung aller Produkte einer Regel (also Wenn und Dann). Es werden nur die n am häufigsten auftretenden Itemsets betrachtet.

(Default aus; je geringer, desto weniger Ergebnisse)

  • Ergebnis beschränken auf n-Tupel

Es werden nur Regeln angezeigt, deren Itemsets höchstens n Elemente enthalten. Eine Regel wie „Wenn Chips und Dips, dann Cola“ wird deshalb nur für n>=3 angezeigt.

(Default aus; je geringer, desto weniger Ergebnisse)

Allgemeines

Selbstverständlich ist die Assoziationsanalyse genauso sichtsensitiv wie alle anderen DeltaMaster-Analyseverfahren. Die obigen Einstellungen wirken also beispielsweise in Kombination mit der Auswahl eines Jahres in der Zeitdimension nach der Logik „Kunden, die innerhalb eines Jahres x kauften, kauften auch y“.

Ergebnisse und Interpretation

Die Ansicht „Log“ zeigt während und nach der Berechnung folgende Informationen:

  • Gelesene Datensätze

Zeilen in der Faktentabelle unterhalb der aktuellen Sicht

  • Anzahl gefundene Warenkörbe

eindeutige Kombinationen aus den gewählten Elementmengen (entspricht GROUP BY über die selektierten Felder in der Faktentabelle)

  • Elemente / Candidate ItemsetsElemente(-kombinationen) der gewählten Dimension(en)

Die Ansicht „Regeln“ weist das eigentliche Analyseergebnis aus:

  • Wenn (A) / Dann (B)

Diese beiden Spalten zeigen die Itemsets bzw. Tupel für Bedingung und Konsequenz: wenn A, dann B; wenn A und B, dann C etc.

  • Abhängige Wahrscheinlichkeit (Konfidenz)

Sortierkriterium der Ergebnisliste: Die Wahrscheinlichkeit für den Eintritt der Konsequenz (B), wenn die Bedingung (A) erfüllt ist: wenn Bier, dann zu x% Windeln…

  • Regeltyp

Systematisch sicher bedeutet bidirektional (A->B und B->A), sicher unidirektional (A->B) 100% abhängige Wahrscheinlichkeit.

  • Häufigkeit (Support, Reichweite)

Die Wahrscheinlichkeit für das gemeinsame Auftreten von A und B.

  • Lift

Faktor, um den das gemeinsame Eintreffen von A und B über der erwarteten Häufigkeit bei fehlendem Zusammenhang beider Produkte liegt.

  • Relatives Risiko

Faktor, um den die relative Häufigkeit von „B-wenn-A“ die relative Häufigkeit von „B-wenn-nicht-A“ übersteigt: „Chips-dann-Dips“ ist für 60% der Fälle eingetreten, „Keine-Chips-dann-Dips“ traf nur in 20% zu, demzufolge ist der Faktor 3.

Zum Schluss…

Die DeltaMaster-Assoziationsanalyse ist ein rein relationales Verfahren, funktioniert also auf einem OLAP-Cube mit relationaler Anbindung, aber auch in einer reinen SQL-Anwendung ohne Datenwürfel. Tests und Demonstrationen sind also selbst in Ad-hoc-Situationen möglich.

Dieser Artikel verzichtet bewusst weitgehend auf plakative Screenshots. Auch wurden absichtlich nicht alle Einstellungen und Ergebnisfelder beschrieben, um Übersichtlichkeit und Verdaulichkeit für den Einstieg zu wahren. Sämtliche Detailfeatures sind im DeltaMaster-Handbuch sowie in einem separaten Whitepaper beschrieben. Probieren Sie einige der obigen grundlegenden Vorgehensalternativen einfach einmal auf Ihren aktuellen Datenmodellen aus – der Weg ist nicht so weit, steil und steinig wie mitunter befürchtet, und die Ergebnisse können spektakulär sein. Viel Erfolg!