Grünes Licht für mehrdimensionales Ranking mit TM1

Für Auswertungen benötigen wir oft mehrdimensionale Rankings. Eine typische Anforderung aus dem Logistikbereich wäre beispielsweise, die Top-10 Strecken mit der größten Transportmenge zu identifizieren. Hierzu müssen alle Kombinationen aus Verlade- und Entladestationen im Sinne einer Transportmatrix ermittelt und in eine Rangfolge gebracht werden. In DeltaMaster findet sich das Analysemodul PowerSearch, das genau für derartige Auswertungen gemacht ist. Heißt die zugrunde liegende Datenbank aber TM1, dann währt die Freude über den vorhandenen Standard nicht lange. Denn bereits ab einer kleinen Datendosis lässt PowerSearch auf sich warten und dem TM1 Server geht die Puste aus. Was im SQL-Server-Umfeld gängige Praxis ist, wird bei TM1 plötzlich zum Problem. Worin liegt die Ursache? Lässt es sich beheben? Die Antwort finden Sie in folgendem Beitrag.

Ursachenforschung

DeltaMaster generiert MDX-Statements, die über die OLEDB-Schnittstelle an den TM/1 Server geschickt werden. Leider unterstützt diese nicht alle MDX-Funktionen, die wir aus der Microsoftwelt kennen. Besonders schmerzlich vermissen wir die NonEmptyCrossjoin-Funktion, mit der Objektkombinationen aus mehreren Dimensionen performant ermittelt werden. Für die Performance sorgt die NonEmpty-Bedingung: durch sie werden leere Tupel und Tupel ohne zugeordnete Daten einer Faktentabelle ausgeschlossen.

Um das Fehlen der NonEmptyCrossjoin-Funktion zu kompensieren, generiert PowerSearch eine MDX-Abfrage unter Verwendung eines „einfachen“ Crossjoin in Kombination mit Filter-Funktionen. Der Crossjoin führt eine Mengenoperation aus, die das Kreuzprodukt zweier Mengen zurückgibt. Durch die zusätzlichen Filter werden nur diejenigen Member aus den zu kombinierenden Dimensionen in den Crossjoin übergeben, die eine im Filter verankerte Bedingung erfüllen. In aller Regel wird geprüft, ob ein Member im Hinblick auf die zu analysierende Kennzahl einen Wert ungleich 0 besitzt. Durch das Filtern leerer Member aus den Mengen reduziert sich auch der Umfang des Kreuzproduktes, das mit dem Crossjoin aus eben diesen Mengen generiert wird:

CROSSJOIN(

           Filter({DIM_1.members}, [filtermeasure] <> 0),
           Filter({DIM_2.members}, [filtermeasure] <> 0)

)

Ein Crossjoin mit Filter-Funktionen arbeitet jedoch viel langsamer als ein NonEmptyCrossjoin, weswegen dieses Abfragekonstrukt schnell zu Performanceproblemen führt. Ein entscheidender Grund hierfür ist, dass im Vergleich zur NonEmptyCrossjoin-Funktion keine Tupel, sondern nur die Elemente der jeweiligen Dimensionen unabhängig voneinander auf Werte geprüft werden. Dies bereinigt zwar die jeweiligen Mengen um leere Elemente, nicht aber das Kreuzprodukt um leere Tupel. Letztere sind zu allem Überfluss meist sehr zahlreich vorhanden. Denn – um bei unserem Beispiel zu bleiben – nicht jede Verladestation liefert zu jeder Entladestation.

Lösung

Wir müssen uns daher einer MDX-Funktion bedienen, mit der sich die Größe der Objektmengen für den Crossjoin noch effektiver einschränken lässt. Bevor wir unsere Wahl treffen sind diesbezüglich einige Hypothesen anzustellen. Bleiben wir beim Beispiel der Transportstrecken. Angenommen es gäbe je 5000 Start und Zielpunkte, dann wäre zu vermuten, dass sich die 10 größten Strecken mit relativ hoher Wahrscheinlichkeit zwischen den 500 größten (TopCount500) Verlade- und den 500 größten Entladestationen befinden. Somit würden wir bei der Berechnung des Kreuzproduktes keine 5.000 * 5.000 = 25.000.000 Tupel ermitteln, sondern lediglich 500 * 500 = 25.000. Das ist ein Anteil von nur 1% gegenüber der Größe des ursprünglichen Kreuzproduktes. Wir haben mit dem TopCount einen riesigen Hebel, um die Anzahl der Berechnungen zu reduzieren und so die Performance des Crossjoin zu verbessern:

TopCount(
          CROSSJOIN(
               TopCount({DIM_1.members}, 500, [Menge]),
               TopCount({DIM_2.members}, 500, [Menge])),
          10,
          [Menge]
)

Die Herausforderung bei dieser Vorgehensweise liegt in der Wahl der „richtigen“ Anzahl zu betrachtender Objekte im TopCount.

Kritische Anmerkung

Der Performancegewinn beim mehrdimensionalen Ranking, der durch die oben beschriebene Vorgehensweise erzielt wird, spricht für sich. Allerdings besteht immer die Gefahr, dass durch das radikale Streichen von Objekten vereinzelte Sonderfälle unberücksichtigt bleiben. Hierzu ein Beispiel: Große Verladestationen liefern stets kleine Mengen an viele andere für sich betrachtet große Entladestationen. Die Strecken sind zahlreich, die transportierten Mengen aber eher klein. Daneben gibt es noch eine kleine Station A (an Position 600 im TopCount nach Menge). Diese liefert ausschließlich an eine andere kleine Station B, die auch nur von Station A beliefert wird. Somit wird eine vergleichsweise große Menge auf einer Strecke zwischen 2 vergleichsweise kleinen Stationen transportiert. Würde eine dieser Stationen durch das Raster des TopCount fallen, so würde auch die gesamte Strecke (als Tupel aus Station A und B) nicht berücksichtigt.

Daher empfiehlt es sich stets, die Einstellung des TopCounts in Abstimmung mit dem Experten auf Kundeseite zu justieren und zahlreiche Tests durchzuführen. So lange, bis die hoffentlich richtige Einstellung getroffen ist.

Ausblick

Im obigen Beispiel der Transportstrecken sind wir immer von einem Crossjoin zweier Dimensionen ausgegangen. Selbstverständlich lässt sich unser TopCount-Turbo-Kniff auf die gleich Weise auch auf eine höhere Anzahl zu kombinierender Dimensionen anwenden. Hierbei ist zu beachten, dass sich in TM1 nicht mehr als 2 Dimensionen in einer Crossjoin-Funktion verwenden lassen. Bei der Berechnung des Kreuzproduktes aus mehr als 2 Dimensionen müssen stattdessen mehrere Crossjoins wie folgt ineinander geschachtelt werden:

TopCount(
          CROSSJOIN(
                    TopCount({DIM_1.members}, 500, [Menge]),
                    CROSSJOIN(
                               TopCount({DIM_2.members}, 500, [Menge]),
                               TopCount({DIM_3.members}, 500, [Menge]))
                   ),
          10,
          [Menge]
         )

Freitag, 24. August 2012

Veranstaltungs-Tipp

Meet the Experts 15. Juli 2025 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Meet the Experts 23. Juli 2025 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Meet the Experts 29. Juli 2025 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

Über den Autor

Consulting

Die Bissantz-Consultants teilen ihr Wissen rund um Data-Warehouse-Projekte und Business-Intelligence-Lösungen – jede Woche ein neuer Beitrag. Auf die Würfel, fertig, los!

Letzte Blogartikel

Forschung Weinmost - Erntemengen und Erträge pro Hektar

Weinmost bildet die Grundlage für die in Deutschland kulturrelevanten Rot- und Weißweine. Wir nutzen DeltaMaster 6, um Auffälligkeiten bei [...]

mehr erfahren

Forschung Bundesliga-Tabelle 2024/25

Die Bundesliga-Tabelle nach Abschluss der Saison 2024/25 zeigt das altvertraute Bild: Der FC Bayern München liegt vorn! Was steckt wirklich [...]

mehr erfahren

Forschung Bevölkerungsbestand in Nürnberg

Den Bevölkerungsbestand einer Stadt können wir aus verschiedenen Blickwinkeln analysieren. Häufig variieren in den Stadtteilen Altersverteilung [...]

mehr erfahren

Forschung Kaltmieten in Deutschland

Kaltmieten bzw. Mieten im Allgemeinen sind in den letzten Jahren stetig gestiegen und stellen für viele Mieter den größten Posten der monatlichen [...]

mehr erfahren

Data Warehousing Unternehmensplanung und -konsolidierung auf Basis der Bissantz ERP Solutions

Dieser Beitrag erläutert, wie sich Prozesse der integrierten Unternehmensplanung und der Unternehmenskonsolidierung strukturiert gestalten [...]

mehr erfahren

Forschung Achsenelemente als Filter an Zielbericht zuweisen

Achsenelemente können mit dem neuesten Release von DeltaMaster in ihrer Gesamtheit als Filter an einen Zielbericht zugewiesen werden. Wir erklären [...]

mehr erfahren

Forschung Leistungsausgaben der gesetzlichen Krankenversicherung

Die Leistungsausgaben der gesetzlichen Krankenkassen steigen von Jahr zu Jahr. Als Folge haben im Januar 2025 etliche Krankenkassen erneut die [...]

mehr erfahren

Data Warehousing Partitionierung von Bewegungsdaten

Die Aktualisierung von Bewegungsdaten nimmt während der täglichen Aufbereitung einer SQL-Datenbank in der Regel den Großteil der benötigten [...]

mehr erfahren

Forschung Analyse von Verteilungen

Die Beschreibung von Verteilungen geht oft über die Angabe von Mittelwert und Standardabweichung hinaus. Wir erläutern, was sich bei den hierfür [...]

mehr erfahren

Data Warehousing Arbeitstagkalender

Zur Berechnung von Kennzahlen, die von der genauen Anzahl der Arbeitstage abhängen, ist es notwendig, diese im Modell korrekt abzubilden. Die [...]

mehr erfahren

Vorheriger Artikel

Deckungsbeitragsflussrechnung

Nächster Artikel

Solve_Order in MDX

Grünes Licht für mehrdimensionales Ranking mit TM1

Ursachenforschung

Lösung

Kritische Anmerkung

Ausblick

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Data Warehousing.

Nicolas Bissantz

Diagramme im Management