SUM-Where OVER the rainbow

Bereits 2007 haben wir uns in einem Blogbeitrag Gedanken gemacht, wie lange OLAP-Datenbanken wohl noch überleben werden. Im Zeitalter des DeltaMaster ImportWizzard kommt man auch tatsächlich ab und an ins Grübeln, wozu man diese Form der Datenbanken überhaupt noch benötigt. Bei genauer Betrachtung findet man aber schnell zahlreiche Gründe, warum wir immer noch lieber Würfel als Tabellen bauen. Neben dem deutlich schnelleren Aggregationsverhalten einer multidimensionalen Datenbank zählt auch die MDX-Zeitintelligenz nach wie vor zu den Pluspunkten. Relational Kumulieren beispielsweise erzeugt bei einem T-SQL-Programmierer nach wie vor ein flaues Gefühl in der Magengegend.

2012 ist jetzt auch Microsoft auf die Idee gekommen und sagt ihrer eigenen OLAP-Datenbank den Kampf an. Mit dem neuen „Tabular Mode“ und der Abfragesprache DAX des SQL Servers 2012 gibt Microsoft ein deutliches Statement für relationale Datenbanken ab. Im Zuge dessen wurden auch Implementierungslücken bereits existierender T-SQL-Befehle behoben, so dass künftig eine relationale Kumulation einem Programmierer nur noch ein müdes Lächeln ins Gesicht zaubern wird.

Wenn Sie wissen wollen wie, dann folgen Sie mir einfach auf dem Weg zum Ende des Regenbogens…

Eigentlich ein alter Hut

Mit der SQL-Server-Version 2005 hat Microsoft einen Befehl eingeführt, der zu dem Zeitpunkt aber meiner Meinung nach noch nicht komplett fertig programmiert war. Die Rede ist hier von der OVER-Klausel. Ein Blick in das Microsoft Developer Network der zugehörigen Version erklärt auch klar den Zweck der Funktion. Dort heißt es:

„Bestimmt die Partitionierung und Reihenfolge des Rowsets vor der Anwendung der zugehörigen Fensterfunktion.“

Klar, oder…

Tatsächlich werden die in Zusammenhang mit OVER angewendeten Funktionen im Englischen „Window functions“ genannt. Allerdings hilft auch dies nicht sonderlich zum Verständnis des Befehls.

In der Sprachreferenz des SQL Servers 2012 hat man ein paar Zeilen mehr spendiert, die schon ein wenig mehr erahnen lassen:

„Bestimmt die Partitionierung und Reihenfolge eines Rowsets vor der Anwendung der zugehörigen Fensterfunktion. Demnach definiert die OVER-Klausel ein Fenster oder eine benutzerdefinierte Reihe von Zeilen innerhalb eines Abfrageresultsets. Eine Fensterfunktion berechnet dann einen Wert für jede Zeile im Fenster. Sie können die OVER-Klausel mit Funktionen verwenden, um aggregierte Werte wie gleitende Durchschnitte, kumulierte Aggregate, laufende Gesamtbeträge oder Ergebnisse vom Typ “Erste n pro Gruppe” berechnen.“

Der entscheidende Teil ist „…ein Fenster… von Zeilen innerhalb des Abfrageresultsets…“. Es geht also tatsächlich um Fenster im wortwörtlichen Sinne. Man kann mit der Funktion Fenster in seinem Abfrageergebnis definieren und auf diese Fenster wiederum Aggregatfunktionen anwenden. Klingt immer noch abstrakt, wir haben da mal etwas vorbereitet.

Regenbogenstreifen Nummer 1 – x

Zunächst legen wir uns in einer neuen Datenbank mal eine Tabelle an und füllen diese mit Umsatzdaten. Folgendes Skript sollte Ihnen die Arbeit etwas erleichtern:

Die erste Anwendung, die mir beim SQL Server 2005 damals im Zusammenhang mit OVER untergekommen ist, war die Möglichkeit jetzt endlich auch im SQL Server Zeilennummern in einer Abfrage generieren zu können. Eine kleine Sensation – die Oracle-Fangemeinde war schockiert…

Um alle Zeilen in unserer Tabelle durchzunummerieren, benötigt man folgende Abfrage:

Das großartige Ergebnis sieht folgendermaßen aus:

Die Zeilen werden also komplett durchnummeriert und nach dem Kriterium, welches hinter der OVER-Klausel in den Klammern mit ORDER BY definiert wurde, sortiert. ORDER BY kann dabei wie gewohnt angewendet werden und ein oder mehrere Spalten, sowie eine Sortierrichtung (ASC oder DESC) enthalten.

Wo ist jetzt aber das Fenster, werden Sie vermutlich einwenden?

Stimmt, noch gibt es keines.

Für die Definition der Fenster muss man den Befehl in den Klammern erweitern. Die Arbeit erledigt hier PARTITION BY. Damit kann man quasi die Fenster angeben, nach denen die Funktion neu rechnen soll. Ich teile also meine Abfrage in verschiedene Unterfenster. Im obigen Beispiel lassen wir uns jetzt mal zusätzlich die Zeilennummern innerhalb der jeweiligen Kundennummer ausgeben:

Ergebnis:

Das ist doch schon mal ziemlich hilfreich, wenn es um segmentspezifische Auswertungen geht und bildet auch tatsächlich die Grundlage für eine spätere Kumulation. Wir können irgendwie die Zähler zurückstellen (zum Beispiel an der Jahresgrenze) und können zeilenweise etwas zählen.

Soweit so gut.

Alle Streifen zusammen

Der fehlende Baustein ist jetzt das Summieren von gewissen Kennzahlen und tatsächlich ist in der Dokumentation im Zusammenhang mit der OVER-Klausel von Aggregatfunktionen die Rede.

Und tatsächlich – prüft man die Hilfe der Aggregatfunktionen wird dies bestätigt:

„Die OVER-Klausel kann auf alle Aggregatfunktionen außer CHECKSUM folgen.“

Das hieße für unser Beispiel, dass wir ROW_NUMBER() durch SUM() ersetzen können und hier selbstverständlich eine andere Spalte zum Summieren angeben können. Wir würden in unserem Beispiel den Umsatz verwenden.

Tja, doch leider weit gefehlt, führt man genau diese Ersetzung durch, behaupten alle SQL Server Versionen bis 2008R2, wir hätten einen Syntax-Fehler in unserer Abfrage.

Die einzige Variante, die bis zu diesen Versionen unterstützt wird, ist das Errechnen von Teilaggregaten, hier also Teilsummen. Dies kann man erzielen, indem man einfach den ORDER BY Teil der Abfrage weglässt und nur den PARTITION BY Teil anwendet. Das hilft auch schon weiter, um relationale Monatsanteile zu errechnen, beispielsweise für Verteilungsrechnungen. Hier spart man sich umfangreiche Unterabfragen. Im Folgenden ein paar Beispiele, um Zwischensummen zu errechnen:

Ergebnis:

Die erste Zwischensumme zeigt dabei die Summe pro Kunde und Produkt und gibt damit für jede Kunde-Produkt-Kombination eine andere Summe aus. Die zweite Summe zeigt die Summe pro Produkt und gibt damit nur zwei unterschiedliche Summen aus. Die letzte Variante ganz ohne PARTITION BY zeigt die komplette Tabellensumme.

Das Ende des Regenbogens

Der Trick, um eine echte, zeilenweise Kumulation zu erreichen, ist tatsächlich nur der Wechsel auf die SQL-Server-Version 2012. Kopiert man dort unsere ROW_NUMBER-Befehle und ersetzt diese durch SUM(Turnover) funktionieren diese einwandfrei und liefern das gewünschte Ergebnis. Hier die komplette Wegbeschreibung zum Ende des Regenbogens:

Das Ergebnis sieht märchenhaft aus:

Über die Optionen können wir also frei steuern, wie und in welcher Reihenfolge wir kumulieren wollen. Damit haben wir alles was wir brauchen. Und das Beste dran – die Berechnung ist sogar sehr schnell.

Damit haben wir tatsächlich unser sagenumwobenes Ziel erreicht. Und wenn man genau hinsieht, findet man am Ende des Regenbogens sogar noch einen echten Schatz. Microsoft hat nämlich noch einen draufgesetzt und mit der Version dieses Jahres sogar noch den Funktionsumfang der „Fensterfunktionen“ erweitert. In dem MSDN liest man von LEAD und LAG! Das kennen wir doch auch irgendwo her – wenn da nicht mal das Dekumulieren vereinfacht wurde…

Freitag, 15. Juni 2012

PARTITION PARTITION BY ROW_NUMBER T-SQL SQL

Veranstaltungs-Tipp

On-Demand-Webinar 22. April 2024 Webinar: Selfservice mit DeltaMaster und Microsoft Excel

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar [...]

Anmeldung

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar.

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Über den Autor

Consulting

Die Bissantz-Consultants teilen ihr Wissen rund um Data-Warehouse-Projekte und Business-Intelligence-Lösungen – jede Woche ein neuer Beitrag. Auf die Würfel, fertig, los!

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Forschung Flächennutzung in Deutschland

Veränderungen verstehen: Wer Abweichungen und Verschiebungen seiner Kennzahlen auf den Grund gehen will, kann in DeltaMaster eine Vielzahl [...]

mehr erfahren

Vorheriger Artikel

Days-on-Hand Berechnung (Lagerreichweite in Tagen)

Nächster Artikel

Mit Bulk Copy & Co. am Log vorbei

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

SUM-Where OVER the rainbow

Eigentlich ein alter Hut

Regenbogenstreifen Nummer 1 – x

Alle Streifen zusammen

Das Ende des Regenbogens

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Know-how.