Aggregationen: Zeilenweise oder im Block?

Wer häufig mit SQL arbeitet, kennt sicher die seit Microsoft SQL Server Version 2012 verfügbaren Window Functions. Mit ihnen können schnell und unkompliziert Aggregationen über einen bestimmten Datenbereich ermittelt werden oder auch Vorgänger und Nachfolger. Die allgemeine Syntax dazu ist vielen bekannt. Dieser Beitrag zeigt, wie sie mit den dazugehörigen Ausdrücken ROWS oder RANGE weiter ergänzt werden kann, wie der Default lautet, wenn weder ROWS noch RANGE explizit angegeben werden und wozu man ROWS bzw. RANGE einsetzen kann.

Die Over-Klausel zur Definition einer Fensterfunktion in Microsoft SQL Server lautet OVER(PARTITION BY … ORDER BY…). PARTITION BY unterteilt ein Abfrageergebnis in Partitionen. ORDER BY definiert die logische Reihenfolge der Zeilen im Abfrageergebnis innerhalb jeder Partition.

Ein Beispiel aus unseren SQL-Schulungen, bei denen wir mit der Datenbank „Foodmart“ arbeiten: Mit dem folgendem SQL-Statement erhält man auf Datenbank Foodmart für jedes Produkt (product_name) das Nettogewicht (net_weight) und mit dem LAG-Ausdruck pro Product_Class den jeweiligen direkten Vorgänger des Nettogewichts.

SELECT
    pr.product_name
   , pr.net_weight
   , LAG(pr.net_weight,1,0) OVER (PARTITION BY pr.product_class_id ORDER BY pr.net_weight) AS Vorgaenger
FROM dbo.product pr

ROWS versus RANGE

Die Argumente ROWS bzw. RANGE grenzen die Zeilen innerhalb einer Partition weiter ein, indem sie Start- und Endpunkte innerhalb der Partition definieren. Ein ORDER BY ist dabei immer erforderlich. Das folgende kleine Beispiel verdeutlicht die Unterschiede zwischen ROWS und RANGE.

Wir erstellen eine Tabelle mit einer Zeilennummer und einer beliebigen Zahl als Wert dazu.

CREATE TABLE T_Daten (Zeile int, Wert decimal(10,2))
GO
INSERT INTO T_Daten
Values (1,1.0), (2,3.0), (3,4.0), (4,2.0), (5,6.0)

Nun lassen wir folgendes SQL-Statement zur Abfrage im Default (RANGE) laufen:

SELECT 
	Zeile
	, Wert
	, AVG(Wert) OVER(ORDER BY Zeile) AS Mittelwert
FROM T_Daten

Wir erhalten die in Abbildung 1 dargestellte Tabelle.

Aggregationen: Ergebnis und Rechnung Abfrage Default (Range)

Abb. 1: Ergebnis und Rechnung Abfrage Default (RANGE)

Wie der Mittelwert in diesem Beispiel berechnet wird, ist in der Spalte ‚Rechnung‘ zusätzlich aufgeführt.

Nun ändern wir die SQL-Abfrage ab und fügen eine Einschränkung mit ROWS hinzu, die die Berechnung des Mittelwertes auf bestimmte Zeilen einschränkt:

SELECT 
	Zeile
	, Wert
	, AVG(Wert) OVER(ORDER BY Zeile ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING) AS Mittelwert_3_Werte
FROM T_Daten

Das Ergebnis sehen wir hier:

Aggregationen: Ergebnis und Rechnung Abfrage ROWS

Abb. 2: Ergebnis und Berechnung der Abfrage mit ROWS

Auch hier wurde eine Spalte ‚Rechnung‘ hinzugefügt, um zu verdeutlichen, wie der Mittelwert in dieser Abfrage berechnet wird.

Betrachten wir die jeweiligen SQL-Abfragen und deren Ergebnisse einmal genauer: Die erste Abfrage ermittelt den Mittelwert aus den Werten aller vorhergehenden Zeilen inklusive der aktuellen Zeile. Die zweite Abfrage ermittelt den Mittelwert aus jeweils 3 Werten – Vorgänger, aktuelle Zahl und Nachfolger – und teilt das jeweilige Ergebnis durch die Anzahl der verwendeten Zeilen.

Warum ist das so?

Der Default, also ohne Definition von ROWS– oder RANGE-Einschränkungen, ist immer RANGE UNBOUNDED PRECEDING AND CURRENT ROW. Damit werden alle vorhergehenden Zeilen einschließlich der aktuellen Zeile in der Partition zur Berechnung herangezogen. ROWS hingegen schränkt die Berechnung auf bestimmte Zeilen ein, die in der BETWEEN folgenden Anweisung angegeben sind, wobei sich die Einschränkung immer auf das im ORDER BY angegebenen Datenfeld bezieht.

Nun könnte man meinen, dass der Default RANGE UNBOUNDED PRECEDING AND CURRENT ROW (gleichbedeutend mit RANGE UNBOUNDED PRECEDING) und ROWS UNBOUNDED PRECEDING das gleiche Ergebnis liefern. Solange wir keine doppelten Zeilennummern in unserer Tabelle haben, stimmt das auch. Das können wir überprüfen, indem wir folgende SQL-Abfragen parallel ausführen:

SELECT 
	Zeile
	, Wert
	, AVG(Wert) OVER(ORDER BY Zeile) AS Mittelwert_zeilenweise
FROM T_Daten

SELECT 
	Zeile
	, Wert
	, AVG(Wert) OVER(ORDER BY Zeile RANGE UNBOUNDED PRECEDING) AS Mittelwert
FROM T_Daten

SELECT 
	Zeile
	, Wert
	, AVG(Wert) OVER(ORDER BY Zeile ROWS UNBOUNDED PRECEDING) AS Mittelwert
FROM T_Daten

Alle drei Abfragen erzeugen das Ergebnis, welches in Abbildung 1 gezeigt wird. Das ändert sich, sobald wir z. B. folgende Zeilen in die Tabelle T_Daten einfügen:

INSERT INTO T_Daten
Values (2,4.0), (4,10.0)

Die Abfrage lautet:

SELECT * FROM T_Daten
ORDER BY Zeile

Sie erzeugt die in Abbildung 3 dargestellte Tabelle.

Abb. 3: Select-Ergebnis Tabelle T_Daten

Die Zeilen sind nicht mehr eindeutig. Wir starten unsere Abfragen erneut.

SELECT 
	Zeile
	, Wert
	, AVG(Wert) OVER(ORDER BY Zeile ROWS UNBOUNDED PRECEDING) AS Mittelwert_zeilenweise
FROM T_Daten

SELECT 
	Zeile
	, Wert
	, AVG(Wert) OVER(ORDER BY Zeile) AS Mittelwert_zeilenweise
FROM T_Daten

Das Ergebnis für ROWS UNBOUNDED PRECEDING sieht folgendermaßen aus:

Abb. 4: Ergebnis und Rechnung zur Abfrage ‚Rows Unbounded‘

Für die Abfrage ohne Angabe einer Einschränkung mit ROWS oder RANGE, was gleichbedeutend mit RANGE UNBOUNDED PRECEDING AND CURRENT ROW ist, ergibt sich folgende Tabelle:

Abb. 5: Ergebnis und Rechnung Abfrage Default (‚Range‘)

Die in der Spalte ‚Rechnung‘ dargestellte Berechnung der jeweiligen Ergebnisse zeigt, dass ROWS auch dann zeilenweise arbeitet, wenn der Inhalt in der Zeile gleich ist, RANGE hingegen fasst diese Zeilen zusammen. Verwendet man die Default-Einstellung, muss man sich also darüber im Klaren sein, dass damit RANGE UNBOUNDED PRECEDING AND CURRENT ROW eingesetzt wird und Zeilen gleichen Inhalts immer gemeinsam betrachtet werden. Wofür kann man das Argument ROWS nun sinnvoll einsetzen?

Anwendungsbeispiel

In einer Abfrage soll der Gesamtumsatz über alle Jahre und der Umsatz der Vorjahre ermittelt werden. Um dies zu demonstrieren, erweitern wir unsere kleine Beispieltabelle um die Spalte ‚Jahr‘ und vervielfachen die Einträge für jedes Jahr.

ALTER TABLE T_Daten ADD Jahr int
GO

UPDATE T_Daten
SET Jahr = 2019
GO

INSERT INTO T_Daten (Zeile, Wert, Jahr)
SELECT
Zeile
	, Wert
	, Jahr+1
FROM T_Daten
WHERE Jahr = 2019

INSERT INTO T_Daten (Zeile, Wert, Jahr)
SELECT
	Zeile
	, Wert
	, Jahr+2
FROM T_Daten
WHERE Jahr = 2019

Die SQL-Abfrage, um sowohl die Summe der Werte über alle Jahre als auch die Summe der Werte der Vorjahre zu berechnen, könnte wie folgt aussehen:

SELECT
   b.Jahr
   , b.Zeile
   , b.Wert
   , SUM(Wert) OVER (PARTITION BY b.Zeile ORDER BY b.Jahr ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECED-ING ) AS Umsatz_Vorjahre
   , SUM(Wert) OVER (PARTITION BY b.Zeile ORDER BY b.Jahr) AS Umsatz_alleJahre
FROM T_Daten b
ORDER BY b.Zeile, b.Jahr

Die Einschränkung ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING begrenzt die Berechnung der Summe auf alle vorhergehenden Werte bis zum vorletzten Wert. Dabei bezieht sich das PRECEDING auf das im ORDER BY verwendete Jahr. Die Summe der Werte wird im Beispiel als Umsatz bezeichnet.

Wir erhalten folgendes Ergebnis:

Abb. 6: Ausschnitt aus dem Ergebnis der Umsatzermittlung

Betrachten wir die Zeile 1 in Abbildung 6, sieht alles passend aus. In der Tabelle T_Daten gibt es für die Zeilen 2 und 4 aber mehr als einen Eintrag (diese Einträge haben wir, wie oben beschrieben, selbst eingefügt, um die Funktionsweise von ROWS zu demonstrieren).

Da ROWS, wie bereits gezeigt, zeilenweise arbeitet und die Daten der Zeilen 2 nicht zusammenfasst, erhalten wir mit unserer Abfrage für diese Zeilen nicht das gewünschte Ergebnis. Eine RANGE-Einschränkung, die nur bis zur vorletzten Zeile arbeitet, gibt es nicht. Daher müssen wir, wenn die Zeilen nicht eindeutig sind, hier selbst eingreifen. Das können wir beispielsweise, indem wir über eine vorhergehende Summierung die Zeilen wieder eindeutig machen:

WITH cte_Jahressumme
AS
(
   SELECT
	Jahr
	, Zeile
	, SUM(Wert) AS Wert
   FROM T_Daten
   GROUP BY Jahr, Zeile
)
SELECT
  b.Jahr
  , b.Zeile
  , b.Wert
  , SUM(Wert) OVER (PARTITION BY b.Zeile ORDER BY b.Jahr ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING ) AS Umsatz_Vorjahre
  , SUM(Wert) OVER (PARTITION BY b.Zeile ORDER BY b.Jahr) AS Umsatz_alleJahre
FROM cte_Jahressumme b
ORDER BY b.Zeile, b.Jahr

Nun erhalten wir das gewünschte Ergebnis:

Abbildung 7: Ergebnis aus Umsatzermittlung mit vorhergehender Summierung pro Jahr und Zeile

Fazit

Wer Aggregationen mit der OVER-Klausel verwendet, sollte sich über die Wirkung der verwendeten Einschränkungen mit ROWS bzw. RANGE bewusst sein. Wird explizit keine Einschränkung gesetzt, wird als Default immer RANGE UNBOUNDED PRECEDING AND CURRENT ROW verwendet. Das bedeutet, dass alle vorhergehenden Werte bis zum aktuellen Wert des im ORDER BY verwendeten Datenfelds in die Aggregation einbezogen werden.

Mit ROWS kann die Berechnung gezielt auf bestimmte Zeilen eingeschränkt werden, womit z. B. die Ermittlung einer Summe über die Vorjahre möglich wird. Dabei muss man lediglich beachten, dass mit ROWS die tatsächlichen Datenzeilen gemeint sind auch wenn die betroffenen Felder den gleichen Inhalt aufweisen.

Mittwoch, 5. Januar 2022

OVER SQL Window Functions

Veranstaltungs-Tipp

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 13. Mai 2024 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

Über den Autor

Consulting

Die Bissantz-Consultants teilen ihr Wissen rund um Data-Warehouse-Projekte und Business-Intelligence-Lösungen – jede Woche ein neuer Beitrag. Auf die Würfel, fertig, los!

Letzte Blogartikel

Planung Vollständiges Wiederherstellungsmodell – Back-ups im Rhythmus der Planung

In diesem Beitrag soll eine spezifische Back-up-Strategie für eine DeltaMaster-Planungsumgebung beschrieben werden, die auf dem vollständigen [...]

mehr erfahren

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Vorheriger Artikel

Datenimport von On-Premises-Datenquellen in die Azure-Cloud

Nächster Artikel

Dynamischer Spalten- und Zeileneditor

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Aggregationen: Zeilenweise oder im Block?

ROWS versus RANGE

Anwendungsbeispiel

Fazit

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Data Warehousing.