Hash & Co.

Heute möchten wir uns einmal mit einer sehr nützlichen T-SQL-Funktion namens CHECKSUM() beschäftigen. An einem Beispiel aus dem Datenladeprozess soll gezeigt werden, wie dieser durch die Verwendung von CHECKSUM() schneller und eleganter gestaltet werden kann.
Wir Modellierer kennen aus unserer täglichen Praxis eine häufig mangelhafte Datenqualität, egal in welcher Form die notwendigen Daten bereitgestellt werden. Gerade in Workshop-Situationen, in denen sehr schnell eine Vielzahl an Kundenwünschen implementiert werden muss, können wir nicht immer einen perfekten ETL-Prozess erwarten. Geht es dann auch noch um Themen wie eine inkrementelle Datenlade-Logik bei großen Datenvolumina, bei der die Rohdaten aber nicht per eindeutigem Schlüssel gefunden werden können, hilft man sich oft mit einer differenzierten JOIN-Bedingung (X=X AND Y=Y AND Z=Z etc.). Das funktioniert grundsätzlich auch sehr gut. Allerdings kann dies die Abfrageperformance negativ beeinflussen, und das gilt es zu vermeiden.

Kleiner Exkurs bezüglich der Delta-Logik:

Wir benötigen zwei strukturgleiche Tabellen: eine als Archivtabelle, eine für die täglichen Importdaten. Als Beispiel wird die Kundentabelle aus der Foodmart-Demodatenbank verwendet. Mittels eines SSIS-Pakets löschen wir zu Beginn den Inhalt der Tabelle customer_CS_updates und importieren anschließend die neuen Daten aus dem Vorsystem (z. B. SAP) in diese. Nach erfolgreichem Import sorgen wir mit einem kleinen SQL-Ausdruck für den Datentransfer von customer_CS_updates nach customer_CS (dient als Archivtabelle). Dazu löscht man alle Datensätze, die sich aktuell in der Tabelle customer_CS_updates befinden aus customer_CS und fügt anschließend alle Datensätze der Tabelle customer_CS_updates in die Archivtabelle ein. Der Löschvorgang ist notwendig, weil der Import auch Datensätze enthalten kann, welche bereits importiert wurden (z. B. nachträgliche Korrekturbuchungen in einem ERP-System).

--Löschen aktualisierter Daten in der Archivtabelle
DELETE archiv
FROM
      [dbo].[customer_CS] archiv
      INNER JOIN dbo.customer_CS_updates upd
            ON archiv.lname = upd.lname
            AND archiv.fname = upd.fname
            AND archiv.city = upd.city 
GO

--Einfügen neue Datensätze
INSERT INTO [dbo].[customer_CS]
SELECT
      *
FROM
      dbo.customer_CS_updates
GO

Eine Optimierung der Ausführungszeiten für das Löschen und Einfügen der Datensätze können wir mittels Prüfsummen (engl.: Checksum) erzielen, vor allem dann, wenn zur Datensatzidentifizierung mehrere alphanumerische Spalten benötigt werden.

Der Befehl CHECKSUM() existiert bereits seit SQL-Server 2005 und liefert eine Prüfsumme vom Datentyp INT zurück. Dabei kann * als Platzhalter für alle Spalten einer Tabelle oder Sicht, wie auch einer oder mehrerer dedizierter Spalten, verwendet werden. Entwickelt wurde die Funktion, um Hashindizes (Index auf einer CHECKSUM()-Ergebnisspalte) für Gleichheitssuchen erstellen zu können. Einzige Einschränkung hinsichtlich der sinnvollen Verwendung der Funktion ist, dass für die Datentypen „text“, „ntext“, „image“, „cursor“ und „xml“ keine Prüfsumme ermittelt wird. Diese Spalten fließen nicht in die Berechnung der Prüfsumme mit ein.

Nachfolgend wird der Prozess der Delta-Ladelogik genauer untersucht und gezeigt, wie der Einsatz von CHECKSUM() diesen positiv beeinflusst.

--Tabelle für Delta-Importe erzeugen (fiktiv)
--SELECT * INTO dbo.customer_CS_updates FROM [dbo].[customer_CS]

--Löschen aktualisierter Daten in der Archivtabelle
DELETE archiv
FROM
      [dbo].[customer_CS] archiv
      INNER JOIN dbo.customer_updates upd
            ON archiv.lname = upd.lname
            AND archiv.fname = upd.fname
            AND archiv.city = upd.city
GO

Schauen wir uns einmal den Ausführungsplan an:

Abb. 1: Ausführungsplan

Man erkennt, dass im oberen Teil für das DELETE-Statement der größte Aufwand bei der Sortierung und dem notwendigen Tabellen-Scan verwendet wird, beim INSERT-Statement aber der eigentliche Batchprozess der Aufwandtreiber ist. Setzen wir für das DELETE in der JOIN-Definition die Prüfsumme ein:

--Löschen aktualisierter Daten in der Archivtabelle
DELETE archiv
FROM
      [dbo].[customer_CS] archiv
      INNER JOIN dbo.customer_updates upd
            ON CHECKSUM(archiv.lname, archiv.fname, archiv.city) 
            = CHECKSUM(upd.lname, upd.fname, upd.city)
GO

Jetzt protokolliert der SQL-Server folgenden Ausführungsplan:

Abb. 2: Ausführungsplan CHECKSUM()

Augenscheinlich ist jetzt die Löschanweisung langsamer, da zusätzlich noch sog. Hash-Matches ausgeführt werden müssen. Man beachte aber auch, dass die eigentliche DELETE-Anweisung nun knapp 1/3 der Kosten benötigt, vorher gingen diese gegen 0. Das bedeutet, dass das Löschen jetzt besser verwaltet wird.

Erweitern wir nun die Tabelle um die Prüfsumme und legen einen Index auf diese, sollte das Ergebnis eindeutiger werden:

--Materialisieren der Prüfsumme
ALTER TABLE [dbo].[customer_CS]
ADD CS_Customer AS CHECKSUM(lname, fname, city)
GO
--Erstellung Hash-Index
CREATE INDEX CS_Customer_index ON [dbo].[customer_CS](CS_Customer)
GO

Schauen wir uns den Ausführungsplan in Abb. 2 im Vergleich zu Abb. 3 an, lässt sich erkennen, dass jetzt das Löschen 90% des gesamten Aufwands für den SQL-Server verbraucht, obwohl der Server einige Operationen zusätzlich ausführen muss.

Abb. 3: Ausführungsplan CHECKSUM() Index

Das ist eine deutlich gesteigerte Effizienz.

Man kann jetzt natürlich argumentieren, dass jeder Index auf einer Tabelle zur besseren Performance führt, und das ist auch (meistens) korrekt. Aber selbst Microsoft schreibt, dass bei langen Schlüsseln (Indizes) der Hashindex der Leistungsfähigere ist. Zugegeben, in diesem Beispiel mit ca. 10.000 Datensätzen wird sich kaum ein Unterschied feststellen lassen. Auf wirklich großen Datenmengen sieht das schon ganz anders aus.

Achtung: Es kann gelegentlich vorkommen, dass sich bei Änderung eines Wertes innerhalb der Parameterliste von CHECKSUM() nicht die Prüfsumme ändert. Dieses Verhalten ist im April 2006 von Microsoft bekannt gegeben worden. Daher wird davon abgeraten, die Funktion für die Prüfung auf geänderte Daten zu verwenden. Dazu sollten besser sog. Hashbytes() verwendet werden.

Eine nützliche Erweiterung der Funktion CHECKSUM() ist BINARY_CHECKSUM(). Diese wiederum gibt die binäre Prüfsumme für die angegebene(n) Spalte(n) zurück. Damit kann beispielsweise auch die Groß-/Kleinschreibung von Zeichenketten unterschieden werden, deshalb eignet sich
BINARY_CHECKSUM() durchaus für die Prüfung von Feldänderungen.

--Case-Sensitivität
SELECT
      'CHECKSUM' AS Beispiel
      ,CHECKSUM('DeltaMaster') AS DeltaMaster
      ,CHECKSUM('Deltamaster') AS Deltamaster

UNION ALL

SELECT
      'BINARY_CHECKSUM' AS Beispiel
      ,BINARY_CHECKSUM('DeltaMaster') AS DeltaMaster
      ,BINARY_CHECKSUM('Deltamaster') AS Deltamaster

Abb. 4: Beispiel CHECKSUM() und BINARY_CHECKSUM()

Der Vollständigkeit wegen sei hier eine weitere Abwandlung der Prüfsummen-Funktion erwähnt, nämlich CHECKSUM_AGG(). Diese Funktion ermittelt auf ganzzahligen Quellspalten die Prüfsumme und kann ebenfalls zur Nachverfolgung von Wertänderungen verwendet werden. Der einzige Unterschied in der Verwendung gegenüber den obigen Beispielen liegt darin, dass durch Angabe von DISTINCT oder ALL (Standard) die Ermittlung auf entweder nur die unterschiedlichen oder aber auf alle Werte angewendet werden soll. Allerdings sollte man damit vorsichtig sein, denn sobald es innerhalb der auszuwertenden Spalte sehr wenige unterschiedliche Werte gibt, kann das Ergebnis der Prüfsumme in vielen Fällen 0 sein. Dabei würde eine Änderung von beispielsweise 0 auf 1 nicht anhand der Prüfsumme erkannt werden.

--Vorsicht bei CHECKSUM_AGG
SELECT
      num_cars_owned AS Anzahl_Fahrzeuge
      ,CHECKSUM_AGG(CAST(num_cars_owned AS INT)) AS CHECKSUM_AGG
FROM
      dbo.Customer
GROUP BY
      num_cars_owned
GO

Abb. 5: Beispiel CHECKSUM_AGG()

Ein ähnliches Verhalten kann man auch bei CHECKSUM() und BINARY_CHECKSUM() feststellen. Hier kann man sich aber mit expliziten Konvertierungen oder Konkatenation der Spalten behelfen, um eineindeutige Prüfsummen zu erhalten.

Abb. 6: Beispiel mit Fehlern für CHECKSUM() und BINARY_CHECKSUM()

Man kann gut erkennen, dass bei reiner Konvertierung der Werte von INT nach VARCHAR die Prüfsummen nur leicht abweichend sind, die Kombination mit einer Konkatenation mittels einer Konstanten aber zu einem eindeutigeren Ergebnis führt.

Zum Schluss sollen die weiter oben angesprochenen Hashbytes() kurz erläutert werden. Letztendlich ist auch dies eine abgewandelte Prüfsummen-Funktion, welcher man aber mittels Parameter einen Berechnungsalgorithmus und Werte übergeben kann. Gültige Hashalgorithmen sind:

MD2 | MD4 | MD5 | SHA | SHA1 | SHA2_256 | SHA2_512

Der Rückgabewert ist vom Datentyp VARBINARY.

Wenden wir jetzt einmal die HASHBYTES() auf die gleiche Kombination aus Filiale und Customer an, bekommen wir einen eindeutigen Wert für die Kombination zurück (Hinweis: Die Funktion kann nicht auf Spalten vom Datentyp INT direkt angewendet werden).

--explizite Konvertierung und Verwendung der Hashbytes-Funktion
SELECT
      store_id AS Filiale
      ,customer_id AS Customer
      ,HASHBYTES('MD5', convert(nvarchar,customer_id) + convert(nvarchar,store_id) ) AS 'HASHBYTES'
      ,BINARY_CHECKSUM(customer_id, store_id) AS 'BINARY_CHECKSUM'
FROM
      dbo.sales_fact_2008
WHERE
      customer_id in ('7356', '7357')
GROUP BY
      customer_id, store_id

Das Ergebnis:

Abb. 7: Beispiel HASHBYTES()

Die aus den HASHBYTES() zurückgelieferte Prüfsumme lässt sich sehr gut für die Berechnung einer DistinctCount-Kennzahl verwenden, wenn diese z. B. aus alphanumerischen oder zusammengesetzten Spalten abgeleitet werden muss. Hierbei kann man sich sicher sein, dass auch wirklich alle Unterschiede ermittelt werden.

--Beispiel eines DistinctCount
SELECT
      count(DISTINCT BINARY_CHECKSUM(lname, city)) AS 'Anzahl eindeutige Nachnamen je Land'
FROM
      dbo.customer

Die HASHBYTES() werden oft auch in Verbindung mit symmetrischen oder asymmetrischen Datenverschlüsselungen verwendet, doch damit beschäftigen wir uns beim nächsten Mal.

Wie wir gesehen haben, bietet der bedachte Einsatz von Prüfsummen eine Reihe von Möglichkeiten hinsichtlich Abfrageoptimierungen, Datenänderungen und Datenverschlüsselung. Wenn aber der Datentyp INT mit ins Spiel kommt, empfehle ich dringend den Einsatz der HASHBYTE-Funktion.

Nützliche Links:

Freitag, 20. Dezember 2013

SSIS SQL

Veranstaltungs-Tipp

On-Demand-Webinar 22. April 2024 Webinar: Selfservice mit DeltaMaster und Microsoft Excel

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar [...]

Anmeldung

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar.

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Über den Autor

Consulting

Die Bissantz-Consultants teilen ihr Wissen rund um Data-Warehouse-Projekte und Business-Intelligence-Lösungen – jede Woche ein neuer Beitrag. Auf die Würfel, fertig, los!

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Forschung Flächennutzung in Deutschland

Veränderungen verstehen: Wer Abweichungen und Verschiebungen seiner Kennzahlen auf den Grund gehen will, kann in DeltaMaster eine Vielzahl [...]

mehr erfahren

Vorheriger Artikel

Umgang mit mehreren Perioden in DeltaMaster

Nächster Artikel

Modellierung mehrerer Zeitdimensionen

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Hash & Co.

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Data Warehousing.