Eindeutig und fortlaufend

Stellvertretende Schlüssel sind besser als Textschlüssel. Wie mit Hilfe von SQL-Server eine lückenlose Nummerierung entwickelt werden kann, zeigt dieser Blogbeitrag. Details zum Thema Identitätsspalten und -funktionen werden ebenso betrachtet wie auch die Entstehung von Lücken in vergebenen Identitätswerten und deren Ursachen. Abschließend werden die Ergebnisse in einem kurzen Praxisbeispiel dargestellt.

Wer kennt nicht die Notwendigkeit von einer fortlaufenden Nummerierung in Planungsanwendungen? Häufig werden in Planungssystemen zusätzliche Informationen in der relationalen SQL-Datenbank in Tabellen gespeichert. Die Aktualisierung dieser Tabellen erfolgt meistens über einen separaten Pflegebericht in DeltaMaster, sodass die Fachabteilung die Daten ohne Hilfe aus der IT selbst aktualisieren kann. Beispiele dafür sind z. B. die Pflege von Fremdwährungen, Anlage neuer Planversionen oder die Pflege von benutzerdefinierten Hierarchien.

Unpraktischerweise bedeutet dieser Prozess aber auch, dass derartige Merkmale aus der Kombination von Spalteninhalten bestehen können, welche oft nur als Textspalten vorliegen. Diese Textschlüssel könnte man natürlich verwenden, aber dieser Blogbeitrag zum Thema Datentypen zeigt sehr schön, warum wir dies besser nicht praktizieren sollten.

Abhilfe schafft hier die Verwendung eines eigenen numerischen Schlüssels für die Datensätze. In Datenbankumgebungen wird hier von stellvertretenden Schlüsseln (engl.: surrogate keys) gesprochen.

Es gibt verschiedene Methoden, einen eindeutigen nummerischen Schlüssel zu generieren (z.B. die Funktion Binary_Checksum()), welche aber relativ „teuer“ (bezogen auf die Ausführungszeit) sind und sehr lange Schlüssel im Ergebnis liefern. Und fortlaufend ist der Schlüssel schon gar nicht.

SQL-Server bietet für diesen Zweck eine separate Spalteneigenschaft, die sogenannte Identitätsspalte. Soweit nichts Neues. Worauf zu achten ist, wenn eine automatische, lückenlose und fortlaufende Nummerierung zu erfolgen hat, zeigen wir im Folgenden.

Identity-Eigenschaft vs. -Funktion

Tabellen in SQL-Server bieten die Möglichkeit, eine beliebige Spalte für das Datenbankmodul als Identitätsspalte zu definieren. Dabei gibt es zwei Varianten: Die Identity-Eigenschaft für CREATE-TABLE-Ausdrücke und die Identity-Funktion, welche bei SELECT-INTO-Anweisungen verwendet werden kann.

Pro Tabelle kann es genau eine Spalte mit dieser Eigenschaft geben. Die Syntax sieht wie folgt aus:

CREATE TABLE dbo.T_S_Mitarbeiter

(

       ID INT IDENTITY(1,1)

       ,Vorname VARCHAR(20) NULL

       ,Nachname VARCHAR(20) NULL

       ,Geschäftsbereich INT NULL

)

Hier muss für IDENTITY-Eigenschaft zusätzlich noch ein sog. SEED und INKREMENT angegeben werden.

SEED = Startwert

INKREMENT = Wert, der auf den letzten bekannten Identitätswert aufaddiert wird

Weitere Hinweise wie Standardwert, mögliche Datentypen und Rückgabetypen können hier oder unter den weiterführenden Links nachgelesen werden.

Soweit alles bekannt und nicht wirklich spannend.

Einschränkungen

Über die Microsoft Dokumentation sind wir auf einen kleinen Nebensatz aufmerksam geworden, der sich als Ursache eines „unglücklichen“ Verhaltens herausstellt. Denn die von der Identitätseigenschaft erstellten Schlüssel können Lücken aufweisen, angeblich laut Microsoft zwecks Leistungsverbesserung. Wie denn das, wenn ich eine Identitätsspalte verwende, um Schlüssel zu generieren? Wäre da nicht eine durchgehend fortlaufende Nummerierung das erwartete Ergebnis?

Eine weitere Einschränkung besteht darin, dass die Identitätseigenschaft einer SQL-Tabelle sich nicht ohne weiteres wieder entfernen lässt, wenn die Tabelle bereits Daten enthält und diese nicht verloren gehen dürfen. DeltaMaster ETL ist für diesen Fall eine große Hilfe, denn unsere Toolbox liefert dazu eine sehr nützliche Hilfsfunktion im Standard bereits mit aus: P_BC_Remove_IdentityFromColumn

Für die technisch Interessierten Leser: Die Prozedur erstellt eine temporäre Tabelle, ermittelt die Spalte mit der Identitätseigenschaft und sichert die Daten aus der entsprechenden Spalte. Anschließend wird die Ursprungsspalte gelöscht und aus der temporären Tabelle unter dem ursprünglichen Namen und dessen Datentypen wiederhergestellt.

Lücken, warum?

Aber kurz zurück, woher können Lücken in den Identitätswerten entstehen? Zur Veranschaulichung fügen wir ein paar Datensätze in unsere Tabelle ein.

Abbildung 1: Eingefügte Testdaten

Soweit alles normal. Beim Einfügen der Datensätze mussten wir die Spalte ID nicht angeben, SQL-Server hat dankenswerterweise die Nummerierung selbständig übernommen. Fügen wir nun einen weiteren Datensatz ein:

Abbildung 2: Identity nach Datenbankfehler, Serverneustart

Ups, da fehlen doch IDs. Ursache war hier ein absichtlich provozierter Datenbankfehler bei noch geöffneten Transaktionen. Das gleiche Verhalten würde aber auch dann auftreten, wenn ein Benutzer einen Datensatz in der Tabelle gelöscht und einen neuen angelegt hätte. Typisch sind auch IDs, die um 1000 erhöht sind. Hier ist die Ursache ein abrupter Serverneustart, aus Sicherheitsgründen erhöht SQL-Server dann das SEED um 1000.

Prüfen lässt sich der aktuelle Wert mit Hilfe der Systemfunktionen IDENT_CURRENT(<Tabellenname>), @@Identity oder DBCC Checkident(<Tabellenname>). Letztere liefert zusätzlich zum aktuellen Spaltenwert der Tabelle noch den aktuellen Identitätswert, @@Identity den letzten vergebenen Wert in der aktuellen Sitzung.

Lücken umgehen, Eindeutigkeit gewährleisten

Mindestens seit der SQL-Server Version 2012 ist es möglich, den Identitätswert einer Tabelle automatisch „lückenlos“ zu halten. Der Befehl hierfür lautet wie folgt:

DBCC CHECKIDENT(<Tabellenname>, RESEED, optional new_reseed_value)

Das Argument RESEED gibt an, dass der aktuelle Identitätswert der angegebenen Tabelle zurückgesetzt werden soll, optional kann auch der Wert manuell angegeben werden, wobei davon dringend abzuraten ist.

Stellen wir uns eine beliebige, mit Hilfe von DeltaMaster ETL erstellte, Eingabeprozedur für eine Tabelle vor. Um eine fortlaufende, eindeutige Nummerierung der Datensätze zu gewährleisten reicht es aus, den DBCC-CHECKIDENT-Befehl innerhalb der Prozedur zu verwenden.

In der Praxis sind uns jedoch Fälle bekannt, in denen ein einfacher RESEED nicht ausreichend gewesen ist. Insbesondere macht es für das Datenbankmodul einen Unterschied, ob in einer Tabelle gelöscht oder der gesamte Inhalt mit TRUNCATE TABLE entfernt wurde. Wenn dann auch ein Serverabsturz dazwischenkommt, reicht es eben nicht, nur den Identitätswert zurückzusetzen. Was ist dann die Lösung? Siehe da:

--für fortlaufende Nummerierung nach Neustarts sorgen       

       DBCC CHECKIDENT ('T_S_Mitarbeiter', RESEED, 1)

       DBCC CHECKIDENT ('T_S_Mitarbeiter', RESEED)

Die erste Ausführung des Befehls sorgt dafür, dass im Falle eines Serverneustarts, wenn durch SQL-Server die Identität um 1000 erhöht wurde, dies zurückgesetzt wird. Der zweite Befehl sorgt anschließend dafür, dass die Nummerierung bei dem nächsten freien Wert fortgesetzt wird.

Verwendet man die beiden Befehle in den P_Insert und P_Update Prozeduren, lässt sich damit eine eindeutige und permanent fortlaufende Nummerierung erstellen. Ohne separate Nummernkreistabellen, die wiederum einer eigenen Pflege bedürfen. Pragmatisch eben!

Fazit

Zugegeben, im Allgemeinen ist es für uns Business-Intelligence-Entwickler nicht notwendig, dass die Nummerierung von Datensätzen lückenlos erfolgt, da normalerweise die Namen und Bezeichner in den Berichten gewünscht werden.

Aber sollte jemand in einem Projekt z. B. eine eindeutige Belegnummer erstellen müssen, kann das beschriebene Vorgehen der kleine, pragmatische Weg sein.

Microsoft selbst hat diese Problematik ebenfalls erkannt und seit SQL Server 2012 das Konzept der SEQUENZEN eingeführt. Doch das wird in einem weiteren Blogbeitrag noch genauer betrachtet werden.

Weiterführende Links

https://de.wikipedia.org/wiki/Schlüssel_(Datenbank)

https://docs.microsoft.com/de-de/sql/t-sql/functions/identity-function-transact-sql?view=sql-server-ver15

https://docs.microsoft.com/de-de/sql/t-sql/statements/create-table-transact-sql-identity-property?view=sql-server-ver15

https://docs.microsoft.com/de-de/sql/t-sql/database-console-commands/dbcc-checkident-transact-sql?view=sql-server-ver15

https://social.msdn.microsoft.com/Forums/sqlserver/de-DE/0a0bab1c-90d4-471d-859f-8e1448df0f59/identityeigenschaft-entfernen?forum=sqlserverde

Freitag, 28. Februar 2020

ETL Modellierung Planung SQL Data Warehouse Identity

Veranstaltungs-Tipp

Meet the Experts 9. Juli 2025 Webinar: Selfservice mit DeltaMaster und Microsoft Excel

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar [...]

Anmeldung

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar.

Meet the Experts 15. Juli 2025 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Meet the Experts 23. Juli 2025 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Über den Autor

Consulting

Die Bissantz-Consultants teilen ihr Wissen rund um Data-Warehouse-Projekte und Business-Intelligence-Lösungen – jede Woche ein neuer Beitrag. Auf die Würfel, fertig, los!

Letzte Blogartikel

Forschung Weinmost - Erntemengen und Erträge pro Hektar

Weinmost bildet die Grundlage für die in Deutschland kulturrelevanten Rot- und Weißweine. Wir nutzen DeltaMaster 6, um Auffälligkeiten bei [...]

mehr erfahren

Forschung Bundesliga-Tabelle 2024/25

Die Bundesliga-Tabelle nach Abschluss der Saison 2024/25 zeigt das altvertraute Bild: Der FC Bayern München liegt vorn! Was steckt wirklich [...]

mehr erfahren

Forschung Bevölkerungsbestand in Nürnberg

Den Bevölkerungsbestand einer Stadt können wir aus verschiedenen Blickwinkeln analysieren. Häufig variieren in den Stadtteilen Altersverteilung [...]

mehr erfahren

Forschung Kaltmieten in Deutschland

Kaltmieten bzw. Mieten im Allgemeinen sind in den letzten Jahren stetig gestiegen und stellen für viele Mieter den größten Posten der monatlichen [...]

mehr erfahren

Data Warehousing Unternehmensplanung und -konsolidierung auf Basis der Bissantz ERP Solutions

Dieser Beitrag erläutert, wie sich Prozesse der integrierten Unternehmensplanung und der Unternehmenskonsolidierung strukturiert gestalten [...]

mehr erfahren

Forschung Achsenelemente als Filter an Zielbericht zuweisen

Achsenelemente können mit dem neuesten Release von DeltaMaster in ihrer Gesamtheit als Filter an einen Zielbericht zugewiesen werden. Wir erklären [...]

mehr erfahren

Forschung Leistungsausgaben der gesetzlichen Krankenversicherung

Die Leistungsausgaben der gesetzlichen Krankenkassen steigen von Jahr zu Jahr. Als Folge haben im Januar 2025 etliche Krankenkassen erneut die [...]

mehr erfahren

Data Warehousing Partitionierung von Bewegungsdaten

Die Aktualisierung von Bewegungsdaten nimmt während der täglichen Aufbereitung einer SQL-Datenbank in der Regel den Großteil der benötigten [...]

mehr erfahren

Forschung Analyse von Verteilungen

Die Beschreibung von Verteilungen geht oft über die Angabe von Mittelwert und Standardabweichung hinaus. Wir erläutern, was sich bei den hierfür [...]

mehr erfahren

Data Warehousing Arbeitstagkalender

Zur Berechnung von Kennzahlen, die von der genauen Anzahl der Arbeitstage abhängen, ist es notwendig, diese im Modell korrekt abzubilden. Die [...]

mehr erfahren

Vorheriger Artikel

SQL-Graph-Datenbanken

Nächster Artikel

Sie haben die Wahl! – Mehrdeutigkeiten in Hierarchien abbilden

Eindeutig und fortlaufend

Identity-Eigenschaft vs. -Funktion

Einschränkungen

Lücken, warum?

Lücken umgehen, Eindeutigkeit gewährleisten

Fazit

Weiterführende Links

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Data Warehousing.

Nicolas Bissantz

Diagramme im Management