NOT IN = NOT EXPECTED

Da programmiert man schon Jahrzehnte lang T-SQL und erlebt doch noch Überraschungen bei vermeintlich einfachen Befehlen. Jüngst haben wir in einer Kundenumgebung verschiedene Optimierungen durchgeführt und unter anderem NOT IN Befehle durch LEFT JOINs ausgetauscht. Erwartet haben wir ein identisches Abfrageergebnis bei deutlich besserer Performance. Aber weit gefehlt. Aus einem uns zu dem Zeitpunkt noch nicht bekannten Grund lieferte die „linke Verbindung“ ein vollkommen anderes Ergebnis als das zuvor verwendete IN-Kommando. Nach einer langwierigen Suche, mit wiederholten Zweifeln an der eigenen Fachkompetenz, haben wir den Grund schließlich gefunden. Und wie sich herausgestellt hat, ist dieser selbst für viele „alte Hasen“ überraschend. Also lassen auch Sie sich überraschen.

Die stark vereinfachte Ausgangslage

Um das Phänomen nachzustellen, genügen zwei einspaltige Tabellen mit wenigen Inhalten.

Wir erzeugen uns eine Tabelle „_Test“, aus der wir nur die Datensätze sehen wollen, die in unserer Referenztabelle „_TestRef“ nicht enthalten sind – ein ganz typischer Anwendungsfall:

--Drop & Create test tables
IF object_id('_TestRef') IS NOT NULL DROP TABLE _TestRef
IF object_id('_Test') IS NOT NULL DROP TABLE _Test

CREATE TABLE _TestRef (Col varchar(1) NULL)
CREATE TABLE _Test (Col varchar(1) NULL)
go

Anschließend fügen wir ein paar Datensätze in unsere Tabellen ein:

--Insert test contents
INSERT INTO _Test VALUES('A')
INSERT INTO _Test VALUES('B')
INSERT INTO _Test VALUES('X')
go

INSERT INTO _TestRef VALUES('A')
INSERT INTO _TestRef VALUES('B')
INSERT INTO _TestRef VALUES('C')
INSERT INTO _TestRef VALUES(NULL)
go

Dem aufmerksamen Leser ist sicherlich schon aufgefallen, dass unser gesuchter Datensatz, jener mit dem Inhalt „X“ ist. Das ist der einzige Wert, welcher in der Referenztabelle nicht vorhanden ist. So-weit so gut.

Der überraschende Test

Erstellen wir nun unseren einfachen SQL-Befehl, um den Datensatz zu finden, und geben gleichzeitig die Testtabellen mit aus:

--Check result
SELECT * FROM _Test WHERE Col NOT IN (SELECT Col FROM _TestRef)
SELECT * FROM _Test
SELECT * FROM _TestRef

Führen wir das Skript nun aus, zeigt sich das unerwartete Ergebnis, unser X-Datensatz wird nicht gefunden:

Wäre ich nun gemein, würde ich den Blogbeitrag nun beenden und in einem zweiten Teil die Lösung präsentieren. Da mir aber nichts ferner liegt, helfe ich etwas auf die Sprünge.
Der Grund für dieses durchaus seltsame Verhalten liegt in dem NULL-Datensatz in der Referenztabelle. Wenn dieser Datensatz entfernt wird, liefert der Befehl auch das gewünschte Ergebnis, probieren Sie es selbst aus.

Das ist eine überraschende und gleichzeitig entscheidende Erkenntnis:

Wann immer Ihre Referenztabelle NULL-Werte enthält, liefert ein einfacher NOT IN Befehl kein Ergebnis zurück, selbst wenn es Datensätze gibt, die in der Referenztabelle nicht existieren!

An der Stelle muss ich kurz schmunzeln, weil Sie vermutlich, genau wie ich, gerade im Geiste all Ihre Implementierungen durchgehen und überlegen wo Sie genau in diese Falle getappt sein könnten…

So und wer jetzt denkt: „Mensch, dass hätte Microsoft uns ja auch ruhig mal sagen können“ liegt wiederum daneben. Einen halbwegs verständlichen Hinweis dazu gibt es tatsächlich im MSDN. Hier wird sogar schon von dem „unerwarteten Ergebnis“ gesprochen:

Aber sind wir mal ehrlich, wer hat schon den Hilfetext zum IN-Befehl gelesen…

Im Übrigen hat das Verhalten auch nichts mit der Referenztabelle zu tun. Auch wenn man IN mit einer statischen Liste verwendet, in der ein NULL-Wert enthalten ist, kommt man zum selben Ergebnis:

--Check with static list

SELECT * FROM _Test WHERE Col NOT IN ('A', 'B', 'C', NULL)

Die Lösungsalternativen

Schauen wir uns also an, was wir alternativ tun können, um zu dem erwarteten Ergebnis zu kommen.

ANSI_NULLS

Zunächst mal hat das Ganze etwas mit der Interpretation der NULL-Werte innerhalb des SQL-Servers zu tun. Der kleinste Eingriff, der noch nicht mal eine Veränderung der Abfrage nach sich zieht, wäre also die Veränderung des NULL-Verhaltens. Dafür existiert im SQL-Server die Eigenschaft „ANSI_NULLS“. Diese ist im Standard immer auf ON konfiguriert. Stellt man das Verhalten mit folgendem Befehl auf OFF um, funktioniert die oben erstellte Abfrage fehlerfrei:

SET ANSI_NULLS OFF

SELECT * FROM _Test WHERE Col NOT IN (SELECT Col FROM _TestRef)

Zu einfach um wahr zu sein, oder? Richtig, auf das Pferd können wir leider nicht mehr setzen. Liest man zu dieser Option wiederum sorgfältig die Beschreibung im Microsoft Developer Network findet man wiederum solch eine gelbe Box mit einem Warnhinweis, dass dringend davon abgeraten wird, diese Option in Anwendungen zu verwenden:

Folglich müssen wir die naheliegende Lösung mit dem geringsten Änderungsaufwand leider streichen.

ISNULL

Wir müssen also unsere Abfrage umbauen. Auch hier wählen wir zunächst die Variante mit dem geringsten Aufwand. In dem Fall die Verwendung von ISNULL in dem Subselect:

SELECT * FROM _Test WHERE Col NOT IN (SELECT isnull(Col,'') FROM _TestRef)

Die gezeigte Veränderung liefert uns nun tatsächlich den gesuchten X-Datensatz:

Allerdings möchte ich an der Stelle dazu aufrufen, sich auch mit dieser Lösung noch nicht zufrieden zu geben. Üblicherweise sind Tabellen in einer Echtumgebung ein kleines bisschen größer als unsere Testtabellen und in diesem Umfeld zeigt das IN- bzw. NOT IN-Konstrukt kein optimales Laufzeitverhalten. Um also die Performance hoch zu halten bietet sich die Nutzung des allseits beliebten LEFT JOINs an.

LEFT JOIN

Der LEFT JOIN zeigt bei großen Tabellen teilweise sehr deutliche Performanceverbesserungen im Vergleich zu dem IN-Befehl. Obendrein liefert er in unserem Testfall auch noch ein korrektes Ergebnis. Folglich ist dies die optimale Lösung für unser Problem.

Die Verknüpfung funktioniert so, dass unsere Testtabelle die linke Tabelle des JOINs darstellt. Rechts wird die Referenztabelle „drangejoint“. Alle Datensätze, die dann in der rechten Tabelle keine Entsprechung finden, sind unsere gesuchten. Die folgende Darstellung verdeutlicht dies:

Wichtig zu verstehen ist, dass das NULL der Referenztabelle dabei nicht dem NULL entspricht, welches ohnehin in der Referenztabelle enthalten ist. Jeder Datensatz der linken Tabelle, welcher in der rechten Tabelle keine Entsprechung findet, wird grundsätzlich als NULL dargestellt. Unabhängig davon, ob in der Referenztabelle ein NULL-Datensatz existiert oder nicht

In T-SQL übersetzt muss der LEFT JOIN folgendermaßen aufgebaut werden:

SELECT t.*
FROM _Test t
 LEFT JOIN _TestRef tr
 ON t.Col = tr.Col
WHERE tr.COL IS NULL

Das Ergebnis sieht analog zu dem Lösungsansatz 2 aus. Nur wie gesagt mit deutlich besserem Laufzeitverhalten.

Damit sind wir auch schon am Ende des heutigen Themas. Wir hoffen wir konnten den ein oder anderen ein wenig überraschen und dafür sorgen, dass künftig nur noch fleißig gejoint wird.

Wie immer anbei das Skript zum Download.

Freitag, 16. März 2012

NOT IN NULL T-SQL SQL JOIN LEFT JOIN

Veranstaltungs-Tipp

Meet the Experts 23. Juli 2025 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Meet the Experts 29. Juli 2025 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

Über den Autor

Consulting

Die Bissantz-Consultants teilen ihr Wissen rund um Data-Warehouse-Projekte und Business-Intelligence-Lösungen – jede Woche ein neuer Beitrag. Auf die Würfel, fertig, los!

Letzte Blogartikel

Forschung Weinmost - Erntemengen und Erträge pro Hektar

Weinmost bildet die Grundlage für die in Deutschland kulturrelevanten Rot- und Weißweine. Wir nutzen DeltaMaster 6, um Auffälligkeiten bei [...]

mehr erfahren

Forschung Bundesliga-Tabelle 2024/25

Die Bundesliga-Tabelle nach Abschluss der Saison 2024/25 zeigt das altvertraute Bild: Der FC Bayern München liegt vorn! Was steckt wirklich [...]

mehr erfahren

Forschung Bevölkerungsbestand in Nürnberg

Den Bevölkerungsbestand einer Stadt können wir aus verschiedenen Blickwinkeln analysieren. Häufig variieren in den Stadtteilen Altersverteilung [...]

mehr erfahren

Forschung Kaltmieten in Deutschland

Kaltmieten bzw. Mieten im Allgemeinen sind in den letzten Jahren stetig gestiegen und stellen für viele Mieter den größten Posten der monatlichen [...]

mehr erfahren

Data Warehousing Unternehmensplanung und -konsolidierung auf Basis der Bissantz ERP Solutions

Dieser Beitrag erläutert, wie sich Prozesse der integrierten Unternehmensplanung und der Unternehmenskonsolidierung strukturiert gestalten [...]

mehr erfahren

Forschung Achsenelemente als Filter an Zielbericht zuweisen

Achsenelemente können mit dem neuesten Release von DeltaMaster in ihrer Gesamtheit als Filter an einen Zielbericht zugewiesen werden. Wir erklären [...]

mehr erfahren

Forschung Leistungsausgaben der gesetzlichen Krankenversicherung

Die Leistungsausgaben der gesetzlichen Krankenkassen steigen von Jahr zu Jahr. Als Folge haben im Januar 2025 etliche Krankenkassen erneut die [...]

mehr erfahren

Data Warehousing Partitionierung von Bewegungsdaten

Die Aktualisierung von Bewegungsdaten nimmt während der täglichen Aufbereitung einer SQL-Datenbank in der Regel den Großteil der benötigten [...]

mehr erfahren

Forschung Analyse von Verteilungen

Die Beschreibung von Verteilungen geht oft über die Angabe von Mittelwert und Standardabweichung hinaus. Wir erläutern, was sich bei den hierfür [...]

mehr erfahren

Data Warehousing Arbeitstagkalender

Zur Berechnung von Kennzahlen, die von der genauen Anzahl der Arbeitstage abhängen, ist es notwendig, diese im Modell korrekt abzubilden. Die [...]

mehr erfahren

Vorheriger Artikel

Verdopple die Daten

Nächster Artikel

Einsatz von Merge bei Historisierung von Attributen (Teil 2)

NOT IN = NOT EXPECTED

Die stark vereinfachte Ausgangslage

Der überraschende Test

Die Lösungsalternativen

ANSI_NULLS

ISNULL

LEFT JOIN

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Data Warehousing.

Nicolas Bissantz

Diagramme im Management