Suchen...
Generic filters
Exact matches only
Search in title
Search in excerpt
Search in content

Unsaubere Textdateien importieren

Dies ist zwar nur ein kurzer Blogbeitrag, aber er wird all denen, die sich bereits damit geplagt haben, un-saubere Textdateien mit SQL Server Integration Services (SSIS) zu importieren, eine einfache Lösung lie-fern. Das Problem ist uralt: SSIS kann bis einschließlich Release 2008R2 keine Textdateien mit Trennzei-chen importieren, deren Inhalt nicht zu 100% der vorab gespeicherten Spezifikation entspricht. “Unsau-ber” bedeutet hierbei konkret, dass einzelne Datensätze weniger Spalten enthalten als spezifiziert, d.h. das Zeilentrennzeichen (z.B. CarriageReturn/LineFeed, CR/LF bei typischen Windows-Flatfiles) taucht vor dem letzten erwarteten Spaltentrennzeichen (z.B. Komma oder Semikolon) auf.

Textdatei sauber:
Datum;Kunde;Produkt;Umsatz;Absatz
01.05.2012;4711;P1;1000;200
02.05.2012;4712;P2;100;15
03.05.2012;4713;P3;10;3

Textdatei unvollständig:
Datum;Kunde;Produkt;Umsatz;Absatz
01.05.2012;4711;P1;1000;200
02.05.2012;4712;P2;100
03.05.2012;4713;P3;;3

Diese Situation tritt bei vielen häufig verwendeten Datenquellen auf, u.a. beim Export aus diversen SAP-Modulen unter Verwendung der Standardeinstellungen. Damit kann SSIS überraschenderweise nicht feh-lerfrei umgehen und liefert stattdessen versionsabhängig entweder Fehlermeldungen („Das Spaltentrenn-zeichen für die wurde nicht gefunden“) oder – noch schlimmer – falsche Ergebnisse (der komplette nächs-te Datensatz wird in die letzte Spalte angehängt).

Ergebnis korrekt
Abb. 1: Ergebnis korrekt

Ergebnis falsch
Abb. 2: Ergebnis falsch

Die Problematik ist weithin bekannt, einschlägige Web-Foren sind voller Frust und Hohn, doch eine Lö-sung seitens Microsoft existiert erst für SQL Server 2012. Für alle, die mit früheren Versionen arbeiten, bleiben Empfehlungen zu Workarounds, die hohen manuellen Aufwand nach sich ziehen, beispielsweise die Verwendung von (Zwischen-)Skripten oder den zeilenweisen Import unter Missachtung des tatsächli-chen Spaltentrennzeichens und die nachträgliche Zerlegung mittels SQL.

Bei der Vorbereitung einer Kundendatendemo stieß ich bei wiederholter Webrecherche auf das Schlag-wort “Delimited File Reader”. Es handelt sich hierbei um ein Add-In für SSIS, das bei der Codeplex-

Community kostenlos zum Download bereitsteht, einfach zu installieren und zu bedienen ist und nach meinen Erfahrungen fehlerfrei und performant arbeitet. Hier der Link (Datei liegt auch im Blogordner):

http://sqlsrvintegrationsrv.codeplex.com/releases/view/17646

Installation und Verwendung sind simpel: MSI-Paket ausführen und anschließend in BI Development Stu-dio per Rechtsklick in der Toolbox auf “Elemente auswählen” das neue SSIS-Datenflusselement “Delimited File Reader” aktivieren, woraufhin es neben den bekannten Quellen (Flatfile, OLE-DB, Excel etc.) er-scheint.

DelimitedFileReader aktivieren
Abb. 3: DelimitedFileReader aktivieren

Datenflussquelle verwenden
Abb. 4: Datenflussquelle verwenden

Anschließend erstellt man zunächst wie gewohnt einen Verbindungsmanager vom Typ “Flatfile”. Nun kommt der einzige Unterschied zur gewohnten Vorgehensweise: Anstelle einer Datenquelle vom Typ “Flatfile” verwendet man den neuen “Delimited File Reader”. Diesem vererbt man den gewünschten Ver-bindungsmanager.

Verbindungsmanager auswählen
Abb. 5: Verbindungsmanager auswählen

Ein Doppelklick auf die Datenquelle führt zu der Meldung, dass kein graphischer Editor für die Komponen-te existiert; Detailmodifikationen müssen also bei Bedarf mit dem erweiterten Editor aus dem Kontext-menü durchgeführt werden, doch war das nach meinen bisherigen Erfahrungen gar nicht erforderlich, denn die automatischen Voreinstellungen führen zum gewünschten Importergebnis:

Ergebnis besser
Abb. 6: Ergebnis besser

In diesem Sinn – Happy Importing!