Suchen...
Generic filters
Exact matches only
Search in title
Search in excerpt
Search in content

SSIS und der (performante) Umgang mit vielen kleinen Dateien

Wer mit den SQL Server Integration Services gearbeitet hat, stand sicher schon einmal vor der Aufgabe, mehrere gleichformatierte Dateien in eine Datenbank zu laden. Bisher wurde dazu immer (wahrscheinlich auch mangels Alternativen, Unwissenheit und der Tatsache, dass das benutze Verfahren ja ohne größere Probleme funktionierte) mit dem Foreach Loop Container gearbeitet. Dieser im SSIS integrierte Baustein lässt sich vielfältig anpassen und ist relativ schnell implementiert. Durch Zufall sind wir auf eine (einfachere und schnellere) Möglichkeit gestoßen, mehrere Dateien des gleichen Typs über SSIS zu laden: der Multiple Flat File Connection Manager. Und um diesen geht es im vorliegenden Blogbeitrag.

Abbildung 1 Connection Manager im SSIS

Der Dialog zur Konfiguration sieht nicht anders aus als der gewohnte Connection Manager für „ein-fache“ Flatfiles, aber hier ist es möglich, gleich mehrere Dateien anzugeben. Diese werden dann einfach durch das Pipe-Zeichen (|) getrennt.

Abbildung 2 Optionen im Multiple Flat File Connection Manager

Da die pipe-getrennte Schreibweise die Anzahl an Dateien fix vorgibt, ist dieser Ansatz relativ starr. Um es etwas dynamischer zu gestalten, kann im Pfad mit Wildcards gearbeitet werden. Um also alle Dateien in einem Verzeichnis, welche mit pmec.txt enden, zu laden, kann der Stern (*) verwendet werden.

Abbildung 3 Optionen im Multiple Flat File Connection Manager

Durch mehrere Tests haben wir herausgefunden, dass dieser Weg um ein Vielfaches(!) schneller ist, gerade bei vielen kleineren Dateien.