CiAgICA8IS0tIExpbmtlZEluIC0tPgogICAgPHNjcmlwdCB0eXBlPSJ0ZXh0L2phdmFzY3JpcHQiPgogICAgICAgIF9saW5rZWRpbl9wYXJ0bmVyX2lkID0gIjEyMzUwNzMiOwogICAgICAgIHdpbmRvdy5fbGlua2VkaW5fZGF0YV9wYXJ0bmVyX2lkcyA9IHdpbmRvdy5fbGlua2VkaW5fZGF0YV9wYXJ0bmVyX2lkcyB8fCBbXTsKICAgICAgICB3aW5kb3cuX2xpbmtlZGluX2RhdGFfcGFydG5lcl9pZHMucHVzaChfbGlua2VkaW5fcGFydG5lcl9pZCk7CiAgICA8L3NjcmlwdD48c2NyaXB0IHR5cGU9InRleHQvamF2YXNjcmlwdCI+CiAgICAgICAgKGZ1bmN0aW9uKCl7dmFyIHMgPSBkb2N1bWVudC5nZXRFbGVtZW50c0J5VGFnTmFtZSgic2NyaXB0IilbMF07CiAgICAgICAgICAgIHZhciBiID0gZG9jdW1lbnQuY3JlYXRlRWxlbWVudCgic2NyaXB0Iik7CiAgICAgICAgICAgIGIudHlwZSA9ICJ0ZXh0L2phdmFzY3JpcHQiO2IuYXN5bmMgPSB0cnVlOwogICAgICAgICAgICBiLnNyYyA9ICJodHRwczovL3NuYXAubGljZG4uY29tL2xpLmxtcy1hbmFseXRpY3MvaW5zaWdodC5taW4uanMiOwogICAgICAgICAgICBzLnBhcmVudE5vZGUuaW5zZXJ0QmVmb3JlKGIsIHMpO30pKCk7CiAgICA8L3NjcmlwdD4KICAgIDxub3NjcmlwdD4KICAgICAgICA8aW1nIGhlaWdodD0iMSIgd2lkdGg9IjEiIHN0eWxlPSJkaXNwbGF5Om5vbmU7IiBhbHQ9IiIgc3JjPSJodHRwczovL3B4LmFkcy5saW5rZWRpbi5jb20vY29sbGVjdC8/cGlkPTEyMzUwNzMmZm10PWdpZiIgLz4KICAgIDwvbm9zY3JpcHQ+CiAgICA8IS0tIEVuZCBMaW5rZWRJbiAtLT4KICAgIA==
Generic filters
Exact matches only
Search in title
Search in excerpt
Search in content

Goldgrube oder Grubenunglück?

Die Wirtschaftsinformatik hat in ihren Archiven geschürft und den Artikel “Data Mining” von 1993 neu abgedruckt. Wir sagen danke und fassen zusammen, was wir in den 16 Jahren seitdem über Datenmustererkennung gelernt haben.

Die Zeitschrift Wirtschaftsinformatik feiert ihr 50-jähriges Bestehen. Aus diesem Anlass hat sie ihre Archive durchgesehen und im Sinne eines „Best of“ eine Handvoll Artikel ausgewählt, um sie in der Jubiläumsausgabe noch einmal abzudrucken. Der von Dr. Jürgen Hagedorn und mir verfasste Beitrag „Data Mining (Datenmustererkennung)“ von 1993 hat es unverhofft in diese Auswahl geschafft. Der Aufsatz entstand in unserer gemeinsamen Zeit als Assistenten am Lehrstuhl von Prof. Peter Mertens, Jürgen ist heute bei SAP.

Rechnung von Telmex

“One-to-One”-Marketing durch Data Mining bei der mexikanischen Telmex. Der Rechner bestimmt, wer welche Werbeanzeigen auf seine Telefonrechnung gedruckt bekommt. Die Konversionsraten stiegen dadurch stark an.

Der Hype um die Datenmustererkennung ist vorbei. Die Disziplin reift, befreit von falschen Erwartungen. Die Schlagzeilen sind anderen Sujets gewidmet. Wie steht es um das Data Mining? Was hat sich inzwischen getan? Die Erfahrungen, die wir über alle Branchen und Wirtschaftszweige hinweg in den letzten 16 Jahren sammeln konnten, zeigen so viel:


  1. Ostereier-Paradoxon Die Möglichkeiten und Grenzen der Datenmustererkennung haben Bestand. Der albtraumhafte Automationsgrad, von dem man damals fabulierte, ist auch heute noch in weiter Ferne. Wir haben es damals als Ostereier-Paradoxon so formuliert: Die Erkenntnisse, die man zu gewinnen hofft, muss man zuvor durch geschickte Datenmodellierung und Methodenauswahl selbst verstecken. Es lohnt also immer noch, Unternehmen von Menschen führen zu lassen.
  2. Maschinelle Prozesshoheit Ab einem bestimmten Punkt in der Prozesskette des Data Mining ist der menschliche Eingriff unerwünscht: Kaum ein Anwender zeigt je die Disziplin, sich an die Ergebnisse eines Data-Mining-Systems zu halten. Lässt man etwa einen Algorithmus wie unseren Selector bestimmen, welche Adressen in einer Direktmarketingaktion angeschrieben werden sollen, so muss man sich an den Vorschlag halten, wenn man anschließend die Güte der Auswahl messen will. Wo das gelingt, gibt es auch nachweisbare Erfolge.
  3. Automation der Routine Schnelle Erfolge stellen sich immer dann ein, wenn es gelingt, sich wiederholende Analyseaufgaben an den Rechner zu delegieren. Voraussetzung ist, man findet Rechenvorschriften für menschliche Entscheidungsheuristiken. Die Maschine tut, was der Mensch auch tun würde – wenn er denn unendlich Zeit dafür hätte und die sehr billig wäre. Beispiele sind das Suchen nach Abweichungsursachen in Betriebsergebnishierarchien oder das Segmentieren von Märkten nach soziodemografischen Merkmalen.
  4. Strukturarmut Eine Vermutung bestätigte sich über die Jahre immer wieder: Schlimmer als unsaubere Daten ist ein Mangel an Struktur. Dennoch wird der Beseitigung von Datenschmutz die größere Aufmerksamkeit gewidmet. Das ist nicht zielführend. Es behindert die Mustererkennung wenig, wenn ein Teil der Kunden der falschen Branche zugeordnet ist. Hingegen verhindert es jede Erkenntnis über Branchenmuster, wenn es gar keine Zuteilung gibt.
  5. Datenknappheit Für analytische Zwecke herrscht trotz der überall beschworenen Datenfluten in den Unternehmen eher Datenarmut. Gewaltige Aufwendungen für operative IT-Systeme sind kein Garant für analytisch brauchbare Daten. Wenn die Damen und Herren in der Auftragsannahme immer 9999 eintippen, anstatt den Kunden die passenden Angaben zu entlocken, sitzt man nach Jahren auf vielen, aber nichtssagenden Daten. Diese Erkenntnis entmutigt viele, bevor sie richtig angefangen haben. Schade, denn die Lösung liegt nahe und ist billig: Man erhebt die benötigten Daten neu, in Form einer Stichprobe.
  6. Managementtauglichkeit Die größten Fortschritte und die größte Befriedigung fanden wir immer dort, wo es gelang, die Managementtauglichkeit von Analyseverfahren zu erhöhen. Software zur Assoziation, mit der man Warenkorbanalysen anstellt, gibt es inzwischen viel. Die einzige, die die typischerweise riesige Zahl an Regeln auf eine handhabbare und verständliche Anzahl reduziert, stammt meines Wissens von uns.

Auf eine Goldgrube zu stoßen, gelingt nicht immer. Grubenunglücke jedoch lassen sich leicht vermeiden, und einige Nuggets sind rasch gefunden.