Tod dem Signifikanztest-Ritual

„Statistisch signifikant“ scheint zu signalisieren: Nicht Zufall war am Werk, sondern das, was wir messen wollten. Diese Fehlinterpretation ist weit verbreitet. Aber es hilft nichts: Wir müssen unsere Schlüsse selbst ziehen. Die Statistik hält keine Methoden bereit, die uns das abnehmen.

Nichts prägt die Vorstellung davon, was Statistik ist und was sie zu leisten vermag, so sehr wie der Signifikanztest. Kann jemand die Frage bejahen, ob die gezeigten Ergebnisse statistisch signifikant sind, so darf er sich der vollen Aufmerksamkeit seiner Zuhörer sicher sein. So sehr auf der einen Seite abgedroschene und schlecht zitierte Allgemeinplätze bemüht werden, um den kundigen Skeptiker zu geben, so sehr wird auf der anderen Seite verzweifelt an die Möglichkeit geglaubt, Statistik könne die Sicherheit geben, die wir selbst nicht haben.

Davon sind Laien ebenso betroffen wie Experten. Haller und Krauss untersuchten beispielhaft das Wissen von Lehrenden und Lernenden eines Statistikkurses zum Thema Signifikanz. Das Ergebnis war verheerend. Auf beiden Seiten des Katheders wurde das Konzept gründlich missverstanden. Der Blick in Lehrbücher macht die Sache nicht besser. Auch dort sind die meisten Darstellungen mangelhaft. Selbst den Kritikern des Signifikanztestens gelingt selten eine erhellende Darstellung des Problems. Und an der entscheidenden Stelle verhindern sprachliche Weichmacher, dass der mit „signifikanten“ Ergebnissen Konfrontierte erfährt, was er damit anfangen soll.

Die Antwort ist: nichts!

Grob gesagt geht es beim Signifikanztest um Folgendes. Nehmen wir an, wir haben Margarine in mehreren Filialen unserer Supermarktkette verkauft. In jeder Filiale haben wir etwas anderes getan, um die Absätze günstig zu beeinflussen. Je Filiale haben wir nun eine Reihe von Tagesumsätzen. Über diese Umsätze bilden wir die folgenden Mittelwerte:

	Tag 1	Tag 2	Tag 3	Tag 4	Tag 5	Mittelwert
Filiale 1 Normalplatzierung	27	19	20	24	22	22
Filiale 2 mit Pappaufsteller	46	44	42	39	40	42
Filiale 3 mit Probierstand	78	58	34	32	28	46

Offensichtlich unterscheiden sich die Mittelwerte. Hat das nun mit unseren Aktionen zu tun oder nicht? Unsere Hypothese lautet also: Ja, in den Mittelwertunterschieden spiegelt sich die unterschiedliche Wirkung unserer unterschiedlichen Aktionen.

Das Dumme ist nur, der Signifikanztest weiß von unserer Hypothese nichts. Die drei Filialen unterscheiden sich in einer Vielzahl von Merkmalen. So mag die Altersstruktur unseres Filialpersonals unterschiedlich sein, die Filialfläche, die Struktur unserer Kunden oder das Wetter an den drei Standorten, oder, oder, oder. Wir haben einfach drei unterschiedliche Filialen vor uns. Punkt. Warum sollten sie sich nicht unterscheiden?

Genau von dieser absolut uninteressanten, völlig unwahrscheinlichen, nutzlosen Vorstellung geht man aber aus, wenn man auf Signifikanz prüft. Besteht Signifikanz, so bedeutet das, dass die Unterschiede größer sind als sie zufallsbedingt sein sollten. Da die Tage, von denen wir Werte haben, eine Teilmenge aller möglichen Tage und damit eine Stichprobe sind, müssen wir schon deswegen mit Mittelwertunterschieden rechnen.

Es kommt noch besser: Besteht keine Signifikanz, so heißt das nur, dass wir die Nullhypothese nicht ablehnen können. Die Unterschiede können zufallsbedingt sein, müssen es aber nicht. Kräht der Hahn auf dem Mist usw. Damit nicht genug: Wird die Stichprobe größer, so erhält man viel rascher Signifikanz. Bei großen Stichproben ist alles signifikant.

Es verwundert nicht, dass weder die Väter des Signifikanztestens (Fisher, Neyman-Pearson) noch große Statistiker sich je länger damit auseinandersetzten. Die Bedeutung, die das Signifikanztesten errungen hat, kann nur dadurch erklärt werden, wie verlockend und nützlich die Fehlinterpretation ist. Sie liegt darin, bei erfolgreichem Test der Nullhypothese die Hypothese für bewiesen zu halten.

Jede Gegenwehr scheint zwecklos. So unwahrscheinlich es anmuten mag, für viele wissenschaftliche Journale sind signifikante Ergebnisse conditio sine qua non für die Veröffentlichung. Geoffrey Loftus versuchte als Herausgeber der Zeitschrift „Memory and Cognition“ zwischen 1994 und 1997 diese Praxis zu ändern. Er ermutigte seine Autoren, auf das nutzlose Nullhypothesenritual zu verzichten und statt dessen Maße zu publizieren, die etwas über die Streuung der Datenwerte aussagen und dabei helfen, die Repräsentativität des Mittelwerts zu beurteilen. Sein Erfolg war bescheiden. Was ihm gelang, machten seine Nachfolger nach kurzer Zeit wieder zunichte.

Das darf uns Praktiker in der betrieblichen Datenanalyse nicht beirren. Wir müssen unsere Schlüsse selbst ziehen. Und es kann nicht häufig genug gesagt werden: Die Statistik hält keine Methoden bereit, die uns das abnehmen.

Über den Autor

Veranstaltungs-Tipp

Letzte Blogartikel

Mehr aus Bissantz denkt nach.

Tod dem Signifikanztest-Ritual

Über den Autor

Veranstaltungs-Tipp

Letzte Blogartikel

Mehr aus Bissantz denkt nach.

Nicolas Bissantz

Diagramme im Management