Bissantz-Events

Ein Histogramm zeigt die Verteilung einer Größe. Ist die Klasseneinteilung zu fein, so gaukelt das eine Genauigkeit vor, die einer näheren Betrachtung nicht standhält. Unser Algorithmus startet mit einer feinen Einteilung und findet dann eine Einteilung, die zur Anzahl der Beobachtungen passt. Deutliche Unterschiede in den Häufigkeiten werden berücksichtigt, eher als zufällig anzusehende Unterschiede werden nivelliert.

Das Histogramm zeigt die Verteilung von ca. 4000 Werten auf 50 Klassen. Sind die 95 Beobachtungen, die in das erste Intervall fallen, wirklich so viel größer als die 93 des zweiten Intervalls? Hätte es bei einer weiteren Stichprobe der Größe 4000 nicht genau umgekehrt aussehen können?

Das Originalhistogramm mit 50 Klassen

Es liegt nun in der Natur von relativen Anteilen, dass ihre Streuung mit wachsender Stichprobengröße sinkt. Es kann deshalb durchaus der Fall sein, dass die gleichmäßige Verteilung der Häufigkeiten von benachbarten Intervallen mit ähnlichen Werten eine stabilere Darstellung verspricht als das Festhalten an den ursprünglichen Werten. Wir haben dazu ein vollautomatisches Verfahren der Modellauswahl entwickelt, das ausgehend von der ursprünglichen feinen Einteilung benachbarte Intervalle optimal zusammenfasst und dabei auch die zur Stichprobengröße gehörende Variation einbezieht.

Für obenstehendes Histogramm wird die folgende optimale Aufteilung gefunden, die aus insgesamt 4 Bereichen besteht.

Optimale Aufteilung in 4 Bereiche

Was passiert, wenn die Stichprobe wächst? Nehmen wir einmal in folgendem Gedankenexperiment an, dass alle auftretenden Häufigkeiten exakt 10-mal so groß sind wie bisher, d.h. statt 95 haben wir nun 950 Beobachtungen im ersten Intervall und statt 93 sind es 930 im zweiten Intervall. Die relative Verteilung hat sich nicht geändert, aber die gewonnene Genauigkeit durch die größere Stichprobe lässt den Algorithmus eine feinere Einteilung in 11 Bereiche wählen:

Optimale Aufteilung bei angenommener Verzehnfachung der Häufigkeiten

Bei einer weiteren Verzehnfachung der Häufigkeiten werden auch kleine sichtbare Unterschiede relevant und nun werden bereits 29 Bereiche ausgewählt und 16 von ihnen bestehen bereits aus einem einzigen Intervall. Diese optimale Aufteilung wird in etwa 1/3 Sekunde gefunden.

Optimale Aufteilung bei weiterer Verzehnfachung der Häufigkeiten

Bei unserem Algorithmus passt sich die Detailliertheit an die Stichprobengröße an: Zeige nur die Feinheit, die durch die Daten gedeckt ist.

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Histogramme: Fein justieren

Veranstaltungs-Tipp

Über den Autor

Letzte Blogartikel

Mehr aus Forschung.

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Histogramme: Fein justieren

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.