Die growganic Community profitiert von exklusiven Inhalten, Tipps und Insights die die Konkurrenz nicht erhält. Melde dich jetzt an und sei besser als deine Wettbewerber!

Unsere Leistungen

Conversion Optimierung

Datengetrieben zu mehr Bestellungen, Umsatz und Wachstum.

Web-Analytics

Erfassen und verstehen, wie sich Nutzer auf deiner Webseite bewegen.

Tag Management

Zentralisiertes Ausspielen von Tracking über den Google Tag Manager.

Tests, Umfragen und Analysen auf deiner Website sind nett. Wirklich aussagekräftig sind die Resultate aber nur, wenn die Ergebnisse statistisch signifikant ist.

In diesem Beitrag erfährst du alles über die statistische Signifikanz und die Bedeutung für das Testing.

Definition von statistischer Signifikanz

Statistische Signifikanz ist die Wahrscheinlichkeit, dass der Unterschied in der Conversion-Rate beim Test zwischen einer Abweichung und der Basisvariante nicht zufällig ist.

Ein Experiment ist dann statistisch signifikant, wenn das Ergebnis für ein gegebenes statistisches Signifikanzniveau nicht zufällig erfolgt.

Das Signifikanzniveau oder Signifikanzlevel spiegelt dabei die Wahrscheinlichkeit wider, dass der Test die gewünschte Aussage zufällig angibt.

Das Konfidenzniveau oder Konfidenzlevel ist die entgegengesetzte Wahrscheinlichkeit und gibt an, zu welchem Prozentsatz das Ergebnis aus der Stichprobe auch für die Grundgesamtheit gilt.

Hast du beispielsweise einen A/B-Test mit einem Konfidenzniveau von 95 % durchgeführt, sind die Ergebnisse zu 95 % „wahr“ und nicht durch Zufall zustande gekommen. Es bleibt letztlich eine Irrtumswahrscheinlichkeit von 5 Prozent. Das Signifikanzniveau ist also hier 5 Prozent.

Info: Der Einfachheit halber beschränken wir uns in sämtlichen Beispielen dieses Artikels auf A/B-Tests mit zwei Varianten, die jeweils das gleiche Ziel haben. Selbstverständlich ist die statistische Signifikanz auch bei Tests mit mehreren Varianten wie einem A/B/C-Test relevant.

Nullhypothese, p-wert und Co: Kleine Statistikkunde

Neben der Signifikanz und dem Signifikanzniveau gibt es noch weitere Begriffe aus der Statistik, die beim Verifizieren von Hypothesen durch Tests eine Rolle spielen.

Nullhypothese: Die Nullhypothese bezeichnet im Rahmen eines Hypothesentests die zu testende Annahme über die Grundgesamtheit. Sie entspricht einfach gesagt dem Gegenstück zur eigentlichen Untersuchungshypothese.

Beispiel: Ist deine Hypothese, dass ein Pop-up die Conversion-Rate zum Eintragen in den E-Mail-Newsletter erhöht, besagt die Nullhypothese, dass die Eintragungsrate nicht damit zusammenhängt, dass du ein Pop-up anzeigst.

p-Wert: Der Begriff gibt an, wie wahrscheinlich die Ergebnisse der Stichprobe (oder noch extremere Ergebnisse) sind, unter der Annahme, dass die Nullhypothese stimmt. In dem Beispiel von gerade eben beziffert der p-Wert die Wahrscheinlichkeit, dass die Conversion-Rate mit Pop-up besser ist, obwohl in Wahrheit das Gegenteil der Fall ist.

Wir haben bei diesem Beispiel also die Nullhypothese, dass es keinen Unterschied in der Conversion-Rate mit oder ohne Pop-up gibt. Der Test mit einer Stichprobe ergibt eine Verbesserung der Conversion-Rate um 10 % und der p-Wert ist 0,04. Dadurch ist es nur zu 4 % wahrscheinlich, dass das Ergebnis nur Zufall ist. Zu 96 % verbessert das Pop-up tatsächlich die Conversion-Rate.

Der p-Wert ist also eng verwandt mit dem Signifikanzniveau. Liegt der p-Wert nach einem Test unter diesem Niveau, wird die Nullhypothese abgelehnt (und die Gegenhypothese bestätigt).

Möglicherweise raucht dir jetzt etwas der Kopf, aber ein gewisses Grundwissen in Statistik und insbesondere die Kenntnis über die statistische Signifikanz ist unerlässlich für ein aussagekräftiges Testen.

Höhere Konfidenz bedeutet längere Tests

Je höher das Konfidenzniveau sein soll (und je geringer entsprechend das Signifikanzniveau), desto größer muss die Stichprobe sein.

Für A/B-Tests bedeutet das dann in der Regel deutlich längere Tests. Wenn du zwei Varianten von Webseiten gegeneinander und zu 99 Prozent sicher sein möchtest, musst du möglicherweise mehrere Wochen auf dein Ergebnis warten, wenn die Seite nicht gerade von vielen Tausenden Besuchern täglich aufgerufen wird.

Ein in der Praxis häufig verwendetes Signifikanzniveau ist 5 Prozent, da es eine gute Balance zwischen aussagekräftigen und schnellen Ergebnissen bietet.

Je nach Szenario kann es bei dir ebenfalls sinnvoll sein, ein Signifikanzniveau von 10 oder 15 Prozent zu wählen.

Info: Wähle das Konfidenzniveau sorgfältig und orientiere dich dabei an der voraussichtlichen Stichprobengröße und der Fehlertoleranz, mit der du leben kannst.

Welche Bedeutung hat die statistische Signifikanz?

In der Regel läuft die Optimierung von Elementen wie deiner Landingpage folgendermaßen ab:

Du wählst einen Teil der Website aus, den du optimieren willst
Du formulierst eine Hypothese, um eine Vermutung zu bestätigen
Mithilfe eines Testverfahrens wie eines A/B-Tests versuchst du, die Hypothese zu verifizieren oder falsifizieren

Hierzu möchte ich dir zum besseren Verständnis ein Beispiel geben.

Nehmen wir an, du bist nicht zufrieden mit der Conversion-Rate auf deiner Landingpage. Du möchtest gerne, dass ein größerer Prozentsatz auf dieser Seite per E-Mail Kontakt zu dir aufnimmt.

Du hast den Verdacht, dass der Textlink „Kontakt per E-Mail aufnehmen“ nicht prominent genug gestaltet ist und nur wenige Leute darauf klicken. Die Daten aus Google Analytics und die Heatmap, die du mit Hotjar aufgezeichnet hast, untermauern diese Vermutung.

Dieses Problem möchtest du jetzt beheben und dafür einen A/B-Test anlegen.

Ein A/B-Test ist ein idealer Weg, um Hypothesen im Marketing zu belegen

Du formulierst anschließend folgende Hypothese mit dem Wenn-Dann-Weil-Muster:

Wenn ich die Darstellung meines Call-to-Actions prominenter gestalte, dann erhöht sich die Klickrate, weil Nutzer durch den höheren Kontrast und die prominentere Gestaltung den Button besser wahrnehmen.

Anschließend legst du den A/B-Test in einem Tool wie Google Optimize an.

Bisher bist du schön nach Plan vorgegangen und möchtest natürlich auch die Ergebnisse nicht dem Zufall überlassen. Deswegen legst du Wert auf eine möglichst geringe Irrtumswahrscheinlichkeit.

Hier kommt die statistische Signifikanz ins Spiel. Bereits beim Anlegen des Tests entscheidest du dich für ein Signifikanzniveau. Viele Tools wie Google Optimize arbeiten standardmäßig mit einer statistischen Signifikanz von 95 %.

Hast du die voreingestellte Schwelle erreicht und die Wahrscheinlichkeit, dass das Ergebnis deines Tests deine Hypothese bestätigt, liegt darüber, ist dein Test statistisch signifikant und du kannst ihn abschließen und auswerten.

Natürlich hast du trotzdem die Möglichkeit, den Test für eine noch größere Sicherheit weiterlaufen zu lassen. In der Regel empfiehlt es sich aber, lieber einen weiteren Test zu starten, als zu viel Zeit für eine 99,9-prozentige Sicherheit bei jedem Test zu verlieren.

A b test auswertung - Statistische Signifikanz: Erklärung und Berechnung (inkl. Signifikanz-Rechner) — Auswertung A/B-Test mit Google Optimize

Die meisten Test-Tools wie Google Optimize senden dir automatisch eine Benachrichtigung, sobald der Test statistisch signifikant ist und das Ergebnis somit feststeht.

Google Optimize wird am 1. Oktober 2023 abgeschaltet. Hier kannst du dich über Alternativen informieren.

Wie lässt sich die statistische Signifikanz berechnen?

Die meisten Testing-Tools im Marketing analysieren nicht nur die Daten deiner Tests, sondern berechnen auch automatisch die statistische Signifikanz. So siehst du auf einen Blick, ob dein Test bereits statistisch signifikant ist und du die Ergebnisse auswerten kannst.

Manchmal ist es notwendig, die statistische Signifikanz selbst zu berechnen, beispielsweise um einen anderes Signifikanzniveau als die häufig standardmäßig gewählten 5 Prozent zu verwenden.

Hierfür gibt es verschiedene Methoden. Egal, für welche du dich entscheidest, du benötigst immer folgende Daten:

Besucher bei Variante A
Besucher bei Variante B
Konversionen bei Variante A
Konversionen bei Variante B
gewünschtes Signifikanzniveau

Berechnen der Signifikanz mit Excel

Wenig überraschend weiß das Tabellen-Mastertool-Excel auch über die Chi-Quadrat-Verteilung Bescheid. Wenn du deine Testdaten in Excel einträgst und sowohl die beobachtete als auch die erwartete Verteilung (entspricht der Verteilung, wenn beide Varianten gleich konvertieren würden) in einer Tabelle einträgst, kann Excel automatisch einen Chi-Quadrat-Test durchführen.

Ist der mit der Funktion CHIQU.TEST() berechnete Wert kleiner als dein Signifikanzniveau, ist dein Experiment statistisch signifikant.

Statistische Signifikanz in Excel berechnen

Mehr Details inklusive einer ausführlichen Anleitung für Signifikanztests mit Excel findest du hier.

Signifikanz-Rechner für das Berechnen der statistischen Signifikanz

Etwas komfortabler geht es mit Tools, bei denen du deine Testdaten einträgst und die dir vollautomatisch die Signifikanz berechnen.

Mit unserem Signifikanz-Rechner kannst du schnell und einfach die statistische Signifikanz deiner A/B Tests ausrechnen.

Neben dem klassischen Z-Test mit p-Wert verfügt der Rechner ebenfalls über eine Form der bayesschen Statistik (Bayesian).

Signifikanzrechner growganic - Statistische Signifikanz: Erklärung und Berechnung (inkl. Signifikanz-Rechner) — Statistische Signifikanz berechnen

Jetzt kostenlos beraten lassen

10% mehr Umsatz durch Conversion Optimierung

Unser ISER Framework: Datengetrieben zu mehr Umsatz, Wachstum und Profitabilität ohne mehr Zeit und Geld für Werbung ausgeben zu müssen.

65+ erfolgreich betreute Kunden

Welche Rolle hat die statistische Signifikanz bei A/B-Tests?

Erst wenn du die Rolle der statistischen Signifikanz begriffen hast und auf diesen Wert auch in Zusammenhang mit deinen Umfragen und Tests achtest, kannst du dein Marketing wirklich gezielt verbessern.

Statistisch signifikante Untersuchungen vermitteln dir die nötige Sicherheit, dass deine geplanten Veränderungen deiner Website auch die gewünschten positiven Auswirkungen auf die Conversion-Rate haben.

So verwendest du die statistische Signifikanz

Kommen wir jetzt von der Theorie in die Praxis. Indem du bei A/B-Tests auf die statistische Signifikanz achtet, erhöhst du die Wahrscheinlichkeit für aussagekräftige Ergebnisse. Beim Testen und Validieren von Hypothesen kommt es jedoch immer wieder zu Fehlern.

Nicht jeder Maßnahme benötigt einen signifikanten Test für ein aussagekräftiges Ergebnis

So gut das Wissen um statistische Signifikanz und den Unterschied zwischen verschiedenen Signifikanzniveaus auch ist: Nicht immer musst du deine Marketingmaßnahmen testen und nicht jeder Test benötigt statistische Signifikanz.

Kostengünstige oder kleine Marketingmaßnahmen benötigen häufig keinen statistisch signifikanten Test als Validierung. Handelt es sich aber um wichtige strategische Entscheidungen, die sich gegebenenfalls auch nicht so einfach umkehren lassen, solltest du dich für einen sauberen Test entscheiden.

Vermeide Verzerrungen

So sauber du einen Test auch aufsetzt und so signifikant das Ergebnis laut deines Tools auch ist: Verzerrungen können dafür sorgen, dass deine Untersuchung unbrauchbar ist. Hier sind einige häufige Gründe für Verzerrungen:

Feiertage oder Events (wie eine Fußball-WM) wirken sich auf das Nutzerverhalten aus
Zu kurze Laufzeit von Tests
Der Kundenstamm (oder die Besucher) wird nicht als Ganzes betrachtet und nicht in seiner Gesamtheit getestet
Der Test ist nicht kontrastreich genug und der Grad der wahrgenommenen Veränderung reicht nicht aus

Multivariate Tests

Klassische A/B-Tests können je nach Traffic und Conversion-Rate schon relativ schnell zu einem Ergebnis kommen. Bei sogenannten multivariaten Tests werden gleich mehrere Variablen gleichzeitig getestet. Als Ergebnis erhöhen sich die Anzahl an getesteten Varianten deutlich und auch der Unterschied in der nötigen Testzeit kann erheblich sein.

Multivariates Testen baut etliche Kombinationen aus den einzelnen Komponenten

Zum Beispiel entscheidet man sich dafür, mehrere Überschriften, CTA-Positionen und CTA-Mengen zu testen.

Hier ein Beispiel:

4 Headlines x 2 CTA-Positionen x 2 CTA-Mengen = 16 Kombinationen

Um nun ein statistisch signifikantes Ergebnis zu bekommen, sind viele Daten notwendig.

Aus diesem Grund sind multivariate Tests nur bei sehr viel Traffic und/oder einer nicht zu niedrigen Conversion-Rate sinnvoll.

Hier erfährst du mehr über multivariate Tests.

Fazit: Statistische Signifikanz ist die Basis für datenbasierte Entscheidungen

Im Marketing werden unzählige Daten erhoben und die Resultate bilden die Basis für eine Vielzahl von Entscheidungen. Eine saubere Überprüfung mit einem statistisch signifikanten Test schafft es erst, einen klaren Zusammenhang zwischen Messungen und Hypothesen herzustellen.

Ein A/B-Test mit statistisch signifikantem Ergebnis ermöglicht es dir, Maßnahmen im Marketing zu untermauern und erhöht die Wahrscheinlichkeit, dein Unternehmen und dein Marketing Schritt für Schritt nach vorne zu bringen.

Achtest du auf die statistische Signifikanz bei deinen Tests? Oder verlässt du dich auf die Aussagen deiner Testing-Tools? Hinterlasse uns gerne einen Kommentar!

Geschrieben von

Christoph Böcker

Christoph Böcker ist Gründer von growganic. Auf Basis intensiver Research in den Bereichen Website-Verhalten, User Experience und Consumer Behavior führt growganic Optimierungen und A/B Tests durch, welche zu messbar mehr Bestellungen, Umsatz pro Nutzer, Warenkörben und Wachstum führen.

Geschrieben von

Feedback

Hinterlasse einen Kommentar

Blog Artikel