Alle wichtigen Begriffe aus Block 2 mit kurzen Erklärungen und Beispielen.
Schluss von einer Stichprobe auf die Grundgesamtheit. Wir beobachten nur einen Teil der Daten und wollen daraus allgemeine Aussagen ableiten. Inferenz stellt die Werkzeuge bereit, um die Unsicherheit solcher Schlüsse zu quantifizieren.
Beispiel: Aus 100 befragten Kunden auf die Zufriedenheit aller Kunden schliessen.
Jede Schätzung aus einer Stichprobe ist mit Unsicherheit behaftet, weil wir nicht alle Daten kennen. Inferenz quantifiziert diese Unsicherheit. Eine grössere Stichprobe reduziert die Unsicherheit, beseitigt sie aber nie vollständig.
Beispiel: Der geschätzte Mittelwert der Zufriedenheit ist 7.2, aber der wahre Wert könnte zwischen 6.8 und 7.6 liegen.
Ein Bereich, der den wahren Parameter mit einer bestimmten Wahrscheinlichkeit (z.B. 95%) einschliesst. Je breiter das Intervall, desto grösser die Unsicherheit. Das Konfidenzlevel gibt an, wie oft das Intervall bei wiederholter Stichprobenziehung den wahren Wert enthält.
Beispiel:
get_confidence_interval(level = 0.95)
# Ergebnis: [6.71, 7.58]
Die Stichprobe ist die beobachtete Teilmenge, die Grundgesamtheit ist die gesamte Gruppe, über die wir Aussagen treffen wollen. Gute Inferenz setzt eine repräsentative Stichprobe voraus.
Beispiel: 100 befragte Kunden (Stichprobe) vs. alle 10'000 Kunden (Grundgesamtheit).
Die Idee, dass eine einzige Testlogik — zufällige Umordnung — für viele verschiedene statistische Fragen verwendet werden kann, anstatt für jede Frage einen eigenen Test zu lernen. Das vereinfacht das statistische Testen erheblich.
Wiederholtes Ziehen mit Zurücklegen aus der Stichprobe, um die Verteilung einer Statistik (z.B. Mittelwert) zu schätzen. Bootstrapping braucht keine Verteilungsannahmen und eignet sich daher für kleine Stichproben oder unbekannte Verteilungen.
Beispiel:
daten %>%
specify(response = zufriedenheit) %>%
generate(reps = 1000, type = "bootstrap") %>%
calculate(stat = "mean")
Test, ob ein Unterschied zwischen Gruppen zufällig sein könnte. Die Gruppenzugehörigkeit wird wiederholt zufällig permutiert, um eine Null-Verteilung zu erzeugen. Der beobachtete Wert wird dann mit dieser Null-Verteilung verglichen.
Beispiel:
daten %>%
specify(response ~ gruppe) %>%
hypothesize(null = "independence") %>%
generate(reps = 1000, type = "permute")
Die Standardannahme «kein Effekt» oder «kein Unterschied». Sie wird beibehalten, solange die Daten keinen ausreichenden Gegenbeweis liefern. Die Beweislast liegt immer bei der Alternativhypothese.
Beispiel: H₀: μA = μB (kein Unterschied in Kundenzufriedenheit zwischen Gruppe A und B).
Die Forschungshypothese, die wir nachweisen wollen. Sie wird akzeptiert, wenn H₀ verworfen wird. Die Alternativhypothese kann einseitig (gerichtet) oder zweiseitig (ungerichtet) formuliert sein.
Beispiel: H₁: μA ≠ μB (es gibt einen Unterschied).
Vergleicht die Mittelwerte zweier Gruppen und prüft, ob der Unterschied statistisch signifikant ist. Setzt annähernd normalverteilte Daten voraus. Bei grossen Stichproben (n > 30) ist der t-Test robust gegenüber Verletzungen der Normalverteilungsannahme.
Beispiel:
t.test(zufriedenheit ~ gruppe, data = kunden_zufriedenheit)
Erweitert den t-Test auf mehr als zwei Gruppen. Prüft, ob mindestens eine Gruppe einen signifikant anderen Mittelwert hat. Bei signifikantem Ergebnis folgen paarweise Vergleiche.
Beispiel:
aov(wert ~ gruppe, data = drei_gruppen)
TukeyHSD(modell) # Paarweise Vergleiche
Prüft, ob Daten normalverteilt sind. Wichtig als Voraussetzungscheck für parametrische Tests wie den t-Test. Ein nicht-signifikantes Ergebnis (p > 0.05) bedeutet, dass die Normalverteilungsannahme beibehalten werden kann.
Beispiel:
shapiro.test(x)
# p > 0.05 → Normalverteilung kann angenommen werden
Die Ausgabe von summary(lm(...)) enthält vier Spalten pro Koeffizient: Estimate (Punktschätzung), Std. Error (Unsicherheit), t value (Estimate/SE), Pr(>|t|) (p-Wert). Zusammen erlauben sie die Beurteilung von Richtung, Grösse und Signifikanz eines Effekts.
Die vier Spalten:
# Estimate Std.Error t value Pr(>|t|)
# (Intercept) 3.200 0.450 7.11 <0.001
# werbung 0.045 0.012 3.75 0.002
Interpretation: Pro 1 Einheit mehr Werbung steigt der Umsatz um 0.045, und dieser Effekt ist signifikant (p = 0.002).
Misst die Unsicherheit einer Schätzung. Nicht zu verwechseln mit der Standardabweichung, die die Streuung der Daten misst. Der Standardfehler wird kleiner bei grösserer Stichprobe: SE = SD / √n.
Beispiel: SD = 1.5, n = 100 → SE = 1.5 / √100 = 0.15.
Die Wahrscheinlichkeit, ein mindestens so extremes Ergebnis zu beobachten, wenn H₀ wahr wäre. Kleiner p-Wert = stärkerer Beweis gegen H₀. Der p-Wert sagt nichts über die Grösse des Effekts aus.
Beispiel: p = 0.03 → Bei 100 Wiederholungen unter H₀ würde man in nur 3 Fällen ein so extremes Ergebnis sehen.
H₀ wird verworfen, obwohl sie wahr ist (falsch positiv). In der Praxis bedeutet das: Eine unwirksame Massnahme wird als wirksam eingestuft. Die Kosten sind eine Investition in eine nutzlose Massnahme.
Beispiel: Eine Marketing-Kampagne zeigt statistisch einen Effekt, obwohl sie in Wirklichkeit wirkungslos ist. Das Unternehmen investiert daraufhin in die Kampagne.
H₀ wird beibehalten, obwohl sie falsch ist (falsch negativ). In der Praxis bedeutet das: Eine wirksame Massnahme wird nicht erkannt. Die Kosten sind entgangener Gewinn.
Beispiel: Eine wirksame Kampagne wird nicht erkannt, weil die Stichprobe zu klein war. Das Unternehmen verpasst eine Chance.
Die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt zu erkennen. Höhere Power entsteht durch grössere Stichproben oder grössere Effekte. Eine Power von mindestens 80% gilt als wünschenswert.
Beispiel: n = 50 pro Gruppe, d = 0.5 → Power ≈ 70%. Mit n = 100 pro Gruppe → Power ≈ 94%.
Der Schwellenwert für die Entscheidung gegen H₀, typischerweise α = 0.05. Legt die maximal tolerierte Typ-I-Fehlerrate fest. Ein strengeres α (z.B. 0.01) reduziert falsch positive Ergebnisse, erhöht aber die Gefahr falsch negativer.
Beispiel: α = 0.05 → Wir akzeptieren, dass 5% der Entscheidungen falsch positiv sind.
Der durchschnittliche Gewinn oder Verlust einer Entscheidung unter Unsicherheit. Berechnung: EV = P(Erfolg) × Gewinn + P(Misserfolg) × Verlust. Der Erwartungswert verbindet statistische Ergebnisse mit ökonomischen Konsequenzen.
Beispiel:
# EV = 0.6 × 100'000 + 0.4 × (-40'000) = 44'000 CHF
expected_value <- function(p, gewinn, verlust) {
p * gewinn + (1 - p) * verlust
}
expected_value(0.6, 100000, -40000)
# [1] 44000
Das selektive Durchführen oder Berichten von Tests, bis ein signifikantes Ergebnis erscheint. Verfälscht die Fehlerrate und führt zu nicht reproduzierbaren Ergebnissen. Typische Formen: Variablen hinzufügen/entfernen, Ausreisser selektiv entfernen, Subgruppen suchen.
Bei vielen gleichzeitigen Tests steigt die Wahrscheinlichkeit, rein zufällig signifikante Ergebnisse zu finden. Die Wahrscheinlichkeit mindestens eines falsch positiven Ergebnisses beträgt 1 − (1 − α)m, wobei m die Anzahl der Tests ist.
Beispiel: Bei 20 Tests unter H₀ mit α = 0.05 sind ~1 falsch positives Ergebnis zu erwarten. Die Wahrscheinlichkeit mindestens eines falsch positiven: 1 − 0.9520 ≈ 64%.
Konservativste Methode zur Korrektur für multiples Testen: α wird durch die Anzahl Tests geteilt. Kontrolliert die familywise error rate (FWER), kann aber zu viele echte Effekte übersehen (hohe Typ-II-Fehlerrate).
Beispiel:
p_values <- c(0.01, 0.04, 0.03, 0.20, 0.005)
p.adjust(p_values, method = "bonferroni")
# Jeder p-Wert wird mit 5 multipliziert
Kontrolliert den erwarteten Anteil falscher Entdeckungen unter allen signifikanten Ergebnissen. Weniger konservativ als Bonferroni und besser geeignet bei vielen Tests. Die Benjamini-Hochberg-Methode (BH) ist die gängigste FDR-Kontrolle.
Beispiel:
p_values <- c(0.01, 0.04, 0.03, 0.20, 0.005)
p.adjust(p_values, method = "BH")
# Weniger streng als Bonferroni, mehr Power
Ein Ergebnis ist signifikant, wenn p < α. Aber: Bei grosser Stichprobe können auch triviale Effekte signifikant werden. Signifikanz sagt etwas über die Zuverlässigkeit, nicht über die Wichtigkeit eines Effekts.
Beispiel: Bei n = 1'000'000 kann ein Unterschied von 0.01 Punkten signifikant werden (p < 0.001), obwohl er praktisch bedeutungslos ist.
Die Frage, ob ein Effekt gross genug ist, um in der Praxis eine Rolle zu spielen. Praktische Relevanz hängt vom Kontext ab und sollte immer zusätzlich zur statistischen Signifikanz beurteilt werden.
Beispiel: Eine Umsatzsteigerung von 0.01% kann signifikant, aber irrelevant sein. Eine Steigerung von 5% ist sowohl signifikant als auch praktisch relevant.
Misst die Effektstärke als Differenz der Mittelwerte geteilt durch die gepoolte Standardabweichung. Erlaubt den Vergleich von Effekten über verschiedene Skalen und Studien hinweg.
Beispiel:
cohens_d <- function(x, y) {
nx <- length(x); ny <- length(y)
pooled_sd <- sqrt(((var(x) * (nx-1)) + (var(y) * (ny-1))) / (nx + ny - 2))
(mean(x) - mean(y)) / pooled_sd
}
Faustregel zur Einordnung von Cohen's d: |d| < 0.2 = vernachlässigbar, 0.2–0.5 = klein, 0.5–0.8 = mittel, > 0.8 = gross. Diese Schwellenwerte sind Orientierungshilfen, keine starren Grenzen.
Beispiele: d = 0.1 → vernachlässigbar; d = 0.3 → kleiner Effekt; d = 0.6 → mittlerer Effekt; d = 0.9 → grosser Effekt.