Block 2: Schlüsselbegriffe & Definitionen

Alle wichtigen Begriffe aus Block 2 mit kurzen Erklärungen und Beispielen.

Inhalt

Inferenz & Unsicherheit (4 Begriffe)
Resampling-Methoden (3 Begriffe)
Hypothesentest-Grundlagen (2 Begriffe)
Traditionelle Tests (6 Begriffe)
Fehlertypen & Entscheidungen (5 Begriffe)
Multiples Testen (4 Begriffe)
Effektstärke & Relevanz (4 Begriffe)

1. Inferenz & Unsicherheit

Statistische Inferenz (Statistical Inference)

Schluss von einer Stichprobe auf die Grundgesamtheit. Wir beobachten nur einen Teil der Daten und wollen daraus allgemeine Aussagen ableiten. Inferenz stellt die Werkzeuge bereit, um die Unsicherheit solcher Schlüsse zu quantifizieren.

Beispiel: Aus 100 befragten Kunden auf die Zufriedenheit aller Kunden schliessen.

Unsicherheit (Uncertainty)

Jede Schätzung aus einer Stichprobe ist mit Unsicherheit behaftet, weil wir nicht alle Daten kennen. Inferenz quantifiziert diese Unsicherheit. Eine grössere Stichprobe reduziert die Unsicherheit, beseitigt sie aber nie vollständig.

Beispiel: Der geschätzte Mittelwert der Zufriedenheit ist 7.2, aber der wahre Wert könnte zwischen 6.8 und 7.6 liegen.

Konfidenzintervall (Confidence Interval)

Ein Bereich, der den wahren Parameter mit einer bestimmten Wahrscheinlichkeit (z.B. 95%) einschliesst. Je breiter das Intervall, desto grösser die Unsicherheit. Das Konfidenzlevel gibt an, wie oft das Intervall bei wiederholter Stichprobenziehung den wahren Wert enthält.

Beispiel:

get_confidence_interval(level = 0.95)
# Ergebnis: [6.71, 7.58]

Stichprobe vs. Grundgesamtheit (Sample vs. Population)

Die Stichprobe ist die beobachtete Teilmenge, die Grundgesamtheit ist die gesamte Gruppe, über die wir Aussagen treffen wollen. Gute Inferenz setzt eine repräsentative Stichprobe voraus.

Beispiel: 100 befragte Kunden (Stichprobe) vs. alle 10'000 Kunden (Grundgesamtheit).

2. Resampling-Methoden

Only one test (Permutationsprinzip)

Die Idee, dass eine einzige Testlogik — zufällige Umordnung — für viele verschiedene statistische Fragen verwendet werden kann, anstatt für jede Frage einen eigenen Test zu lernen. Das vereinfacht das statistische Testen erheblich.

Bootstrapping

Wiederholtes Ziehen mit Zurücklegen aus der Stichprobe, um die Verteilung einer Statistik (z.B. Mittelwert) zu schätzen. Bootstrapping braucht keine Verteilungsannahmen und eignet sich daher für kleine Stichproben oder unbekannte Verteilungen.

Beispiel:

daten %>%
  specify(response = zufriedenheit) %>%
  generate(reps = 1000, type = "bootstrap") %>%
  calculate(stat = "mean")

Permutationstest (Permutation Test)

Test, ob ein Unterschied zwischen Gruppen zufällig sein könnte. Die Gruppenzugehörigkeit wird wiederholt zufällig permutiert, um eine Null-Verteilung zu erzeugen. Der beobachtete Wert wird dann mit dieser Null-Verteilung verglichen.

Beispiel:

daten %>%
  specify(response ~ gruppe) %>%
  hypothesize(null = "independence") %>%
  generate(reps = 1000, type = "permute")

3. Hypothesentest-Grundlagen

Nullhypothese H₀ (Null Hypothesis)

Die Standardannahme «kein Effekt» oder «kein Unterschied». Sie wird beibehalten, solange die Daten keinen ausreichenden Gegenbeweis liefern. Die Beweislast liegt immer bei der Alternativhypothese.

Beispiel: H₀: μ_A = μ_B (kein Unterschied in Kundenzufriedenheit zwischen Gruppe A und B).

Alternativhypothese H₁ (Alternative Hypothesis)

Die Forschungshypothese, die wir nachweisen wollen. Sie wird akzeptiert, wenn H₀ verworfen wird. Die Alternativhypothese kann einseitig (gerichtet) oder zweiseitig (ungerichtet) formuliert sein.

Beispiel: H₁: μ_A ≠ μ_B (es gibt einen Unterschied).

4. Traditionelle Tests

t-Test

Vergleicht die Mittelwerte zweier Gruppen und prüft, ob der Unterschied statistisch signifikant ist. Setzt annähernd normalverteilte Daten voraus. Bei grossen Stichproben (n > 30) ist der t-Test robust gegenüber Verletzungen der Normalverteilungsannahme.

Beispiel:

t.test(zufriedenheit ~ gruppe, data = kunden_zufriedenheit)

F-Test / ANOVA (Analysis of Variance)

Erweitert den t-Test auf mehr als zwei Gruppen. Prüft, ob mindestens eine Gruppe einen signifikant anderen Mittelwert hat. Bei signifikantem Ergebnis folgen paarweise Vergleiche.

Beispiel:

aov(wert ~ gruppe, data = drei_gruppen)
TukeyHSD(modell)  # Paarweise Vergleiche

Shapiro-Wilk-Test

Prüft, ob Daten normalverteilt sind. Wichtig als Voraussetzungscheck für parametrische Tests wie den t-Test. Ein nicht-signifikantes Ergebnis (p > 0.05) bedeutet, dass die Normalverteilungsannahme beibehalten werden kann.

Beispiel:

shapiro.test(x)
# p > 0.05 → Normalverteilung kann angenommen werden

Regressionstabelle

Die Ausgabe von summary(lm(...)) enthält vier Spalten pro Koeffizient: Estimate (Punktschätzung), Std. Error (Unsicherheit), t value (Estimate/SE), Pr(>|t|) (p-Wert). Zusammen erlauben sie die Beurteilung von Richtung, Grösse und Signifikanz eines Effekts.

Die vier Spalten:

#              Estimate  Std.Error  t value  Pr(>|t|)
# (Intercept)    3.200     0.450     7.11    <0.001
# werbung        0.045     0.012     3.75     0.002

Interpretation: Pro 1 Einheit mehr Werbung steigt der Umsatz um 0.045, und dieser Effekt ist signifikant (p = 0.002).

Standardfehler (Standard Error)

Misst die Unsicherheit einer Schätzung. Nicht zu verwechseln mit der Standardabweichung, die die Streuung der Daten misst. Der Standardfehler wird kleiner bei grösserer Stichprobe: SE = SD / √n.

Beispiel: SD = 1.5, n = 100 → SE = 1.5 / √100 = 0.15.

p-Wert (p-Value)

Die Wahrscheinlichkeit, ein mindestens so extremes Ergebnis zu beobachten, wenn H₀ wahr wäre. Kleiner p-Wert = stärkerer Beweis gegen H₀. Der p-Wert sagt nichts über die Grösse des Effekts aus.

Beispiel: p = 0.03 → Bei 100 Wiederholungen unter H₀ würde man in nur 3 Fällen ein so extremes Ergebnis sehen.

5. Fehlertypen & Entscheidungen

Fehler 1. Art (Type I Error / α)

H₀ wird verworfen, obwohl sie wahr ist (falsch positiv). In der Praxis bedeutet das: Eine unwirksame Massnahme wird als wirksam eingestuft. Die Kosten sind eine Investition in eine nutzlose Massnahme.

Beispiel: Eine Marketing-Kampagne zeigt statistisch einen Effekt, obwohl sie in Wirklichkeit wirkungslos ist. Das Unternehmen investiert daraufhin in die Kampagne.

Fehler 2. Art (Type II Error / β)

H₀ wird beibehalten, obwohl sie falsch ist (falsch negativ). In der Praxis bedeutet das: Eine wirksame Massnahme wird nicht erkannt. Die Kosten sind entgangener Gewinn.

Beispiel: Eine wirksame Kampagne wird nicht erkannt, weil die Stichprobe zu klein war. Das Unternehmen verpasst eine Chance.

Power / Teststärke (1 − β)

Die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt zu erkennen. Höhere Power entsteht durch grössere Stichproben oder grössere Effekte. Eine Power von mindestens 80% gilt als wünschenswert.

Beispiel: n = 50 pro Gruppe, d = 0.5 → Power ≈ 70%. Mit n = 100 pro Gruppe → Power ≈ 94%.

Signifikanzniveau α

Der Schwellenwert für die Entscheidung gegen H₀, typischerweise α = 0.05. Legt die maximal tolerierte Typ-I-Fehlerrate fest. Ein strengeres α (z.B. 0.01) reduziert falsch positive Ergebnisse, erhöht aber die Gefahr falsch negativer.

Beispiel: α = 0.05 → Wir akzeptieren, dass 5% der Entscheidungen falsch positiv sind.

Expected Value / Erwartungswert

Der durchschnittliche Gewinn oder Verlust einer Entscheidung unter Unsicherheit. Berechnung: EV = P(Erfolg) × Gewinn + P(Misserfolg) × Verlust. Der Erwartungswert verbindet statistische Ergebnisse mit ökonomischen Konsequenzen.

Beispiel:

# EV = 0.6 × 100'000 + 0.4 × (-40'000) = 44'000 CHF
expected_value <- function(p, gewinn, verlust) {
  p * gewinn + (1 - p) * verlust
}
expected_value(0.6, 100000, -40000)
# [1] 44000

6. Multiples Testen

p-Hacking

Das selektive Durchführen oder Berichten von Tests, bis ein signifikantes Ergebnis erscheint. Verfälscht die Fehlerrate und führt zu nicht reproduzierbaren Ergebnissen. Typische Formen: Variablen hinzufügen/entfernen, Ausreisser selektiv entfernen, Subgruppen suchen.

Multiples Testen (Multiple Testing)

Bei vielen gleichzeitigen Tests steigt die Wahrscheinlichkeit, rein zufällig signifikante Ergebnisse zu finden. Die Wahrscheinlichkeit mindestens eines falsch positiven Ergebnisses beträgt 1 − (1 − α)^m, wobei m die Anzahl der Tests ist.

Beispiel: Bei 20 Tests unter H₀ mit α = 0.05 sind ~1 falsch positives Ergebnis zu erwarten. Die Wahrscheinlichkeit mindestens eines falsch positiven: 1 − 0.95²⁰ ≈ 64%.

Bonferroni-Korrektur

Konservativste Methode zur Korrektur für multiples Testen: α wird durch die Anzahl Tests geteilt. Kontrolliert die familywise error rate (FWER), kann aber zu viele echte Effekte übersehen (hohe Typ-II-Fehlerrate).

Beispiel:

p_values <- c(0.01, 0.04, 0.03, 0.20, 0.005)
p.adjust(p_values, method = "bonferroni")
# Jeder p-Wert wird mit 5 multipliziert

False Discovery Rate (FDR)

Kontrolliert den erwarteten Anteil falscher Entdeckungen unter allen signifikanten Ergebnissen. Weniger konservativ als Bonferroni und besser geeignet bei vielen Tests. Die Benjamini-Hochberg-Methode (BH) ist die gängigste FDR-Kontrolle.

Beispiel:

p_values <- c(0.01, 0.04, 0.03, 0.20, 0.005)
p.adjust(p_values, method = "BH")
# Weniger streng als Bonferroni, mehr Power

7. Effektstärke & Relevanz

Statistische Signifikanz

Ein Ergebnis ist signifikant, wenn p < α. Aber: Bei grosser Stichprobe können auch triviale Effekte signifikant werden. Signifikanz sagt etwas über die Zuverlässigkeit, nicht über die Wichtigkeit eines Effekts.

Beispiel: Bei n = 1'000'000 kann ein Unterschied von 0.01 Punkten signifikant werden (p < 0.001), obwohl er praktisch bedeutungslos ist.

Praktische Relevanz

Die Frage, ob ein Effekt gross genug ist, um in der Praxis eine Rolle zu spielen. Praktische Relevanz hängt vom Kontext ab und sollte immer zusätzlich zur statistischen Signifikanz beurteilt werden.

Beispiel: Eine Umsatzsteigerung von 0.01% kann signifikant, aber irrelevant sein. Eine Steigerung von 5% ist sowohl signifikant als auch praktisch relevant.

Cohen's d

Misst die Effektstärke als Differenz der Mittelwerte geteilt durch die gepoolte Standardabweichung. Erlaubt den Vergleich von Effekten über verschiedene Skalen und Studien hinweg.

Beispiel:

cohens_d <- function(x, y) {
  nx <- length(x); ny <- length(y)
  pooled_sd <- sqrt(((var(x) * (nx-1)) + (var(y) * (ny-1))) / (nx + ny - 2))
  (mean(x) - mean(y)) / pooled_sd
}

Effektstärke-Interpretation (nach Cohen)

Faustregel zur Einordnung von Cohen's d: |d| < 0.2 = vernachlässigbar, 0.2–0.5 = klein, 0.5–0.8 = mittel, > 0.8 = gross. Diese Schwellenwerte sind Orientierungshilfen, keine starren Grenzen.

Beispiele: d = 0.1 → vernachlässigbar; d = 0.3 → kleiner Effekt; d = 0.6 → mittlerer Effekt; d = 0.9 → grosser Effekt.