Einführung in die Hypothesen-Tests

Ich untersuche die Körpergröße einer Population (Zufallsvariable H); der Erwartungswert von H ist \(h_0=E(H)=180\).

Verteilung der Mittelwerte \(\bar{h}\) bei einer Stichprobe N=10 (über 10000 Stichproben aus dieser Population):

h0 = 180 # Erwartungswerte der ZV
n = 10 # Groesse der Stichprobe
h = lapply(1:10000,function(i) {k = rnorm(n,mean=h0,sd=10)})
hm = sapply(h,mean)
hist(hm,n=60,main="Mittelwerte") # Verteilung der Werte der Teststatistik unter H0

Ich weiss, dass die Breite dieser Verteilung durch den Standardfehler gegeben ist, und der Mittelwert dem Erwartungswert entspricht; ich kann also eine Z-Transformation durchführen: \(\theta = \frac{(\bar{h}-h_0)}{s/\sqrt{n}}\):

n = 10 # Groesse der Stichprobe
Theta = sapply(h,function(k) {(mean(k)-h0)/(sd(k)/sqrt(n))})
hist(Theta,n=60) # Verteilung der Werte der Teststatistik unter H0

Jetzt habe ich eine Stichprobe von N=10 Personen; wie wahrscheinlich ist es, dass sie aus der Population mit \(h_0=180\) kommen ? Dazu muss ich die beobachtete Teststatistik dieser Stichprobe berechnen, und die H0 Verteilung vergleichen:

h1 = 170
n= 10
y = rnorm(n,mean=h1,sd=10)
ym = mean(y) # Mittelwert der Probe
ys = sd(y) # Standardabweichung der Probe
se = ys/sqrt(n) # Standardfehler
theta = (ym-h0)/se
hist(Theta,n=60)
abline(v=theta,lty=3,lwd=3,col='red')

message(theta)
## -3.53350230979224

Der beobachtete Wert der Teststatistik (rote Linie -3.5335023) ist innerhalb der Verteilung, aber liegt deutlich am Rande der Verteilung! Wie wahrscheinlich ist es, unter H0 einen solchen Wert der Teststatistik zu beobachten ? Da die Wahrscheinlichkeit eines einzelnen Wertes bei stetigen Verteilungen wenig Sinn macht koenne wir z.B. die Wahrscheinlichkeit bestimmen, einen kleineren Wert zu beobachten:

p = sum(Theta<=theta)/length(Theta)
message(p)
## 0.0035

Die Wahrscheinlichkeit (also Fläche links von der Linie) ist 0.0035.

Aber der beobachtete Wert hätte auch in die andere Richtung abweichen können (also nach oben).

h1 = 195
n= 10
y = rnorm(n,mean=h1,sd=10)
ym = mean(y) # Mittelwert der Probe
ys = sd(y) # Standardabweichung der Probe
se = ys/sqrt(n) # Standardfehler
theta = (ym-h0)/se
hist(Theta,n=60)
abline(v=theta,lty=3,lwd=3,col='red')

message(theta)
## 5.9929370900838

Hier hätten wir vermutlich die Fläche rechts von der Linie berechnet (“was ist die Wahrscheinlichkeit, dass unter H0 ein grösserer Wert beobachtet wird?”, also H1 = “grösserer Erwartungswert”):

p = sum(Theta>=theta)/length(Theta)
message(p)
## 3e-04

Wir müssen aber von Anfang an definieren, was H1 ist; H1 kann nicht erst im nachhinein definiert werden. Daher sollte man hier von anfang an H1 definieren als “Erwartungswert ist grösser ODER kleiner als 180” (beidseitiger Test). Was ist dann die Wahrscheinlichkeit, dass theta extremer ist als der beobachtete Wert ?

hist(Theta,n=60)
abline(v=c(-abs(theta),abs(theta)),lty=3,lwd=3,col='red')

p = sum(Theta>=abs(theta))/length(Theta) + sum(Theta<=-abs(theta))/length(Theta)
message(p)
## 5e-04