Central Limit Theorem

Wir beobachten einen Prozess (z.B. Produktion einer Tafel Schokolade mit 100g Gewicht). Bei der Produktion gibt es mehrere unabhängige, identisch verteilte Fehlerquellen, die sich aufaddieren (z.B. beim wiegen der einzelnen Zutaten). Diese sind gleichverteilt, zwischen -1g weniger als vorgeschrieben und +1g mehr als vorgeschrieben. Wir betrachten 1000 Stichproben.

einzelne Fehlerquelle

Wir betrachten eine erste Fehlerquelle, z.B. bei dem Wiegen des Kakaos. Dieser Fehler (x1) ist gleichverteilt auf dem Intervall [-1,1].

fehler1 = runif(1000,min = -1,max=1)
head(fehler1,n=40)

##  [1] -0.42484496  0.57661027 -0.18204616  0.76603481  0.88093457
##  [6] -0.90888700  0.05621098  0.78483809  0.10287003 -0.08677053
## [11]  0.91366669 -0.09333169  0.35514127  0.14526680 -0.79415063
## [16]  0.79964994 -0.50782453 -0.91588093 -0.34415856  0.90900730
## [21]  0.77907863  0.38560681  0.28101363  0.98853955  0.31141160
## [26]  0.41706094  0.08813205  0.18828404 -0.42168053 -0.70577271
## [31]  0.92604847  0.80459809  0.38141056  0.59093484 -0.95077263
## [36] -0.04440806  0.51691908 -0.56718413 -0.36363798 -0.53674843

Verteilung dieses Fehlers über die 1000 Messungen

hist(fehler1)

Dieser Fehler ist also tatsächlich gleichverteilt!

zweite Fehlerquelle

Jetzt kommt eine weitere Fehlerquelle hinzu (fehler2, z.B. Wiegen des Zuckers). Auch dieser Fehler ist auch gleichverteilt auf [-1,1], unabhängig vom ersten Fehler.

fehler2 = runif(1000,min=-1,max=1)
hist(fehler2)

Beide Fehlerquelle korreliere nicht miteinander

plot(fehler1,fehler2,pch=19)

Die beiden Fehler addieren sich gegenseitig auf zu einem Gesamtfehler

gesamtfehler = fehler1 + fehler2

Wie ist dieser Fehler verteilt?

hist(gesamtfehler)

Die Summe der beiden Fehler ist jetzt KEINE Gleichverteilung mehr!

viele Fehlerquellen

Nehmen wir weitere Fehlerquellen hinzu:

## 100 ubanhängige Fehlerquellen
n = 100
gesamtfehler = sapply(1:n,function(i) 
  {
  runif(1000,min=-1,max=1)
  })
gesamtfehler[1:5,1:5]

##             [,1]       [,2]       [,3]       [,4]        [,5]
## [1,] -0.68065204 -0.5883462 -0.3910716 -0.5027402 -0.11947796
## [2,] -0.71096830  0.8850781  0.6656376  0.9789264 -0.20521569
## [3,] -0.70163922 -0.2413524  0.1872950  0.4342438 -0.25690469
## [4,]  0.02886852  0.2524803  0.6143933  0.3034566  0.05761715
## [5,] -0.01434539 -0.6329952 -0.4118984 -0.5188876 -0.85242918

In dieser Tabelle ist jede Spalte eine Fehlerquelle, jede Zeile eine der 1000 Messungen (wir zeigen hier nur die ersten 5 Spalten und Zeilen!)

Wir addieren den Effekt dieser n Fehlerquellen, die alle einzeln gleichverteilt sind:

summe.fehler = apply(gesamtfehler,1,sum)
hist(summe.fehler,breaks=20)

Handelt es sich hier um eine Normalverteilung? Das können wir mit einem QQ-Plot beantworten, und die Quantile dieser Verteilung mit den theoretischen Quantilen einer Normalverteilung vergleichen:

qqnorm(summe.fehler)
qqline(summe.fehler)

JA!

Central Limit Theorem

MoBi Data Analysis - WS1920

Carl Herrmann

einzelne Fehlerquelle

zweite Fehlerquelle

viele Fehlerquellen