Wir beobachten einen Prozess (z.B. Produktion einer Tafel Schokolade mit 100g Gewicht). Bei der Produktion gibt es mehrere unabhängige, identisch verteilte Fehlerquellen, die sich aufaddieren (z.B. beim wiegen der einzelnen Zutaten). Diese sind gleichverteilt, zwischen -1g weniger als vorgeschrieben und +1g mehr als vorgeschrieben. Wir betrachten 1000 Stichproben.
Wir betrachten eine erste Fehlerquelle, z.B. bei dem Wiegen des Kakaos. Dieser Fehler (x1) ist gleichverteilt auf dem Intervall [-1,1].
fehler1 = runif(1000,min = -1,max=1)
head(fehler1,n=40)
## [1] -0.42484496 0.57661027 -0.18204616 0.76603481 0.88093457
## [6] -0.90888700 0.05621098 0.78483809 0.10287003 -0.08677053
## [11] 0.91366669 -0.09333169 0.35514127 0.14526680 -0.79415063
## [16] 0.79964994 -0.50782453 -0.91588093 -0.34415856 0.90900730
## [21] 0.77907863 0.38560681 0.28101363 0.98853955 0.31141160
## [26] 0.41706094 0.08813205 0.18828404 -0.42168053 -0.70577271
## [31] 0.92604847 0.80459809 0.38141056 0.59093484 -0.95077263
## [36] -0.04440806 0.51691908 -0.56718413 -0.36363798 -0.53674843
Verteilung dieses Fehlers über die 1000 Messungen
hist(fehler1)
Dieser Fehler ist also tatsächlich gleichverteilt!
Jetzt kommt eine weitere Fehlerquelle hinzu (fehler2, z.B. Wiegen des Zuckers). Auch dieser Fehler ist auch gleichverteilt auf [-1,1], unabhängig vom ersten Fehler.
fehler2 = runif(1000,min=-1,max=1)
hist(fehler2)
Beide Fehlerquelle korreliere nicht miteinander
plot(fehler1,fehler2,pch=19)
Die beiden Fehler addieren sich gegenseitig auf zu einem Gesamtfehler
gesamtfehler = fehler1 + fehler2
Wie ist dieser Fehler verteilt?
hist(gesamtfehler)
Die Summe der beiden Fehler ist jetzt KEINE Gleichverteilung mehr!
Nehmen wir weitere Fehlerquellen hinzu:
## 100 ubanhängige Fehlerquellen
n = 100
gesamtfehler = sapply(1:n,function(i)
{
runif(1000,min=-1,max=1)
})
gesamtfehler[1:5,1:5]
## [,1] [,2] [,3] [,4] [,5]
## [1,] -0.68065204 -0.5883462 -0.3910716 -0.5027402 -0.11947796
## [2,] -0.71096830 0.8850781 0.6656376 0.9789264 -0.20521569
## [3,] -0.70163922 -0.2413524 0.1872950 0.4342438 -0.25690469
## [4,] 0.02886852 0.2524803 0.6143933 0.3034566 0.05761715
## [5,] -0.01434539 -0.6329952 -0.4118984 -0.5188876 -0.85242918
In dieser Tabelle ist jede Spalte eine Fehlerquelle, jede Zeile eine der 1000 Messungen (wir zeigen hier nur die ersten 5 Spalten und Zeilen!)
Wir addieren den Effekt dieser n
Fehlerquellen, die alle einzeln gleichverteilt sind:
summe.fehler = apply(gesamtfehler,1,sum)
hist(summe.fehler,breaks=20)
Handelt es sich hier um eine Normalverteilung? Das können wir mit einem QQ-Plot beantworten, und die Quantile dieser Verteilung mit den theoretischen Quantilen einer Normalverteilung vergleichen:
qqnorm(summe.fehler)
qqline(summe.fehler)
JA!