Woche 6: Diskrete und stetige Standardverteilungen

1 Diskrete Standardverteilungen

In der Statistik gibt es einige wichtige Standardverteilungen, die häufig verwendet werden, um verschiedene Arten von Daten und Phänomenen zu modellieren. In dieser Woche konzentrieren wir uns auf die Binomialverteilung, die Poisson-Verteilung und die Normalverteilung. Jede dieser Verteilungen hat ihre eigenen Eigenschaften, Parameter und Anwendungsbereiche.

1.1 Die Binomialverteilung (Diskret)

Wird verwendet, wenn wir ein Experiment mit genau zwei Ausgängen (Erfolg/Misserfolg) \(n\)-mal unabhängig voneinander wiederholen und die Anzahl der Erfolge \(k\) zählen.

Parameter: \(n\) (Anzahl Versuche), \(p\) (Erfolgswahrscheinlichkeit)
Formel für genau \(k\) Erfolge: \[P(X = k) = \binom{n}{k} \cdot p^k \cdot (1-p)^{n-k}\]

Der Erwartungswert der Binomialverteilung ist \(E[X] = n \cdot p\) und die Varianz ist \(Var(X) = n \cdot p \cdot (1-p)\).

In R:

dbinom(k, size = n, prob = p) Wahrscheinlichkeitfunktion \(P(X = k)\). Gibt die Wahrscheinlichkeit zurück, genau k Erfolge in n Versuchen mit Erfolgswahrscheinlichkeit p zu erzielen. k beschreibt die Anzahl der Erfolge, size gibt die Anzahl der Versuche an, und prob ist die Erfolgswahrscheinlichkeit pro Versuch.
pbinom(k, size = n, prob = p) Verteilungsfunktion (kumulierte Wahrscheinlichkeit) \(P(X \le k)\). Gibt die Wahrscheinlichkeit zurück, höchstens k Erfolge zu erzielen. k ist die Anzahl der Erfolge, size die Anzahl der Versuche, und prob die Erfolgswahrscheinlichkeit pro Versuch.
rbinom(k, size = n, prob = p) generiert n Zufallszahlen aus der Binomialverteilung mit Wahrscheinlichkeit p und Anzahl Versuche n.’ Was ist n und was ist die size? In rbinom, n ist die Anzahl der Zufallszahlen, die generiert werden sollen, während size die Anzahl der Versuche pro Zufallszahl angibt (also das n in der Binomialverteilung). Zum Beispiel, rbinom(10, size = 5, prob = 0.3) generiert 10 Zufallszahlen, wobei jede Zahl die Anzahl der Erfolge in 5 Versuchen mit einer Erfolgswahrscheinlichkeit von 0.3 darstellt.

Beispiel: Wir treffen einen Basketballkorb mit 80% Wahrscheinlichkeit. Wie hoch ist die Wahrscheinlichkeit, dass wir in 10 Würfen genau 7 Körbe treffen? Das können wir mit dbinom(7, size = 10, prob = 0.8) berechnen.

1.2 Die Poisson-Verteilung (Diskret)

Wird verwendet, um die Anzahl der Ereignisse in einem festen Zeitraum oder Raum zu modellieren, wenn diese Ereignisse mit einer bekannten durchschnittlichen Rate \(\lambda\) auftreten und unabhängig voneinander sind.

Parameter: \(\lambda\) (durchschnittliche Anzahl Ereignisse pro Intervall)
Formel für genau \(k\) Ereignisse: \[P(X = k) = \frac{\lambda^k \cdot e^{-\lambda}}{k!}\]

Der Erwartungswert und die Varianz der Poisson-Verteilung sind beide gleich \(\lambda\).

In R:

dpois(k, lambda = lambda) Wahrscheinlichkeitfunktion \(P(X = k)\). Gibt die Wahrscheinlichkeit zurück, genau k Ereignisse mit durchschnittlicher Rate lambda zu erzielen.
ppois(k, lambda = lambda) Verteilungsfunktion (kumulierte Wahrscheinlichkeit) \(P(X \le k)\). Gibt die Wahrscheinlichkeit zurück, höchstens k Ereignisse mit durchschnittlicher Rate lambda zu erzielen.
rpois(n, lambda = lambda) generiert n Zufallszahlen aus der Poisson-Verteilung mit durchschnittlicher Rate lambda. Zum Beispiel, rpois(10, lambda = 3) generiert 10 Zufallszahlen, wobei jede Zahl die Anzahl der Ereignisse in einem Intervall mit durchschnittlicher Rate von 3 darstellt.

Beispiel: In einem Callcenter kommen durchschnittlich 5 Anrufe pro Stunde an. Wie hoch ist die Wahrscheinlichkeit, dass in einer Stunde genau 3 Anrufe eingehen? Das können wir mit dpois(3, lambda = 5) berechnen.

2 Stetige Standardverteilungen

Stetige Verteilungen modellieren Phänomene, die unendlich viele Werte annehmen können, wie zum Beispiel die Körpergröße von Menschen oder die Zeit, die benötigt wird, um eine Aufgabe zu erledigen. In dieser Kategorie sind die Normalverteilung, die Exponentialverteilung und die Gleichverteilung besonders wichtig.

2.1 Die Gleichverteilung (Uniforme Verteilung, Stetig)

Die Gleichverteilung beschreibt eine Situation, in der alle Werte in einem bestimmten Intervall \([a, b]\) gleich wahrscheinlich sind.

Parameter: \(a\) (untere Grenze), \(b\) (obere Grenze)
Dichtefunktion: \[\varphi(x) = \begin{cases}\frac{1}{b-a} & \text{für } a \le x \le b \\ 0 & \text{sonst}\end{cases}\]
Verteilungsfunktion: \[F(x) = \begin{cases}0 & \text{für } x < a \\ \frac{x-a}{b-a} & \text{für } a \le x \le b \\ 1 & \text{für } x > b\end{cases}\]

Der Erwartungswert der Gleichverteilung ist \(E[X] = \frac{a + b}{2}\) (Durchschnitt von a und b), und die Varianz ist \(Var(X) = \frac{(b - a)^2}{12}\).

In R:

dunif(x, min = a, max = b) Dichtefunktion \(\varphi(x)\). Gibt die Dichte der Gleichverteilung an der Stelle x zurück. min und max geben die unteren und oberen Grenzen des Intervalls an.
punif(x, min = a, max = b) Verteilungsfunktion \(F(x)\). Gibt die kumulierte Wahrscheinlichkeit zurück, dass eine Zufallsvariable aus der Gleichverteilung einen Wert kleiner oder gleich x annimmt. min und max geben die unteren und oberen Grenzen des Intervalls an.
runif(n, min = a, max = b) generiert n Zufallszahlen aus der Gleichverteilung mit den angegebenen Grenzen a und b. Zum Beispiel, runif(10, min = 0, max = 1) generiert 10 Zufallszahlen zwischen 0 und 1.

Beispiel: Die Zeit, die ein Kunde in einem Geschäft verbringt, ist gleichmäßig zwischen 5 und 15 Minuten verteilt. Wie hoch ist die Wahrscheinlichkeit, dass ein Kunde weniger als 8 Minuten im Geschäft verbringt? Das können wir mit punif(8, min = 5, max = 15) berechnen.

2.2 Die Exponentialverteilung (Stetig)

Die Exponentialverteilung modelliert die Zeit zwischen Ereignissen in einem Poisson-Prozess, also die Zeit, die vergeht, bis ein bestimmtes Ereignis eintritt. Beispielsweise könnte sie die Zeit bis zum nächsten Anruf in einem Callcenter oder die Lebensdauer eines elektronischen Geräts modellieren.

Parameter: \(\lambda\) (Rate, durchschnittliche Anzahl Ereignisse pro Zeiteinheit)
Dichtefunktion: \[\varphi(x) = \begin{cases}\lambda e^{-\lambda x} & \text{für } x \ge 0 \\ 0 & \text{sonst}\end{cases}\]
Verteilungsfunktion: \[F(x) = \begin{cases} 1 - e^{-\lambda x} & \text{für } x \ge 0 \\ 0 & \text{sonst} \end{cases}\]

Der Erwartungswert der Exponentialverteilung ist \(E[X] = \frac{1}{\lambda}\), und die Varianz ist \(Var(X) = \frac{1}{\lambda^2}\).

In R:

dexp(x, rate = lambda) Dichtefunktion \(\varphi(x)\). Gibt die Dichte der Exponentialverteilung an der Stelle x zurück. rate gibt die Rate \(\lambda\) an.
pexp(x, rate = lambda) Verteilungsfunktion \(F(x)\). Gibt die kumulierte Wahrscheinlichkeit zurück, dass eine Zufallsvariable aus der Exponentialverteilung einen Wert kleiner oder gleich x annimmt. rate gibt die Rate \(\lambda\) an.
rexp(n, rate = lambda) generiert n Zufallszahlen aus der Exponentialverteilung mit der angegebenen Rate lambda. Zum Beispiel, rexp(10, rate = 2) generiert 10 Zufallszahlen aus der Exponentialverteilung mit Rate 2.

Beispiel: Die Zeit, die ein Kunde in einem Geschäft verbringt, folgt einer Exponentialverteilung mit einer durchschnittlichen Verweildauer von 10 Minuten (also \(\lambda = \frac{1}{10}\)). Wie hoch ist die Wahrscheinlichkeit, dass ein Kunde weniger als 5 Minuten im Geschäft verbringt? Das können wir mit pexp(5, rate = 1/10) berechnen.

2.3 Die Normalverteilung (Gaussverteilung, Stetig)

Die berühmte “Glockenkurve” (Gauss-Verteilung). Sehr viele Phänomene in der Natur und Gesellschaft sind (näherungsweise) normalverteilt.

Parameter: \(\mu\) (Erwartungswert, Zentrum der Glocke), \(\sigma\) (Standardabweichung, Breite der Glocke)
Standardnormalverteilung: Eine spezielle Normalverteilung mit \(\mu = 0\) und \(\sigma = 1\).

In R:

dnorm(x, mean = mu, sd = sigma) Dichtefunktion \(\varphi(x)\). Gibt die Dichte der Normalverteilung an der Stelle x zurück. mean und sd geben den Erwartungswert \(\mu\) und die Standardabweichung \(\sigma\) an.
pnorm(x, mean = mu, sd = sigma) Verteilungsfunktion \(F(x)\). Gibt die kumulierte Wahrscheinlichkeit zurück, dass eine Zufallsvariable aus der Normalverteilung einen Wert kleiner oder gleich x annimmt. mean und sd geben den Erwartungswert \(\mu\) und die Standardabweichung \(\sigma\) an.
rnorm(n, mean = mu, sd = sigma) generiert n Zufallszahlen aus der Normalverteilung mit den angegebenen Parametern mu und sigma. Zum Beispiel, rnorm(10, mean = 0, sd = 1) generiert 10 Zufallszahlen aus der Standardnormalverteilung.

2.4 Quantile

Quantile sind Werte, die eine Verteilung in bestimmte Teile aufteilen. Zum Beispiel teilt das 0.5-Quantil (auch Median genannt) die Verteilung in zwei Hälften: 50% der Werte liegen darunter und 50% darüber. In R können Sie Quantile mit der Funktion qnorm(p, mean = mu, sd = sigma) für die Normalverteilung berechnen, wobei p das gewünschte Quantil ist (z.B. 0.95 für das 95%-Quantil).

Quantile der Verteilungen in R: Wir können die Quantile für die verschiedenen Verteilungen mit den entsprechenden q-Funktionen berechnen:

qbinom(p, size = n, prob = p) für die Binomialverteilung
qpois(p, lambda = lambda) für die Poisson-Verteilung
qunif(p, min = a, max = b) für die Gleichverteilung
qexp(p, rate = lambda) für die Exponentialverteilung
qnorm(p, mean = mu, sd = sigma) für die Normalverteilung

Tipp für die Prüfung und R

Achten Sie in R genau auf den Unterschied zwischen d (density/Wahrscheinlichkeit für genauen Wert bei diskreten) und p (probability/kumulierte Wahrscheinlichkeit für “kleiner gleich”). Wenn nach “höchstens 3 Erfolgen” gefragt wird, brauchen Sie pbinom(3, ...). Wenn nach “genau 3 Erfolgen” gefragt wird, dbinom(3, ...).