二項分布
結果が成功と失敗の2通りしかなく、その結果が確率によって決まるとき、その試行をベルヌーイ試行といいます。
このベルヌーイ試行を何回か行った場合の成功回数を確率変数とした確率分布を二項分布といいます。
試行回数が$n$、成功確率が$p$の二項分布は$B(n, p)$と表されます。
確率質量関数
試行回数を$n$、成功確率を$p$、成功回数を$x$とすると、二項分布の確率質量関数$f(x)$は以下になります。
$ f(x) = {}_n \mathrm{C}_x p^x (1 - p)^{n - x} $
名前の由来
二項分布という名前は、確率質量関数に二項係数${}_n \mathrm{C}_x$が出ることに由来しています。
二項係数は$(a + b)^n$を展開したときに出てくる係数です。
$ (a + b)^n = \sum_{k=0}^n {}_n \mathrm{C}_k a^{n - k} b^k $となり、この式を二項定理といいます。
期待値と分散
$B(n, p)$の期待値は$np$、分散は$np(1 - p)$です。
期待値と分散の証明
期待値
$$
\begin{align*}
E[X] &= \sum_{x=0}^n x {}_n \mathrm{C}_x p^x (1 - p)^{n - x} \\
&= \sum_{x=1}^n x {}_n \mathrm{C}_x p^x (1 - p)^{n - x} & \cdots\ & \text{x=0のときΣ内の式は0} \\
&= n \sum_{x=1}^n {}_{n - 1} \mathrm{C}_{x - 1} p^x (1 - p)^{n - x} & \cdots\ & k {}_n \mathrm{C}_k = n {}_{n - 1} \mathrm{C}_{k - 1} \\
&= n \sum_{k=0}^{n - 1} {}_{n - 1} \mathrm{C}_k p^{k + 1} (1 - p)^{n - (k + 1)} & \cdots\ & \text{k=x-1としてkの式に変換} \\
&= np \sum_{k=0}^{n - 1} {}_{n - 1} \mathrm{C}_k p^k (1 - p)^{n - 1 - k} \\
&= np (p + (1 - p))^{n - 1} & \cdots\ & \text{二項定理} \\
&= np
\end{align*}
$$
分散
$$
\begin{align*}
E[X(X - 1)] &= \sum_{x=0}^n x(x-1) {}_n \mathrm{C}_x p^x (1 - p)^{n - x} \\
&= \sum_{x=2}^n x(x-1) {}_n \mathrm{C}_x p^x (1 - p)^{n - x} & \cdots\ & \text{x=0,1のときΣ内の式は0} \\
&= n \sum_{x=2}^n (x-1) {}_{n - 1} \mathrm{C}_{x - 1} p^x (1 - p)^{n - x} & \cdots\ & k {}_n \mathrm{C}_k = n {}_{n - 1} \mathrm{C}_{k - 1} \\
&= n(n-1) \sum_{x=2}^n {}_{n - 2} \mathrm{C}_{x - 2} p^x (1 - p)^{n - x} & \cdots\ & \text{同上} \\
&= n(n-1) \sum_{k=0}^{n - 2} {}_{n - 2} \mathrm{C}_{k} p^{k + 2} (1 - p)^{n - (k + 2)} & \cdots\ & \text{k=x-2としてkの式に変換} \\
&= n(n-1)p^2 \sum_{k=0}^{n - 2} {}_{n - 2} \mathrm{C}_{k} p^k (1 - p)^{n - 2 - k} \\
&= n(n-1)p^2 (p + (1 - p))^{n - 2} & \cdots\ & \text{二項定理} \\
&= n(n-1)p^2
\\\\
V[X] &= E[X(X - 1)] + E[X] - (E[X])^2 \\
&= n(n-1)p^2 + np - (np)^2 \\
&= (np)^2 - np^2 + np - (np)^2 \\
&= np(1 - p)
\end{align*}
$$