統計的推定 #
母集団の特性値を標本のデータから推測すること。点推定と区間推定がある。
点推定と標準誤差 #
標準誤差は下記の式で求めることができる。
$$ 標準誤差 = \frac{\sqrt{\frac{1}{n-1}\sum^n_{i=1}(x_i-\hat{x})^2}}{\sqrt{n}} $$
区間推定 #
母集団が正規分布に従うと仮定できる場合に、標本データを用いて母平均などの推定量を、ある区間で推定する。推定する区間を信頼区間と呼び、「95%信頼区間」などと呼ぶ。
例えば「95%信頼区間」で求めた場合、「母集団から標本をとりだし、その標本から母平均の 95%信頼区間を求める」ことを 100 回実施したとき、95 回程度はその区間内に母平均が入る」ことを表す。母平均がその区間内にある確率が95%という意味ではない。
統計的仮設検定 #
ある仮説が統計学的に成り立つか否かを判断する。
- 仮説を設定
- 有意水準を決定
- 検証
- 背理法を用いて結論づける
例として「ハンバーガーショップのフライドポテトの重量が公表値通りか」を検証する。
- 仮説を設定する
仮説は導きたい結論の反対の仮説を設定する。 設定する仮設=「ハンバーガーショップのフライドポテトの重量は135gである」 - 有意水準を決定 有意水準とは、設定した仮説が間違っていると判断する確率。有意水準0.05とした場合、5%以下の確率で生じる事象は非常にまれなこととする。有意水準は0.05、0.01がよく使われる。ここでは0.05とする。
- 検証する
10個ポテトを購入して、重量を測定する。その結果、120g, 124g, 126g, 130g, 130g, 131g, 132g, 133g, 134g, 140gだったとする。ポテトの重量が正規分布に従うとする。これの標本平均は$\hat{X}=130$である。母分散を知る必要があるが、不明なので仮に36とする。$\sigma^2=36$、$\sigma=6$となる。統計検定量Zは
$$ Z = \frac{\hat{X}-\mu}{\sigma/\sqrt{n}}=\frac{130-135}{6/\sqrt{10}}=-2.64 $$ となる。とするとP=0.00829060が求まる。1 2
from scipy.stats import norm 2*norm.sf(x=2.64, loc=0, scale=1)
- 結論づける 有意水準0.05よりP値が小さいことより仮説「ハンバーガーショップのフライドポテトの重量は135gである」が棄却される。