早嶋です。
標準偏差。統計や確率変数のバラつきの具合を表す数値の1つで、ギリシャ文字のσやsで表されます。この文字を聞いて、或いはこの概念を聞いて急に数学がわからなくなった方、多いと思います。そもそもバラつきの概念って?
例えば、地方に電車の駅があるとしましょう。そこにはバス停も併設されています。例えば、その場所から別の場所に移動する場合、
A:バスで移動するとしたら、何分前にバス停に行きますか?
B:電車で移動するとしたら、何分前にプラットフォームに行きますか?
おそらく多くのかたがバス停には早めに、プラットフォームはギリギリに行くのではないでしょうか?これがバラつきの概念です。つまり、バスは経験値から遅れる時間の幅が電車よりも多いということを知っているのです。従って、バラつきの度合いは電車よりバスのほうが大きいということです。標準偏差はこの度合いを数字で表したものです。
標準偏差。計算式はややこしいのですが、正規分布の特性を知っておくと暗算で算出することができます。
例えば、Aのバスの場合10分前に行くとします。そしてBの電車の場合3分前に行くとします。それぞれ時刻表は、12:00に出発だったとします。
Aの場合は、経験値からおよそ、11:50から12:10の間に出発するという予測を立てています。
Bの場合は、同様におよそ、11:57から12:03の間に出発するという予測を立てています。
人がおよそと言った場合の確率を95%とします。つまり100回同じことを繰り返して95回はその通りになる。バスや電車もおよそといった場合は、100回中95回は、それぞれ上の時間の間に出発するとします。
正規分布のよく使う範囲について、平均値を0、標準偏差を1とした場合、−2から2の間にほぼ95%の確率で分布することが分かっています。つまり、平均値±2×標準偏差の範囲に95%の確率で分布するということです。このことは、難しい式では、下のように表現されます。
P(m ≦ X ≦ m + 2σ ) = P( 0 ≦ Z ≦ 2 ) = p(2) = 0.4772
より、
P(m – 2σ ≦ X ≦ m + 2σ ) = 0.9544 ( 95.4%)
これをバス停や電車に当てはめて見ると、平均値は12:00、つまり0分。そして、平均値から標準偏差を2つ分引いた値から、標準偏差を2つ分足した値の間に約95%の確率で出発すると言い換えることができます。
A:バスの場合は11:50から12:10ということなので、標準偏差は10を2で割った値、つまり5分。
B:電車の場合は11:57から12:03ということなので、標準偏差は3を2で割った値、つまり1.5分。
というように簡単に暗算出来てしまうのです。
応用してみます。例えば、100人くらい人を集めて、暗算で100人分の身長の平均値と標準偏差値を暗算で算出する場合を考えて見ましょう。素直に計算すると、平均値を求めるだけで一苦労です。
ここで平均身長±2×身長の標準偏差の範囲に95%の人が分布していると過程します。これがわかれば、標準偏差は身長の一番高い人と一番低い人の差分を2で割った値という事が分かります。
例えば、100人の中で一番高い人は180cm、一番低い人が150cmだったとします。これより、150cmから180cmの間にほぼ95%の確率で分布していると仮説が立ちます。平均値をm、標準偏差をσとした場合、以下の連立方程式になります。
m−2×σ=150
m+2×σ=180
これよりm=165cm、σ=7.5cmですね。