平均とばらつき

2006年7月19日 水曜日

早嶋です。

標準偏差という言葉を聞いたことがあると思いまが、実際は意味が分からないまま、使っている方が多いのではないでしょうか。様々な局面でデータを収集した時に、データ全体(集団)としては同じようなデータでも、個々のデータを見てみると集団と少しずつ異なります。理由は様々ですが、このような現象をばらつきがあるとか、変動があると表現します。

標準偏差とは、ばらつきを表すための一つの尺度です。ばらつきを数値で表す方法は幾つかあります。簡単な方法では、集団の最大値と最小値の差を範囲としてあらわす方法です。しかし、データのサンプル数が異なる集団を比較したり、データが大きい場合は、適切な方法ではありません。

別の方法では、個々のデータと集団の平均値からの差分を計算して、その絶対値の総和をデータの数で割ることによって、ばらつきの目安を測るのがあります。ただ、数学の世界でこれは広く受け入れなかったようです。

上記の方法を応用して、個々のデータと集団の平均値の差分の2乗の総和を求め、データ数で割ったものを分散と定義しました。さらに分散のルートを標準偏差と定義し、これがばらつきの尺度として使われるのが一般的になりました。

実際のデータを測定し、全体の平均から個々のばらつきを分布図に描いてみると、平均値を中心とした山の形が出来上がります。これは正規分布と呼ばれる図です。一度は聞いたことがあると思いますが、実はばらつきや標準偏差を大まかに把握する上で非常に重要な図になります。

正規分布の山は、平均値を表しますが、この山(正規分布の中心)からの距離が標準偏差と一致するのです。例えば平均値が100で、標準偏差が10だった場合、この集団の約68%の値が100±10、つまり90~110の間に存在することが証明されています。さらに、標準偏差の2倍の幅、100±20、つまり、80~120の間には、約95%の個々の値が存在することが証明されています。このように標準偏差と平均が分かれば、その集団が平均値からどの程度、ばらついているかがはっきりと分かるのです。

通常、生活をしている中で、平均という言葉は良く耳にして実際に使っています。しかし、平均は偏りを無視して計算しているのです。

例えば、A:80・90・100の平均は、90です。同じく、B:10・10・250の平均も90です。AとBは明らかに違った性質の集団(データの集まり)だと分かりますが、実際に全てのデータが比較できなければ、平均という値を信じてしまいがちです。そこで、平均値にばらつきの概念を取り入れて、標準偏差を確認すると、AとBの集団が異種のものであることが分かります。(Aの標準偏差は10で、Bの標準偏差は約139)

世の中で使われている平均は、場合によってミスリードを招きます。それは、ばらつきを表さないからです。平均でものごとを考える場合は、その平均の値がだとうな値かどうかを考える必要がある場合もあるのです。そのような場合に標準偏差を計算すれば、平均値からのばらつきがどの程度かが明確になり、平均の妥当性が明らかになります。

—ただ今、ブログマーケティング実験中。—

実験の詳細は、『ブログマーケティング実験』『ブログマーケティング結果報告』をご覧ください。

中小企業」「マーケティング」「コンサルティング」「経営コーチング」「経営診断」「MBA



コメントをどうぞ

CAPTCHA