統計とデータマイニング

2008年6月29日 日曜日

早嶋です。

ブログ「ムーアの法則」で書きましたが半導体の性能向上とともに、情報の保存が安価になっています。データマイニングと言う言葉が世の中に浸透してきて当たり前の言葉になっているのもムーアの法則に関係があります。

データマイニングで行われる処理自体は従来から行われている統計処理と変わりませんが、そこで扱う情報が質と量の両面において変化してきました。従来、高コストであった情報が水や空気のように安価に記録することができるようになったからです。

統計自体は、情報の記録がまだまだ高コストだった頃に確率された学問です。ですので、出来る限り小さな情報をもとに世の中の姿を知るための努力がなされています。一方、データマイニングは膨大なデータから何か役に立ちそうな法則や関連性を探します。

この技術はマーケティングに留まらず社会の様々な局面で利用されているでしょう。ネットでの検索もデータマイニングのお陰ですし、アマゾンでお勧めの図書を推薦してくれるのもデータマイングのお陰です。

ただ、データマイニングの手法を調べたり、勉強したりするときっと疑問を持つとおもいます。これまで行われてきた統計処理と何が違うのか?と。この疑問は当然だと思います。それは、データマイニングという特別な分析手法が存在するわけではないからです。データマイニングは膨大なデータから何かの規則性や法則を見つけ出す行為を示す言葉です。

実際、データマイニングは「回帰分析」「決定木分析」「クラスタ分析」「ニューラルネットワーク」などの手法を組み合わせて情報の分析を行います。冒頭にも書いたように、データマイニングは手法の目新しさではなく、分析する情報の量と質に違いがあるのです。

従来、何かを調べよう!と思ったとき、先ず調べる対象に関係する情報の収集から始まりました。しかし、この手法では最初に収集したデータ以上のことに関して分析することが出来ません。分析をする人がその道に長けていたり、データのサンプリング技術が素晴らしかったりすると、ある程度のストレッチが出来ますが、やはり分析するデータによって成果が限定されるでしょう。

そんな中で自体を変えたのがムーアの法則です。正確には情報技術の進歩によって情報の管理コストや蓄積コストが低くなったことです。すなわち、何かの目的のために情報を蓄積するのではなく、とりあえず様々な情報を蓄積する発想が芽生えたのです。

企業を始め様々な組織では、いつ役にたつか分からないけど、とりあえずデータを取っておくという発想が至るところにあると思います。そして、この傾向がドンドン進めば、必要な情報は既にどこかに収められており、それを取り出す方法も標準化が進められる可能性が高くなります。こうなれば、一見関係の無いデータ同士を分析して過去の経験や法則を超えた新たな規則や法則が顕在化していくかもしれません。

優れた経営者は、このようなことを勘や経験で意識的、無意識的に悟っていたかもしれません。しかし、データマイングの発展によって、これまで経験や勘に頼っていた種々のスキルが誰でも活用できるようになるかもしれません。データマイニング、このような点で革新的な行為だと思います。



コメントをどうぞ

CAPTCHA