Single40'S diary

「40過ぎて独身で」と言ってる間にはや還暦のブログ

数式を使わないデータマイニング入門

「数式を使わないデータマイニング入門」岡嶋裕史。副題は「隠れた法則を発見する」。

一昔前になるけど、あるスーパーマーケットの逸話が有名になった。
それは「オムツとビールを近くの売り場においたら、売り上げが上がった」というものだった。
その解題もなされていた。
奥さんに言いつけられて、だんなさんがオムツを買いに来る。彼は、子育ての手伝いをさせられているわけだ。
しかし、たまの休日なので、本音はゴロゴロしたい。
奥さんは怖いので、仕方なく、スーパーに子守をするためオムツを買いにいく。
そこで、オムツの棚の隣に、ビールを発見するわけだ(笑)
「こりゃあいい」
グッドアイディアを思いついた彼は、大喜びでビールを買ってかえる。
子守しながらいっぱいやろうという算段で間違いない、、、というわけである。

そして、これこそが単に「売れ筋、死に筋管理」という単品管理を超えた新しい手法「データマイニング」だとして人口に膾炙した。
ところが、本書によれば、この話は伝説であって、実話が確かめられたわけではないそうである。なあんだ。
きっと、誰かPR上手な知恵者が考え付いた話なのであろうなあ。

今では、どこのコンビニ、スーパーだってPOSレジがある。「販売時点管理」だ。
これで単品ごとに、何がいくつ売れたか、たちどころに把握可能である。
売れない商品はどんどん淘汰されて、売れる商品だけが生き残るのだ。自然淘汰を、すごくスピーディに起こすシステムである。

ただ、この手法では限界がある、というのがデータマイニングの批判である。
「売れた、売れない」はあくまで結果論である。「なぜ売れたか、どうして売れないか」はわからない。
わからない以上、新商品の売れ行きは予測不可能である。
データマイニングは、結果データ間の相関をみて、次に何が売れるかを予測する技術なのである。
これが的中すれば、余計な試行錯誤のために費やされるコストは削減できる、もっと最適解に早く近づけるというわけである。
このような手法が可能になったのは、昔と違って、データ蓄積コストが著しく低下し、大容量データを自由に扱えるようになったことが大きく影響している。

評価は☆。まさにデータマイニング入門書である。
データマイニングとは何か、という概略を手っ取り早く知るには適している。
ただし、本書を読んだからデータマイニングができる、というものではない。

ここ最近では、データマイニングは、あまり騒がれなくなった。
理由は簡単である。データ間の相関は、データハウスなどで簡単に見出せるが、それをつなぐストーリー(ビールとオムツのような)は人間が考えるしかない。
この「法則を読み取る」スキルは、あくまで属人的なもので、システム化できないことがわかったのである。
誰でも使える未来予測の魔法のツール、ではなかったわけだ。
今は、データマイニングは専門家に任せる会社が多いし、そのレポートも、それなりに読みはするが、企業の意思決定に大きく関与はしていない。
意地悪な言い方をすれば、星占いと大きく変わりはないと言い放つ経営陣もいるくらいである。

そうはいっても、データマイニング的なものを、人は欲しがる。
それが「当たる」と、そのストーリーが、さも真実だったと信じ込んでしまうのである。

もっとも、何も予言しない理論が「究極」といわれたりする現代物理学の世界から考えると、たしかに一点でも「予言成功」したら、その理論を真実だと思い込むのは無理がない。
人間の弱さとは、そういうものでありましょうなあ。