数式を使わないデータマイニング入門

February 6, 2011 - 書籍

テキストマイニング書を探していたら、なぜか同じ場所にあったので買いました。

データマイニングって何?という人向けの入門書。1時間もあればサクっと読める軽い内容。データマイニングをはじめる人だけでなく、データマイニングを依頼する側が読むと良いのではないでしょうか。

マイニング=採鉱

第一章にも書いてあるけど、

マイニングとは、「採鉱」を指す言葉である。データマイニングにおけるマイニングは二段階のプロセスに分かれる。 一段階目は、大量の情報から隠れた法則を見つけ出すこと。 〜中略〜 二段階目は、そこで見つかった法則のなかから、使えるものを探し出すこと。これは意外に認知されていない。

さらに、

多くの人は法則さえ見つかれば、それが有意で、お金にもなると考えている。しかし、実際には役に立たない法則の方が多い。この事実は見過ごされがちだ。
マイニングを行えば、何かしら答えが見つかるものだと思われがち。結果的に答えが見つかればラッキー。データマイニングを依頼する側には「期待せずに期待してください」としか言えないですね…

ところで、何かしら答えを限られた期間で見つけ出すのは難しいのだとすれば、データ分析者は評価者に対して目標として何をコミットし、どのように結果を評価されるのでしょうか。プログラマーと同じく、明確な数値目標を設定しづらい職業なのかなと思ったり。

監視社会

本書中盤にはデータマイニング手法としていくつか概要の説明があり、最後には監視社会について触れています。それまでの流れと少し関連性が低い内容ではあるけれど、興味深い内容。参考図書として挙げられていたもの(下記)が10年前の書籍なので、関連する最近の書籍をさがしてみる予定。