SOMデータマイニングで何ができるのか?
より具体的に、SOMデータマイニングでどんなことができるのかを述べます。
多次元データの可視化
SOMのノードは、そのノードのデータ空間での近くにある複数のデータレコードの値を代表しています。SOMのノードは、多次元空間では、元のデータセットの分布に沿って自由曲面を形成しています。可視化(表示)されるSOMのマップは、多次元空間でのノードの各変数に対応する値を数列(ベクトル)として記憶して、人間の目で視覚的に見ることができるように2次元の格子として表示しています。したがって、各変数ごとにデータ空間中で値がどのように分布しているか見ることができます。変数ごとの表示(ピクチャ)を見比べることで、変数間の複雑な関係性をつぶさに観察できます。
クラスタリング
SOMのノードは、周辺のデータレコードを従えて、「マイクロ・クラスタ」というべき多数の小さなクラスタを形成しながら、元のデータセットの多次元空間での固有のトポロジーを保持しながら並んでいます。そして、さらにSOMのノード自体も、階層型クラスタ分析でクラスタリングすることができます。それは、大規模なデータセットにK-means(非階層型クラスタリング)を適用して、オブジェクト数を削減してから階層型クラスタ分析を行う、2段階型のクラスタリングと同様、大規模データのクラスタリングに対応します。ただし、SOMデータマイニングは、データ分布の固有のトポロジーを保持しているため、多次元空間内で曲がって分布しているデータ(非線形なデータ)の場合でも自然なクラスタリングを得ることができます。
プロファイル分析
マップ上の任意の領域(クラスタ、またはノードの集まり)の統計的特徴を分析します。多重比較検定によって、任意の領域間で、どの変数で有意な差があるかを調べます。
クラス分類
クラス分類モデルとは、既知の分類法(セグメンテーション)を新しいデータセットでも再現できるモデルのことです。ちなみに、前出のクラスタリングがクラス分類と混同されていることがよくあるのですが、クラスタリングは既知の分類法ではなく、新しい有用な分類法を発見するための手法であり、クラス分類とは異なります。ただし、クラスタリングの結果から得たセグメンテーションを新しいデータセットに適用する場合は、クラス分類として捉えることができます。もちろん、通常のクラス分類モデルと同様、外的基準で与えられた分類を再現するモデルをSOMで作成することもできます。
予測
予測モデルについては、前ページでもすでに触れております。SOMのノードごとに線形回帰モデルを構築することにより、モデルの可読性・可解釈性を生かしながら、全体として非線形なデータの分布によく適合して、より誤差の少ない高精度な予測モデルを構築できます。