変数選択と重みづけ
変数選択と重みづけは、SOMデータマイニングにおいてとても重要なステップです。なぜなら、SOMはデータ(ひいては現象)に内在する概念(Concept)構造をモデル化するのですが、物事の概念というものは、物事を見る<観点>によって変幻自在だという実にやっかいな性質を持っているからです。
実際、変数選択と重みづけによって、ほとんど無限とも言えるほどさまざまな様相のマップを作成することができます。初心者の多くが、これについて悩みます。「どのマップが正しいマップなのか?」と考える人は、SOMデータマイニングにはあまり向いていないのかもしれません。
探索的なマイニングをしている段階では、ずばり言って、これらのマップのどのマップも正しいマップであり、間違いではありません。ユーザーは、これらのマップから得られる知見を虚心坦懐に受け入れるべきなのです。そうすることによって、分析対象へのより深い理解に到達することができるでしょう。
しかしながら、たいていの場合、分析というのはそのままで終わるわけには行かないもので、何らかの方向に収束させて行かなければなりません。ここから先は、ユーザー自身がデータと対話しながら、独自にロジックを組み立てていく力が必要になります。
マップの順序づけへの寄与
ここで議論している「変数選択と重みづけ」は、SOMのノードの順序づけに影響します。したがって、クラスタリングをしたときには、どのデータレコードとどのデータレコードが同じクラスタに属するか(クラスタのメンバーシップまたはクラスタリング全体)が変化します。変数選択と重みづけは、データレコード間の類似度・非類似度に影響を与えます。
ただし、その他の計算をするためのデータの値にはなんら影響はありません。たとえば、性別、年齢、年収、その他の属性があって、異なる重みづけで複数のマップが得られたとして、「男性、50代、年収2000万円から3000万円」でマップ領域を選択した場合、選択されるマップ領域の見かけは異なるかもしれませんが、同じデータセットがマップに提示されているのであれば、そこから回収されるデータレコードは厳密にまったく同じデータレコードです。分析の目的や内容によっては、多少、変数選択・重みづけが異なっていても、まったく結果に影響しない場合も多々あります。そういう意味では、SOMのマップの作成方法には、あまり神経質になりすぎる必要もなく、データに素早くアクセスするインタフェースとしてSOMを活用することもできます。
探索的なプロセス
マップの見方で述べたように、属性ピクチャで値の高いところ(赤い色のノード)と値の低いところ(青色のノード)が、まとまっていて値(色)が穏やかに変化している変数(属性)は、マップの順序づけによく寄与しています。逆に値(色)の変化がランダムに近づくほど、その変数(属性)はマップの順序づけに寄与していません。
ランダムな場合は、その変数は、そのマップ(モデル)における他の属性とは関係がないということになります。また、ある属性に重みをかけて、もう一方の属性には重みをかけずに(重み0)マップを作成して、これらの属性ピクチャが似た色の分布をしている場合、これらの変数性の関係性(相関)が強いということになります。このような結果を見ながら探索的に重みづけを変えながら複数のマップを作成して、有用なマップを探していくのが、SOMによる探索的なデータ分析(マイニング)です。