TECHNOLOGIES

技術情報

HOME | basic | Clustering | SOM-Wardクラスタリング

SOM-Wardクラスタリング

すでに述べたように、SOMデータマイニングでのクラスタリングにおけるSOMは、従来のクラスタ分析でK-meansと階層型クラスタリングを用いで2段階でクラスタリングを行う方法のK-meansのところをSOMに置き換えたものとみなすことができます。そもそもバッチ型SOMとK-meansはよく似たアルゴリズムです。K-meansの参照ベクトルがお互いに完全に独立していて(ばらばらに動いて)、グループの平均(重心)に厳密に移動するのに対して、SOMのノード(参照ベクトル)は、お互いに近傍関数によって格子状につなげられていて、(お互いが引っ張り合っていて)ばらばらに動くことはできずに、グループの平均ではなく、スムージング(平滑化)された値に移動するように学習がなされます。 
 
K-meansの代わりにSOMの上で階層型クラスタリングを行うことのメリットは、SOMのノードがデータ分布の固有のトポロジー(つながり)を保持しているところにあります。したがって、これを生かすために、従来の階層型クラスタリングの手順の一部を修正することができます。つまり、階層型クラスタリングで、クラスタ同士を併合する際に、クラスタ間の距離の定義に基づくだけでなく、それらのクラスタ同士がSOMのマップの上で隣接している場合のみ併合するというルールを付け加えることができます。これにより、データ分布のトポロジーを考慮に入れた「自然なクラスタリング」を実現できます。これはは、Viscovery社が考案した独自の手法です。 
 

SOMのノードを用いたクラスタリング


  
Viscoveryでは、SOM-単連結法、Ward法、SOM-Ward法の3種類のクラスタリング手法を搭載しております。原理的にはその他の階層型クラスタリングにも上記のアイデアを適用することは可能ですが、ユーザーの混乱をさけるために敢えて利用できなくしております。 
 
SOM-単連結法(single linkage)は、しきい値を用いて隣接し合うノード同士を併合する方法で、結果として従来の単連結法(最短距離法)のSOM版ですが、どのクラスタにも属さないノードが生じます。Ward法は、SOMのノードを単純に従来どおりのWard法でクラスタリングする方法です。これは、SOMのマップ上で同一のクラスタが飛び地となって現れる場合があります。SOM-Ward法はWard法のSOM版で、上記のルールを追加したクラスタリングです。これはマップ上で飛び地のないクラスタリングを生み出します。 
 
データ分布が多次元空間内で曲がっていない場合、Ward法とSOM-Ward法は一致する場合もあります。Ward法でクラスタに飛び地ができるのは、データが多次元空間内で曲がって分布していることを示唆します。 
 

同一のマップのWardクラスタリング(左)とSOM-Wardクラスタリング(右)


  
 Viscoveryでは、選択されたノードのデータ空間での近傍ノードを表示することができます。しばしばマップ上で離れた領域にこれらが出現することがあります。つまり、それらの領域の間の領域は、多次元空間内でデータが曲がって分布していることを示唆しています。それを図式化したのが下図です。 
 
 

データ空間上の近傍ノード

 

お問い合わせ

CONTACT