TECHNOLOGIES

技術情報

HOME | basic | visualization | SOMのマップの見方

SOMのマップの見方

SOMのマップを見るときに重要なポイントは、各属性(変数)の値が、マップの領域でどのように分布しているかということです。領域ごとに、どの属性の値が高いか?低いか?を見ます。マップの可視化によって、直観的にそれを判断できるのがSOMの強みでもありますが、反面、可視化のみに頼った分析では定量的な分析ができません。Viscoveryでは、SOMのマップ上で定量的な分析もできるように改良されておりますが、Viscovery以外のSOMでは可視化に頼りすぎる点が最大の欠点でもあります。
 
初心者がSOMのマップを見たときに最もよく出る疑問は、「マップの縦と横は何?」ということなんですが、SOMはデカルト座標の縦軸・横軸を意味しておりません。前のページで述べたように、多次元空間内でデータが分布している密度の高いところに、2次元の柔軟な格子を沿わせて自由曲面を形成しています。SOMのノードは、多次元空間での座標(各軸の値)を記憶しています。我々が見ているマップは、本来は人間に見えない多次元空間のモンスターを平たく伸してまな板に載せたようなものです。
 
たとえば、顧客がどの商品をどれだけ購入したかという購買履歴データから作成したマップであれば、マップ上には購買行動の類似性によって顧客が並んでいることになります。マップ上の任意の領域を選択すると、そこから類似した購買行動をとっている顧客を識別できます。(結果として、彼らのデータを即座に回収できます。)たとえば、音楽データのダウンロード・サービスの顧客であれば、マップ上の各領域に、「アイドル」、「ジャニーズ」、「アニメ」、「女性歌手」、「ビジュアル系」、「ダンス音楽」、「ロック」、「洋楽」、「アダルト」といったような各ジャンルに、顧客が分かれていることを見て取ることができます。
 
マップの各領域の特徴をより正確に分析するのは、プロファイル分析で行うとして、マップの可視化から判断するべき、とくに重要な視点について以下に述べます。
 

パターンと支配変数の識別

まず、どの属性(変数)がマップの順序づけにより強く寄与しているかを識別します。値の高いところ(赤い色)と値の低いところ(青い色)が、穏やかに分布していて、明確なパターン(たとえば、マップのどちらかの側の値が高く、そこから遠のくほどだんだん低くなるなど)が示されている属性は、マップの順序づけによく寄与しています。
 

支配変数(主要な変数)(左)と被支配変数(主要でない変数)(右)

 
探索的な分析をしている段階では、この結果を見て、次に作成するマップでの属性の重み(重要度)を決定します。重みを大きくすると、その属性がマップの順序づけにより寄与するようになります。重みを小さくすると、その逆となります。
 
クラス分類や予測など、目的変数のある場合は、一般的に、説明変数に重みをかけて、目的変数の重みを0にしてマップを作成します。(あるいは通常のSOMでは、学習の段階では目的変数を提示せずにマップを作成します。)それでも目的変数が、マップ上で何らかのパターンを示しながら穏やかに分布しているなら、そのマップを分類や予測に使用することができます。しかし、目的変数の値の分布がランダムに近づくほど、そのマップを分類や予測の目的で使用することはできなくなります。これは、SOMの活用法のごく基本なのですが、教科書には書かれていないので、SOMを専門的に研究している人でも、気づいていない人がよくいらっしゃるようです。
 

複雑な従属性(関係性)の識別

さらに属性間の相関や交互作用を識別することも重要です。一般的な相関係数は、2つの変数の関係性の強さを示しています。その根底には、2つの変数の関係が比例(線形モデル)で表せることを前提にしています。直線のモデルからのばらつきが小さいほど強い相関ということになります。モデルの直線が右上がりだと正の相関で、右下がりだと負の相関になります。
 
しかしながら、実際には、この関係が常に一定であるというのは、あまり現実的な仮定ではありません。たとえば、2つの変数の関係を散布図でプロットすると、空間のある領域では、直線の近くに集中してポイントがあるけれども、また別の領域ではポイントがより拡散しているかもしれません。そして、線の傾きも一定ではない(つまり曲線になる)かもしれません。通常の相関係数では、このような複雑な関係を把握することが難しいです。
 
一般的なSOMのマップでは、相関係数というような定量的な分析はできないのですが、属性の値の分布パターンによって、大まかではあるけれども、相関係数ではわからない局所的な違いを識別することができます。マップ上の分布のパターンが似ている属性同士は、正の相関があります。逆のパターンを持つ属性同士は負の相関になります。SOMの上では、局所的な領域では正の相関でありながら、別の領域では負の相関になっているというようなことを素早く的確に把握できるのです。
 
Viscoveryではさらに、マップ上で選択した領域の相関係数を計算することができます。通常の相関係数は、データ集合全体で均した関係性の強さしかわからないのですが、Viscoveryではローカルな相関係数がわかります。(相関係数だけでなく、記述統計量、相関係数、主成分分析、ヒストグラム、度数表、箱ひげ図、散布図をプロジェクト進行中のいつでも表示でき、マップを表示しているときは、マップの任意の領域で瞬時にこれらの計算を実行できます。)
 

負の相関を示す属性マップ

 
属性間のローカルな関係性を詳細に検討することにより、最適化問題に適用することも可能です。たとえば、コンジョイント分析などでは、評価得点と価格のトレードオフでバランスするノードを発見することによって、製品・サービスの最適仕様を求めることができます。
 
 

最適化問題のマップ

次ページ>

お問い合わせ

CONTACT