TECHNOLOGIES

技術情報

HOME | basic | project | モデルの作成

モデルの作成

1. データマートの選択

前のワークフローで作成したデータマートからモデル作成に使用するデータマートを選択します。
 

2. 属性の重みづけ

ここで、変数(属性)選択と重みづけを行います。変数ごとに分析に含めるか、含めないかを決めることもできますし、各変数の相対的な重要度を指定することもできます。
 
ここでいう重要度(重み)は、SOMの計算の際に使用され、その変数のSOMのノードの順序づけへの寄与度を指定するものです。通常、重みは1を基準にして、より重要な変数には1.5とか2などの大きな重みを与え、より重要度の低い変数には、0.7とか0.5などの小数の重みをかけます。重みを0.1にすると、その変数はマップの順序づけにはあまり寄与しません。そして、重みをゼロにした場合は、その変数はマップの順序づけに寄与しませんが、マップにはその変数が含められて、その後のさまざまな分析にその変数を含めることができます。あとの分析では、ここで指定する重みはすべて関係なく、元のデータの値で計算されます。
 
なお、ここで自動的に正規化(スケーリング)の計算も行います。正規化とは、各変数によって値の区間、大きさが異なるのを揃えることです。変数の値の分散と範囲の大きさによって、2種類の方法があります。デフォルトでは自然な結果が得られるヒューリスティクスを用いて自動で選択されています。これらの2種類の尺度をデフォルトから切り替えた場合、その変数により重みを与えるのと同じ効果を持ちます。
 
いくつかの変数が共通のスケール(たとえば共通の単位を持つ測定値)を持っていて、正規化を行わずに元のデータの相対的な大きさにしたがって計算するほうが好ましいと判断される場合、これらの変数のグループを定義することで、正規化の効果を打ち消す処理を行います。
 
また、いくつかの変数同士が強すぎる相関を持つ場合、いわゆる多重共線性の問題に直面します。(できあがるマップが細長くなりすぎるときは、この問題があります。)この場合も、重みを調整することで問題を回避します。相関補償オプションを選択することで自動で計算されます。
 
変数選択と重みづけは、SOMデータマイニングで最も重要なステップです。結果のマップを見て、このステップに戻り何度もモデルを作り直すことで、探索的なマイニング・プロセスを進めて行きます。
 

3. マップの作成

Viscoveryソフトウェアを使用する場合、SOMアルゴリズムの詳細については、まったく意識する必要がありません。長年の豊富な経験からデータマイニング・プロジェクトに最適な調整がすでになされております。ここでユーザーが設定するのは、マップのノード数と縦横比、テンションのみです。ほとんどコンパクト・ディジタル・カメラ並みの簡単さで設定ができます。
 
マップのノード数について、かつてアカデミックの世界で1ノードあたり平均10データレコードがマッチするように、データレコード数からノード数を設定するという議論がありましたが、実践的なデータマイニングの経験から、ノード数は500から5000程度までで設定すればよいことがわかっております。100万件のデータのために、10万個ものノードを持つSOMを(スーパーコンピュータを使うなどして)作成するのは、まったくナンセンスです。普通の高級なパソコンで十分、データマイニングが可能です。
 
縦横比は、自動で設定するのがデフォルトです。この場合、第1と第2の固有ベクトルの長さの比で縦横比が決定されます。そのほか、正方形や任意の比率に強制することも可能です。ただし、SOMのノード数は整数ですので、これらの縦横比は近似になります。
 
テンションというのは、SOMの理論から言うと、学習の最終段階の近傍関数の半径のことです。テンションがゼロの場合、SOMのノードは結束力がなく自由に動けるようになりますので、K-meansと等価になります。(SOM、とくにバッチ型SOMは、K-meansの参照ベクトルを格子でつなぎあわせて、お互いがひっぱり合うことでスムージングしたものとして解釈できます。)テンションを低くすると、データのばらつきの細部にまでよく適合するマップが得られ、テンションを高くすると、よりスムージングされたマップが得られます。
 

4. クラスタの定義(分析)

このステップでは、SOMのマップとさまざまな統計情報が表示され、マップの領域を選択するなどして、表示される統計情報からインタラクティブに分析を行います。セグメンテーション・モデルでは、マップの領域をいくつかのセグメントに分けて、セグメントごとのアクション(施策)を定義することが最終目的となりますが、それに至るための分析として、(1)多次元データの可視化、(2)クラスタリング、(3)プロファイル分析などを行います。もちろん、セグメンテーションが目的でなくても、これらの分析のためだけに使用することも可能です。さまざまな分析の詳細は、別のページで説明します。
 

お問い合わせ

CONTACT