データマートの作成
1. データのインポート
データマートを作成するためのデータをデータソース(テキスト・ファイル、Excelファイル、データベースなど)から取得します。データには大別して数値データ(量的変数)とテキスト・データ(質的変数)とがあります。ここでそれぞれの属性(変数)のタイプを指定します。Viscoveryでは、データをインポートした時点で、自動的に記述統計、相関係数、主成分分析、ヒストグラム、度数表、箱ひげ図、散布図の計算を行っており、これらはプロジェクトのどの段階でも見て確認することができます。
インポートされた統計情報
2. 属性の定義
ここで使用する属性(変数)を指定します。テキスト・データ(質的変数)については,ここで名義値の定義を行います。それによりSOMの計算の際に内部的にダミー変数に変換して計算を行います。アンケート調査データの複数回答のように、質的変数が同時に複数の値を取る場合は、ここでオプションの設定を行います。
さらに既存の変数を用いて、任意の計算式を指定して、新しい変数を作成することもできます。いわゆる「特徴量エンジニアリング」です。簡単な例でいうと、たとえば複数の変数(列)が同種のアイテムに対応するような場合、それらの列の合計に対する各列のパーセントを求めて新しい列を作成するとか、各列が同種の測定値である場合(たとえばフィッシャーのIrisデータのような)、列間の商を求めるなどがよく使われます。それ以外にさまざまな数学の関数を使って複雑な計算をすることもできます。
3. ヒストグラムの調整
ここでは、欠損値や異常値の処理、分布の補正、変換などを行います。分布の補正とは、たとえば男女比とか製品のマーケット・シェアなど、本来母集団が持っているはずの比率とは異なる比率でデータが取得されている場合に、データの度数を調整します。また変換は、データの分布曲線が偏っている場合や極値が存在する場合に、値の重要な区間により分解能を与えるように、内部の計算で用いる尺度を変換することです。
ヒストグラムの調整ダイアログ
4. データマートの書き出し
データをデータマイニング・プロジェクトで使用できるように所定の形式のデータマートとして出力します。使用可能なすべてのデータを使用することもできますが、データレコードが多すぎる場合は、サンプリングを用いることもできます。