離散化は、数値の集合を複数の区間に分割する作業です。この作業は、離散化ツールを用いて実行できます。離散化ツールは、数値データを格納するデータ・マトリックス の列で利用できます。
区間を指定する場合、各区間の下限は含まれ、上限は除かれます - ただし、最終の区間は上限・下限とも含まれます。たとえば、区間 0-1, 1-2, 2-3 を指定する場合、最初の区間 0-1 は、s >=0 から <1 のすべての値を含み、2番目の区間は >=1 から <2 の値を含み、最後の区間は >=2 から <=3 の値を含みます。
区間が有効であるには、連続値でなければならず、重なり合うことはなく、データ中のすべての値をカバーしなければなりません!
離散化ツールは、図 1 のように見えます。
図 1: 離散化ツール - 手動入力の区間 |
離散化ツールの上部には、2つのタブ、 Manual と Visual があり、それぞれ区間を指定するための代替の方法を提供します。 manual タブでは区間が手動で入力され、visual タブでは区間がスライダを用いて定義できます。
ツールの下部は、値の数(欠損値を含まない)、異なる値の数、欠損値の数など、データに関するわずかな興味深い詳細を要約します。
データ要約の下は、区間を追加したり除去したりするボタンや、複数の自動離散化機能を実行するための行です。
ボタン +
区間を追加。
ボタン -
区間を除去。
Auto
Auto ボタンをクリックすると、auto discretization(自動離散化)ダイアログ(図 2)が現れます。 自動離散化は、指定された数の等間隔の区間に値を分割します。 ダイアログから、区間の数、さらに、下限や上限、境界を無限に拡張するかどうかを指定できます。
図 2: 自動離散化ダイアログ - 複数の等間隔の区間を素早く生成 |
Equi-distance
これは、現在の区間の数を用いて、Auto discretization ダイアログで提供されるのと同じ種類の離散化を実行します。
Equal distribution
この機能は、各区間が近似的に同じ値の数を含むように区間の境界を調整しようとします。データの値がどれぐらいよくばらついているかによって、結果の区間を等しく分布させるために、区間の数が変わります。
manual タブは、図 1で見たような表を含みます。各行が区間で、列は各区間の下限と上限です。 + および - ボタンを用いて区間を追加・除去できます。適切なセルをダブル・クリックして、区間の上下と下限を編集できます。
文字列 'inf' (正の無限)および '-inf' (負の無限)を用いて正と負の無限を指定できます。負の無限は最初の区間の下限についてのみ有効で、正の無限は最後の区間の上限についてのみ有効です。
visual タブは、区間のリストとスライダの集合を含みます(図 3)。
図 3: ビジュアル離散化 - 棒グラフは各区間の値のカウントを示す |
左のルーラーは、各区間のスライダを持ちます。区間境界はスライダを調整して変更できます。
区間リストは、棒グラフと値のカウントとともに表記されます。棒グラフは、特定の区間に含まれるデータ値の比例的な数を示します。これは、データ値が区間の間でどのように分布しているかの概観を素早くビジュアルに提供します。
図 3 の棒グラフは、区間の間で値の分布が等しくないことを示し、図 4 は、よりよく分布していることを示します。
図 4: 棒グラフは区間の間で値が等しく分布していることを示す |
翻訳者:多田くにひろ(マインドウェア総研)