UMAP-SOM 超多次元データマイニングを可能にする最新技法
データ・クラスタリング(クラスタ分析)を行う際に、どの属性(変数)を分析に含めるか、そして、どの属性にどれだけの重みをかけるかによって結果は変わりますが、従来のデータサイエンスではこの事実を真正面から議論することがはばかれる傾向がありました。マインドウエア総研は、コンセプト・リサーチの観点からこの問題をすっきりと解決し、数100次元、数1000次元のビッグデータを多面的な角度からデータマイニングするための手法を確立しました。
自己組織化マップ(SOM)は、データから「概念」を生成するツールとみなせるというのが、マインドウエア総研でのデータサイエンスの出発点です。物事の概念は、「文脈」によって変化します。それをデータサイエンスに当てはめると、属性選択と重みづけが対応します。SOMに投入する属性と重みづけを変化させると、さまざまな文脈での概念化を表現できます。さまざまな概念化の中から、ユーザーが取り組む問題に「より有用な概念化」を探索するというのが、マインドウエアが提供するデータマイニング(探索的データ分析)です。
しかしながら、データに含まれる属性が数百、数千、さらに数万になった場合、このような探索を行うのは事実上、不可能になります。この問題を解決するには、各属性をそのまま取り扱うことをやめて、主成分分析のような方法で次元を整理しなおす必要がでてきます。SOMの場合、属性への重みづけによって、SOMの順序づけに寄与させる属性(次元軸)と寄与させない属性(次元軸)を作ることができるので、主成分空間にSOMを張って、元の属性は順序づけには寄与させない状態でアソシエイトさせて、SOM上で元のデータを分析することができます。この手法は、20年以上前からSOMの学術コミュニティでは知られていた方法です。
しかしながら、主成分分析は線形の手法(属性間の相関は線形的な相関に基づく)であるため、元データに含まれる情報を完全に保持するには、元データの属性の数と同じ数の主成分軸を計算する必要があります。寄与率の低い主成分軸を破棄した場合、相応の情報量が破棄されるので、教科書で教えられることに反して、実質的には次元削減にはなりません。それでも上位の主成分軸に多くの情報量が保持されるので、それらの重みを調整することで文脈の設定を行うことは可能です。ただし、その重みは、各主成分の寄与率を第1主成分の寄与率で割ったものを基本の重みとして、文脈設定のための重みを乗算することになります。
このような状況の中で、新しい次元削減手法として、近年、t-SNEおよびUMAPが考案されました。これらは非線形の次元削減手法であるとされており、さらにUMAPは近傍グラフに基づいて、データのトポロジカルな構造を保持することができます。SOMは次元削減以外にもさまざまな能力を持っていますが、次元削減に限って言うと、UMAPはSOMに匹敵する能力を持つことになります。
マインドウエア総研で行った実験では、t-SNE、UMAPいすれの場合も、1536次元のテキスト埋め込みベクトルを3次元にまで圧縮して、その座標値をSOMに投入して得たマップは、1536次元のデータから直接SOM学習で得たマップと比較しても、ほとんどそん色のないマップが得られることがわかりました。t-SNEは2次元または3次元の出力しか選べないのに対して、UMAPでは4次元以上の任意の次元数を選べます。
以上のことから、超多次元データの文脈設定を行うためのSOMの順序付け用データとして、主成分スコアからUMAPスコアに置き換えることが可能です。マインドウエア総研では、今後、この技法を積極的に活用して、ビッグデータの探索的分析の効率化に貢献しようとしております。