現在、官能評価データの分析手法の多くで主成分分析(PCA)が広く使用されています。多くの場合、第1主成分(F1)と第2主成分(F2)で構成される平面を使ってマップを作成する方法が採用されていますが、それではかなりの情報が切り捨てられていることにお気づきですか?切り捨てられている情報量は、少なくて全体の30%程度から、多い場合は60%程度にまで及びます。
情報の30%が切り捨てられただけでも、それは正確な分析にはなっていないことが容易に想像できるかと思います。しかも、さらにより複雑な分析手順を用いる場合、さらにクラスタ分析や線形回帰などを行って、そこでも情報損失が生じるので、最終的な分析結果は、かなり疑わしいものになっているのが、現在の官能評価データの分析の実態なのです。
ただし、PCAを使ってはならないという意味ではありません。PCAで得られるすべての因子の情報を使用するなら、情報損失はゼロにできます。ただ、現状ではF1とF2だけを使うということになってしまうため、正確な分析ができていないのです。すべての因子軸を使いながら、人間が解釈可能なマップを作成できる方法があります。
それが自己組織化マップ(SOM: Self-Organizing Maps)です。学術的には、SOMは人工ニューラルネットワーク、連想記憶モデルの一種だと説明されるのですが、そのため人々から敬遠されて、理解が進まなかった歴史があります。しかし、PCAと同じような多変量解析の一種として再解釈することにより、ずっと身近なツールとして親しむことができるはずです。
SOMの原理を直感的なイメージで説明すると、ノード(ピンポン玉のようなものをイメージしてください)が伸び縮みするゴム紐で互いにつながって格子を構成していて、その柔軟な格子を使って、多次元空間でのデータポイントの分布をモデルするものです。格子全体が自由曲面を描いて、データポイントの密度の濃いところに沿って配置されるのを頭の中で思い描くことができれば、(少なくとも、一般人がEVやガソリン車の動作原理を理解する程度には)SOMの原理をほぼ理解できたと思ってよいでしょう。
結果的にSOMはPCAの非線形拡張になっていて、(ちょっと混乱させるかもしれませんが)じつは、K-meansという非階層クラスタ分析とも似たアルゴリズムであり、それは一種の情報圧縮でもあります。ざっくり言うと、SOMは効率的に多次元データを圧縮して、その本質的な特徴を人間が解釈できる2次元の表現に変換する多変量解析ツールです。
公平性のために、SOMの欠点についても述べておきます。
- SOMの可視化は、デカルト座標を直接は表していない。したがって、ノード間の微妙な距離はそれほど直感的ではない。(ただし、これは目的が違うだけで欠点ではないとも言える。)
- SOMのノードは離散的な値をとっている。データレコードは、それぞれ最も近いノードに属していて、1個のノードに複数の異なる値のデータレコードが属することができる。そして、各ノードが持つデータレコードの均一性も一定ではない。
- SOMは訓練(学習)データが散らばっている空間をモデルしており、その外側の空間については一切言及しない。
- 統計学の観点からSOMを正しく解説している文献がなく、学術ユーザーの間でのSOMの理解が進んでいない。
一般に知られているSOMの知識では、これに加えて、「SOMは乱数による初期値依存性がある」とか「訓練データの順序によって結果が異なる」などというのがあるのですが、これは明らかに80年代の初期のアルゴリズムの知識であり、厳密には正しくありません。現在でも多くのオープンソース・ライブラリや一部の商用ソフトウエアでも、古い知識に基づいた実装がなくなっていないので、一般のユーザーが正しく実装されたSOMを選んで使える環境ではないということはできそうです。
マインドウェア総研では、2000年よりViscovery SOMineというデータマイニング・システムを採用しており、これはSOMを知り尽くした専門家によって開発された統計互換型のSOMデータマイニング・システムです。今のところ、これ以外は推奨しません。
PCAを使用する官能評価データの分析手法において、PCAをSOMに置き換えるのではなく、PCAはそのままで、そこにSOMを追加することで、これまで分析から切り捨てられがちだったF3以降の情報も含めて、より正確な分析を行えるようになります。
PCAを行うことの意義は、元の属性を合成して、寄与度の高い因子からより低い因子へと整理することにより、因子の解釈を容易にすることです。今日、LLM(大規模言語モデル)の進展により、LLMの助けを借りて因子を解釈できるようになってきております。さらに、それに基づいて、未知のオブザベーションの特徴を推論することが可能になっています。SOMを用いると、こうした作業が円滑に行えるようになります。