情報分析を根底から変えるセマンティック・データマイニング　１

マインドウエア総研　多田薫弘（ただくにひろ）

我々は、すでにイノベーション・マップ・プロジェクトで、IT製品やデータサイエンス製品の製品説明テキストから埋め込みベクトルを生成して、それをデータマイニング手法でとても精緻なポジショニング・マップを作成できることを実証しました。このアイデアをさらに推し進めると、これまでは定性分析が行われてきた領域を精緻なデータ分析に変えることができます。あるいは、食品・飲料・香料などの官能評価分析の領域では、これまで直接測定できない香り・味覚・食感などを無理やり数値化してデータ分析を行ってきたという根本的な問題を解決することにつながります。

すべては埋め込みベクトルのおかげ

このアイデはじつに革新的であり、かつ多くの人々がまだ気づいていないため、この稿を読んで独占的な権利を取得しようと動く人が現れないとも限りませんが、このアイデアの本質は埋め込みベクトルを使用すると「意味」が計算可能になるということに尽きるので、もはや公知の知識であると考えられます。したがって、LLMとデータマイニング手法を組み合わせると何ができるのかを皆さまと惜しげもなく共有します。

調査活動には、定性調査と定量調査があります。一般的には、定性調査で全体的な問題構造をざっくり把握しておいて、定量調査によって精緻化することで、最終的により具体的な意思決定につなげるというように理解されているかと思います。定性調査は、文献やインタビューを通して、さまざまな不定形な情報を柔軟に収集することができる半面、曖昧さがつきまとうという印象があります。一方、定量調査（アンケート調査など）は、結果が数値化されるものの定型化された情報以外は受け付けないので、柔軟さに欠け、重要な情報を取りこぼす場合もあります。シンクタンクや調査会社、経営コンサルタントなどの業界では、これまで定性と定量の両面から調査を実施することで、両者の欠点を補う努力を続けてきたと言えます。

LLMおよびテキスト埋め込みベクトルは、この認識を根底から覆すことになりそうです。従来は、定量的に分析できなかった「不定形な定性情報」を定量的に分析できるという画期的な出来事が今世界で起きていることです。それによって、これまで定性情報の中に眠っていた濃密にして有用なコンセプトをより精緻に分析できるようになりました。

セマンティック・データマイニングの事例：官能ベクトル分析

食品・飲料・香料などの業界で行われている官能評価分析は、香りや味覚、食感などの内的体験を数値化して分析しようとしています。今のところ、これらを直接測定することができないので官能評価士と呼ばれる特別に訓練された専門家が、製品の甘味、辛味、苦味、塩味…といった項目を数値化して、消費者の製品に対する選好度と合わせてデータ分析を行うという方法を採っています。しかしながら、香りや味覚、食感などはとても複雑で、このような要素還元的な発想には限界があります。

正確に言えば、要素還元が悪いのではなく、従来の分析方法では、分解された要素の数が少なすぎるので、複雑な現象をとらえ切れないのです。そこで埋め込みベクトルを使用すると、テキストの意味を1000次元とか数1000次元に分解することができ、それは「意味分解分析」であり、または超多変量解析となります。これにより、従来のテキストマイニングで使われた多変量解析よりもはるかに複雑な分析が可能になります。

我々は「甘味が1.2、辛味が0.5…」などという従来の数値化は一旦捨てて、テレビ番組の食レポでタレントが披露しているようなリッチな表現をそのまま採用することにします。それによって、これまで切り捨てられてきた情報の機微を漏れなく活用しようというのが、ここで紹介する「官能ベクトル分析」です。ここでは、事例として、20種類の架空のポテトチップスを用意しました。それぞれのポテトチップスの試食体験を以下のようにリッチな自然言語で表現します：

クラシック・シーソルト
袋を開けた瞬間、金色に輝くチップスが目に飛び込みます。その表面には、細かく均等に振りかけられた塩の結晶が、シンプルながらも洗練された美しさを演出しています。自然なポテトの香りが漂い、揚げたての温かみや家庭的な心地よさを感じさせます。
一口噛むと、サクサクとした軽やかな食感が耳に心地よい音を届け、噛むほどにジャガイモ本来の甘さと塩味が完璧なバランスで広がります。塩は主張しすぎず、素材の旨味を引き立て、後味はすっきりとクリア。シンプルでありながらクセになる味わいが、次の一枚へと手を伸ばさせます。昔ながらの美味しさを守りつつも、飽きのこない満足感のあるフレーバーです。（全文はこちら）

日本語テキストの分析も可能ですが、LLMは英語の方がネイティブなので、この事例では英語のテキストを使って分析を行っています。まず、これらのテキストをLLMを使って埋め込みベクトルに変換します。実験ではOpenAIのAPIを使用して1536次元のベクトルを取得しています。

人間の認知能力では1536次元のベクトルを解釈できないので、多変量解析によって次元を整理しなおす必要があります。このプロセスをセマンティック・データマイニングと呼べるかと思います。使用できる手法としては、主成分分析(PCA)、t-SNE、 UMAP、自己組織化マップ(SOM）などがあります。

個々の手法の詳しい説明は、ここでは割愛します。PCAは最も一般的な手法ですが、PCAで1536次元というような超多次元を次元削減する場合、十分な精度を得るには、かなりの数の因子（次元）を使う必要があって、次元削減の効率はあまりよくありません。ただし、ケース数（テキストの件数）が少ない場合は、どの手法を使っても最終の次元数が少なくなるので、PCAは（人間が解釈するのに）比較的手頃な次元数を選ぶのに便利に使えそうです。

t-SNEとUMAPは、最近人気のある手法で、効率的な次元削減ができます。ケース数が十分に大きければ、UMAPが任意の次元数を選べて便利です。しかも、UMAPはとても効率がよく、1536次元を3次元に削減してもかなり正確にケース間の近接関係を保持することができます。最終的に人間は2次元のイメージしか認識できないのですが、よりリッチな意味を理解するには、程よい数（10から10数個）の次元で表現するのがよさそうです。

SOMも次元削減手法の1つとして捉えることができますが、我々は、上記の次元削減を行った結果を表示する手法として提案します。SOMの場合は、次元そのものを減らしているのではなく、離散的なノードで構成される2次元の自由曲面を多次元のデータ空間の中でモデルしているので、結果のマップは、入力されたデータの元の次元の情報をそのまま保持しています。多次元の情報を同時に見たい場合は、3D可視化よりもSOMの方が断然便利です。ただし、埋め込みベクトルのように超多次元の抽象的な数値は、人間が解釈するのが不可能なので、他の次元削減手法を併用することが必要となります。

さらに留意しておきたいことは、SOMはあくまでもノードと各データポイントのマッチングをして、データポイントに最も近いノードが「勝者」となるアルゴリズムです。これの意味することは、データポイント間の近接関係を直接は考慮していないということです。多くの場合、結果的には、同じノードには類似したデータレコードが属することにはなります。少し説明が難しくなるのですが、超多次元データの場合は、SOMでは同じノードに属するデータレコードでも、それほど均質ではないということが起こります。

したがって、超多次元データの場合は、データポイント間の近接関係を考慮する別の手法（UMAPなど）で程よい次元数に落としてからSOMで可視化するのがちょうどよいようです。SOMの専門家にとっては、この見解はあまり快くないかもしれませんが、中立的な立場をとればこれが現実的に賢い判断だと思います。もちろん、埋め込みベクトルから直接SOMを学習することも可能で、その場合は、解釈のためにUMAPの数値をSOMに（重み0で）連想させることも可能です。

またもう一つ、SOMの欠点として指摘しておきたいのは、SOMは入力されたデータをモデルするので、その外側の空間を一切表現しないということがあります。つまり、商品企画の場合、既存の商品の類似関係はよく表現できるのですが、それとはまったく異なる商品を企画したい場合に、既存の商品群からはずれた空間を探索するのが難しいのです。これにはいくつかの改善策が考えられます。

LLMによる因子の解釈

それはともかく、上記のポテトチップスのテキスト情報をベクトルに変換して、それをUMAPで3次元に削減し、SOMで表示した結果が以下となります。

UM1, UM2, UM3は、UMAPで得られた新しい次元です。これでは意味がわからないので、.somファイル（somのノード値とラベルと元のテキスト）を丸ごとChatGPTに提示して、「UM1,UM2,UM3を解釈して人間が理解できる用語に変換して」と質問すると以下の回答が得られました（LLMが.somファイルを受け付けない場合は、マップのノードをテキスト・ファイルにエクスポートしてください）：

UM1、UM2、UM3という抽象的な数値の解釈を、人間が理解しやすい用語に変換するために以下のように考えます。Viscovery SOMineなどで生成された数値マップは、要素の分布や特徴を軸ごとに分解して示しています。

UM1: 満足度 / リッチネス

UM1は、消費者が感じる 総合的な満足度 や 味のリッチネス（豊かさ） を示すと考えられます。
値が高いほど、チップスの風味が濃厚であり、複雑な味わいや高級感、インパクトのある風味が消費者に好まれている傾向が強いです。例えば、トリュフ や メープルベーコン のようなフレーバーがこの軸に高く位置しています。

UM2: バランス / 層の深さ

UM2は、フレーバーの バランス感 や 層の深さ（味の多様性） を表している可能性があります。
値が高いほど、単調ではなく、複数の要素（甘味、塩味、酸味、旨味など）がバランスよく絡み合い、複雑な味わいが感じられます。例えば、ハーブ系 や スパイスの効いたフレーバー はUM2で高い傾向が見られます。

UM3: 爽やかさ / 軽やかさ

UM3は、味の 爽やかさ や 軽やかさ を示していると考えられます。
値がプラスに近いほど、シトラス系やハーブ系の爽やかさ、または軽い塩味や酸味が強調されます。
逆に値がマイナスに振れている場合は、スパイシーさや重厚感が強く、甘みや旨味の濃厚な要素が感じられることが多いです。例えば、スモーキーBBQ や ガーリック系 のようなフレーバーがマイナス側に位置します。

まとめ

UM1: 満足度 / 味のリッチネス
- 高いほど味のインパクトや満足度が強い。
UM2: バランス / 味の層の深さ
- 高いほど味わいの多様性やバランスが良い。
UM3: 爽やかさ / 軽やかさ
- プラス: 爽やか、軽やかな風味（シトラス・ハーブ系）。
- マイナス: 濃厚、重厚感のある風味（甘味、スモーキー、スパイス系）。

この解釈をもとに、各フレーバーの評価やクラスタリング結果を分析することで、消費者の好みに合わせた商品企画や改善点の把握がしやすくなるでしょう。

引用おわり

今回はテキストの件数が20個でUMAPを使用したので、次元数が3次元までしか作成されませんでした。件数が数100あれば、もっと多くの次元が作成できて、より詳細な分析もできます。あるいはPCAを使うと（形式的には）20個まで次元を増やすことができます。従来、官能評価で行われてきたような分析も可能になることが想像できるかと思います。

LLMがこれほどまでに次元削減された結果の次元軸をデータと照らし合わせて的確に解釈できるのは驚きです。この時点で、人間の認知能力ははるかに及びません。従来のPCAなどの多変量解析も人間が解釈するよりもLLMの力を借りるとパワフルに分析できることが予想できます。

新商品コンセプトの推論

さらに今度は、意味空間上のラベルのない所、すなわち、既存の製品が存在しない空間を指定して、そこがどのような架空の製品に対応するかを分析します。下のマップの暗くシェーディングされたノードからノード値（UM1，UM2,UM3の値）を取得して、またLMMに「この値のポテトチップスを考えて：UM1 UM2 UM3 9.650119 8.058156 -0.2999049」と質問します：

LLMからの回答は以下のようになりました：

UM1 = 9.650119, UM2 = 8.058156, UM3 = -0.2999049 のデータ値に基づき、Viscovery SOMineのマップから最も近いエリアの特徴を分析し、このポテトチップスのフレーバーを考案します。

フレーバー名: Truffle Maple Fusion

見た目
このチップスはリッチなゴールデンブラウンの色合いで、表面にはほのかな光沢があり、細かい黒いトリュフパウダーがまんべんなく振りかけられています。さらに、カラメル化したメープルシュガーの細かな結晶がキラキラと輝き、贅沢な雰囲気を漂わせています。

香り
袋を開けた瞬間、香り豊かな黒トリュフの深みあるアーシーな香りが広がります。そこに、甘くやわらかなメープルの香りが重なり、まるで高級フレンチレストランの前菜のような贅沢な香りが鼻をくすぐります。

食感
一口目のクランチは、しっかりとした歯ごたえがありつつ、薄く繊細な食感も感じられます。チップスは均一に揚げられ、軽やかさとクリスピーな食感が完璧に融合しています。

味わい
最初に口の中に広がるのは、メープルシュガーの優しい甘さ。その後、黒トリュフの濃厚な旨味とほのかなガーリックの香りが現れ、深みのある複雑な味わいが広がります。甘さと旨味の絶妙なバランスが、次第に舌全体に馴染んでいきます。

後味
最後には、トリュフの豊かな余韻がしっかりと残り、甘さは控えめにフェードアウトしていきます。濃厚なのにくどさを感じさせない後味は、次の一枚へと手が伸びてしまう魅力を持っています。

フレーバーコンセプト

この「Truffle Maple Fusion」は、UM1の高評価エリア（9.65）からインスパイアされ、リッチな深みと上品な甘さが融合した風味を特徴とします。UM2のバランス（8.05）により、複雑で飽きのこない味わいに仕上げています。UM3が少し負の値（-0.30）であることから、酸味やスパイシーさは控えめにし、全体として高級感と安定感を兼ね備えた商品となっています。

このチップスは、贅沢を日常に取り入れたい人や、上品な大人の味わいを求める消費者にぴったりの一品です。

引用終わり

結果を読む限りは、とても精緻にノードの値からコンセプトが導き出されているのがわかります。ただし、既存の製品の単純な中間のような結果でもありますので、もう1回別のノードで試してみましょう。今度は、単一のノードではなく、クラスタを跨いで2個のノードを選択して、「この値の中間のポトテチップスを考えて」と質問してみました：

その結果は以下です：

フレーバーコンセプト: Citrus Herb Harmony（シトラスハーブハーモニー）

見た目
チップスは、ゴールデンイエローのベースに緑と白の細かいシーズニングが散りばめられたデザインで、新鮮なハーブと軽いシトラスの風味を象徴しています。その見た目は自然で清潔感があり、さわやかさを演出しています。

香り
袋を開けた瞬間、レモンやライムの爽やかな香りが広がり、パセリやバジルのような新鮮なハーブの香りがその後を追います。軽い塩味もほのかに感じられ、明るさと旨味のバランスが絶妙な印象を与えます。

食感
一口目は軽やかで繊細なカリッとした食感が楽しめます。しっかりとした歯ごたえがあるものの、風味の爽やかさに合わせて上品さを感じる食感に仕上がっています。

味わい
最初に口の中に広がるのは、レモンやライムの鮮やかな酸味で、爽快感のあるスタートを切ります。その後、パセリやチャイブ、少しのバジルといったハーブの落ち着いた味わいが現れます。軽くふりかけられたシーソルトが全体の味を引き締め、ジャガイモ本来の風味を引き立てながら、ハーブやシトラスを邪魔しない絶妙なバランスを作り出しています。

後味
後味は清涼感があり、ライムの皮のほのかな苦味とハーブのやさしい温かみが残ります。爽やかさとコクのバランスが心地よく、次の一枚が欲しくなるような後味に仕上がっています。

フレーバーコンセプトの考察

UM1（約7.68）: 中程度のリッチ感や複雑さを示し、このフレーバーは重すぎず、軽やかでバランスが取れた味わいにフォーカスしています。
UM2（約8.90）: 高いUM2の値は、層のある風味や広く受け入れられるバランス感を反映しており、複雑さを持ちながらも親しみやすい仕上がりを目指します。
UM3（約-0.09）: わずかに負の値を示しているため、酸味や辛さを抑えつつ、シトラスの軽い酸味を活かした穏やかな味わいを設計しています。

ターゲット層

このフレーバーは、軽やかで爽やかなスナックを求める人々に最適です。炭酸飲料や白ワインなどの飲み物と相性が良く、口直しとしても最適な一品です。シトラスとハーブのバランスがエレガントで、カジュアルなシーンから上品な場面まで幅広く楽しめるフレーバーです。