単一ポリシー更新

LIMID は、単一ポリシー更新(SPU:Single Policy Updating)によって解かれます。 SPU は、1度に1つのポリシーを更新し、すべてのポリシーが収束すると終了する(すなわち、それ以上の繰り返しでは何も変化がない)繰り返しアルゴリズムです。通常、このアルゴリズムは、全体的な最適ポリシーを見つけますが、局所最大に捕まる可能性があります。

決定ノードに指定された親が、どのオブザベーションが決定をなすときに考慮に入れられるべきかを決定します。理想的には、我々はすべてのオブザベーションを考慮に入れるように指定するでしょうが、ポリシー表の大きさが親の数で指数関数的に増大するので実践的ではないでしょう。したがって、我々は、ポリシー表のサイズを削減するために、しばしば決定ノードの親として重要でないオブザベーション(たとえば、古いオブザベーションは、通常、新しいオブザベーションよりも重要でない)を指定から外します。 

すべての関連情報を親として指定しない限り、新しい情報が利用可能になればいつでもポリシーを再計算するのが有用でしょう。これが、ポリシーが計算されるとき、既存のすべてのオブザベーションが(決定ノードの親として指定された未来のオブザベーションに加えて)考慮に入れられる理由です。

エビデンスの伝播と事後分布の計算が、最新の単一ポリシー更新によって計算される戦略のもとで(または単一ポリシー更新が実行されなかった場合は、ユーザーが指定した初期戦略のもとで)実行されます。SPU は、投入されたエビデンスが伝播されたことを仮定します。

SPUアルゴリズムは、 LIMID内の各確率ノードと決定ノードのすべてのステートで、確率分布と期待効用関数を計算します。

単一ポリシー更新は、実行モード ツールバーの 'SPU'ボタンを押して呼び出します。

非インスタンス化ポリシーのリセットポリシーのストアストアされたポリシーのリコールも参照してください。

図1: 実行モード ツールバーの SPUボタン.


Back

翻訳者:多田くにひろ(マインドウェア総研