機械学習に意思決定論? ⑦

機械学習に意思決定論? ⑦

<<前の記事に戻る

今回は、前回までに行った意思決定の選択手法以外の方法について紹介します。

 

前回までの手法では、主観確率に意思決定者の主観的な要素を含めてはいるものの、Outcomeや期待値などの定量的な要素の選択を支援するものでした。しかし本来の意思決定には、目に見える定量的な要素だけではなく、それらに付随する様々な思いなどの定性的や要素が含まれているものです。

 

今回は、これらの事象や利益とそれに付随する非定量的な要素を含めた意思決定者の主観や思いを表現する方法として、効用値(Utility)と効用を用いて数値化する確実同値額(Certainty Equivalent:以下CEと書く)による期待効用(Expected Utility)と呼ばれる概念を解説します。CEとは、意思決定者が直面している事象や利益とそれに伴う不確実性や非定量的な全ての要素を含む総体を定量化した値の事です。

 

例えば、図1の例をご覧ください。

これは、RP社のラーソン氏のDTの中に出てくるスキー場運営に関する事象とその利益です。

 

このスキー場の運営には、この年の冬の降雪の量や質によって“好評”と“不評”に分かれ、運営後の同施設の販売価格に影響を及ぼします。このケースのCEは、このスキー場運営とその後の販売利益とそれに付随するあらゆる要素を含めて、ラーソン氏にこの事案全体の価値を問った値になります。

%e8%a8%98%e4%ba%8b0927-2-1図1:ラーソン氏のスキー場運営を伴う同施設売却に対するCEの算出法

 

 

さて、ラーソン氏が考えているこのケースに伴う意思決定の要素が、上記に説明したスキー場の評価と評価に伴う販売価格・利益だけだったとしましょう。またスキー場の評判の可能性は、それぞれ50%だと想定しているとすると、

 

ラーソン氏のCEは期待値 = 0.5×$5,950,000 + 0.5×$1,650,000 = $3,800,000と等しくなるはずです。

 

ところが実際は、この金額ならない場合が多いようです。なぜかと言えば、意思決定者の決定に関わる要素が、数値化や書き表すことができること以外にも多く存在するからです。

例えば、RP社が建設するスキー場の施設に関すること、スキー場利用者に関する傾向の変化や、スキー場施設を購入する業者の動向や経済状況など、様々なことが想定できます。

さらに、より大きな理由として、RP社の経営状態やラーソン氏の事業に対する思いなどが挙げられます。このような状況による変化は、古くから効用と呼ばれる概念で説明が行われています。20世紀に多くの経済学的貢献とノーベル経済学賞を受賞したArrowは、彼の著書の中でこの効用値が富のレベルに応じてS字曲線を描くことを証明しました(図2参照)。従って、会社やラーソン氏の富のレベルによって、CEの値が期待値と異なる結果になるわけです。

例えば、RP社の資金が豊富で今回の案件からのリターンより案件を成功させることによるPR効果が大切だと考えているのであれば、上記のCEは期待値よりも低い値になることが予想されます。

逆に、RP社の資金状態が悪く、今回の案件に社運を掛けているような場合には、上記CEの値は期待値より大きな値になるかもしれません。0927-2-2図2:効用関数

 

なお、より一般的な効用関数は、横軸に富のレベルの代わりに利益を取っています。すなわち人間は、プラス側の利益にはRisk Averse(リスク回避型:リスクに対して保守的なタイプ)を、マイナス側の利益(損失)にはRisk Prone(もしくはRisk Seeker、リスク受容型:あえてリスクを冒すタイプ)の行動を取ることを意味しています。

例えば、ある程度資金が潤沢で安定した企業(人)は保守的な行動を取り、ベンチャー企業やギャンブルで負けが込んでいる人は大きな賭けに出る、という傾向があることから理解できます。

図2で横軸を富のレベルにしている理由は、企業や個人の行動を富のレベルを上下に移動させることで説明するためです。

 

 

この図を通して見えてくることは、前述の説明と同じように、企業や個人の富のレベルが豊か(上方へシフト)になると保守的な行動を取るようになり、富のレベルが悪化(下方へシフト)するとリスクを取る行動に出ることが理解できます。このような考え方をRPのラーソン氏に適用すれば、PR社の状況やラーソン氏の性格などから彼が取りうるCEの値を理解することが可能です。

 

さて、CE値を求める方法ですが、不確実性を含むDTの各部分に対して個々に意思決定者に質問をして値を求めることも可能ですが、最初に意思決定者の効用関数を求め、その効用関数の値からCEを求めることでより普遍的なCEを求めることが可能です。

 

この効用関数を求める方法として、以下のようなステップを採用します。

(1) 意思決定に関わる最少と最大の利益幅を決める、

(2) この利益の幅を横軸として最大値を1、最小値を0とした時の中間値の効用値を聞きだし縦軸に記入する、

(3) 最大値と最小値の間の4分位値に対する効用値を聞きだし縦軸に記入する、

(4) 上記で求めた各点を結び効用関数を求める、

(5) 効用関数上で0.5の効用値に相当する利益額と事象(利益最大値が50%と利益最小値が50%の確率で起こる賭けのようなもの)を比較し同等であることを確かめる。

もし、(5) が同等でなければ効用関数が間違って測定されているので、何回か繰り返して評価しなおす。

 

以上のプロセスを経て不確実性を含むRP社のDTの各部分をCEに置き換えて書き直すことで、ラーソン氏の個人的な性格や社会状況に対する思いとPR社の現状などを含めた評価によるDTにすることが可能であると言えます。このように説明をするとCEによる意思決定が最も理想的であるように感じますが、実は個人の正確なCEを測定することは容易いことではないのです。特に効用値は、感情豊かな人間であればあるほど、その日の気分や評価時直前の出来事に大きく左右されるからです。

 

 

この連載では、機械学習(特にAIによる特徴量の決定など)に活用できると思われる意思決定の手法について簡単に解説を行って参りました。特に後半では、不確実性下の意思決定の手法や考え方について論じました。

 

大切なことは、それぞれの手法の意味をよく理解し使うことです。

 

また、多くの繰り返しの試行が必要な部分は、AIの発達により自動化され簡単に活用できるようになるでしょう。そのような時代を迎えても、AIがどのようなプロセスを経てそのような結論に至ったのかを理解し、判断の良し悪しを判別する人間が必要だということを忘れないでください。

 

以上でこの連載を終わりにします。