囚人のジレンマとシャープレイ値 #ナッシュ均衡

■『意思決定理論』

『ゲーム理論』
複数の意思決定者が存在する状況においての意思決定の理論
結果は『他の意思決定者の選択に依存する』ゲーム的状況。
何が一番有利かを考える。

2つのゲーム理論

1 非協力ゲーム理論 各主体が独自に行動を決定 →囚人のジレンマ(ナッシュ均衡 ジョン・フォーブス・ナッシュ)
2 協力ゲーム理論 各主体が合意に基づき契約 

『囚人のジレンマ』

米ランド研究所 が、ゲーム理論の研究結果をわかりやすいストーリーを考えたのが『囚人のジレンマ』で、『非協力ゲーム理論』の代表例

ランド研究所 RAND Coporation *RAND/Research ANDevelopment
映画『ペンタゴン・ペーパーズ』『博士の異常な愛情』

■容疑者A と 容疑者B が別室で取り調べ中
1 ふたりとも黙秘ならば それぞれ懲役2年
2 ふたりとも自白ならば それぞれ懲役10年
3 ひとりが黙秘 もうひとりが自白ならば
  黙秘 懲役15年 自白懲役1年
という『大前提ルール』

囚人のジレンマは、非協力ゲーム理論の代表的な例。最適解は、ふたりの容疑者が互いに協力し合うこと。しかし、このゲームの特殊性により、個々の最善手を選んだ場合、結果としてはお互いが自己利益を追求した結果、両者が不利になってしまう。

具体的に言えば、両者が黙秘を選択すれば、それぞれの刑期は2年になる。一方、両者が自白を選択すれば、それぞれの刑期は10年になる。しかしここで一方が自白し、もう一方が黙秘する場合、自白した容疑者は懲役1年、黙秘した容疑者は懲役15年となる特殊なルールがある。

最も有利な結果は、お互いが協力し、つまり黙秘を選択することだ。しかし、このゲームは信頼関係の欠如と自己利益追求のジレンマを表しているため、個々の最善手を選んだ場合、この最適な結果には到達できない。

このように、囚人のジレンマは意思決定理論の興味深い例であり、協力と利他的な行動の重要性を示している。

容疑者は、二人とも『自白』を選び10年の刑をえらばざるをえなくなった。
ひとりだけが『黙秘』すると『15年』の刑期になるからだ。
本当は二人とも『黙秘』をすると2年になるからだ。

この『囚人のジレンマ』をふたりとも理解していれば、意思決定は『黙秘』が正解であるが、自分だけが自白すると1年。しかし、黙秘をすると15年というリスクがあるのでより短い安全な『期待値』である10年をふたりとも選択してしまうというゲーム理論だ。

『シャープレイ値』とは?

シャープレイ値は、その名前を提唱者であるアメリカの数学者・経済学者Lloyd Shapley(ロイド・シャープレイ)の名前から取っています。1953年に彼が提唱したこの概念は、協力ゲーム理論(コープラティブゲーム理論)において、各プレイヤーの寄与を評価し、ゲーム全体の価値(利益またはコスト)を公平に分配する方法を提供します。

シャープレイ値はその役割により、多くの経済学的状況やビジネスのコンテクスト(企業合併、供給鎖管理、コスト配分等)において重要な意味を持ちます。また、その貢献は2012年にLloyd Shapleyがノーベル経済学賞を共同受賞する一因となりました。

『囚人のジレンマ』を提唱した『ランド研究所』に1954年1981年に27年間、勤める。



シャープレイ値の具体的な事例として、3人での協力ゲームを考えてみましょう。参加者がA、B、Cの3人で、それぞれがゲームに貢献できる価値が異なるとします。例えば、以下のようなケースを考えます。

  • Aだけが協力すると、価値は300を生み出します。
  • Bだけが協力すると、価値は200を生み出します。
  • Cだけが協力すると、価値は100を生み出します。
  • AとBが協力すると、価値は500を生み出します。
  • AとCが協力すると、価値は400を生み出します。
  • BとCが協力すると、価値は300を生み出します。
  • A、B、C全員が協力すると、価値は600を生み出します。

この場合、シャープレイ値を計算すると以下のようになります。

まず、Aのシャープレイ値を計算します。Aが単独で協力した場合の価値(300)と、他のプレーヤーと共に協力した場合の価値(AとBが協力した場合の価値500、AとCが協力した場合の価値400、全員が協力した場合の価値600)との差を計算し、それぞれのケースの確率(可能な連携の組み合わせ数の逆数)で平均化します。

具体的には、

  • A単独の場合:300
  • AとBの場合:500 – B単独の価値200 = 300
  • AとCの場合:400 – C単独の価値100 = 300
  • A、B、Cの場合:600 – BとCが協力した場合の価値300 = 300

これらを平均化すると、Aのシャープレイ値は300となります。

同様にB、Cのシャープレイ値も計算できます。最終的に、シャープレイ値は各プレーヤーがゲーム全体に対してどの程度貢献しているかを示す公平な価値分配を提供します。