ゲーム理論入門：囚人のジレンマ、順序関係の応用（選好）

どうも、木村（@kimu3_slime）です。

今回は、ゲーム理論入門として、囚人のジレンマとは何か、順序関係の応用としての選好を紹介します。

囚人のジレンマ
ゲームのモデル化、選好の定義
支配戦略均衡とパレート最適
こちらもおすすめ

囚人のジレンマ

ゲーム理論（game theory）は、複数のプレイヤーが関わる意思決定（decision making）について、数学的なモデルによって分析する分野です。

その有名な問題の例として、囚人のジレンマ（prisoner’s dilemma）を紹介しましょう。

同じ事件に関わった2人の囚人（プレイヤー）がいて、それぞれが取調官から取引を持ちかけられ、黙秘か自白かという行動（戦略）を選ばなければならない状況です。

プレイヤー		囚人2
	戦略	黙秘	自白
囚人1	黙秘	\((3,3)\)	\((1,4)\)
囚人1	自白	\((4,1)\)	\((2,2)\)

囚人1が黙秘と自白、囚人2が黙秘と自白という選択肢を持つので、ありうる結果としては\(2 \times 2 =4\)通りあります。そのそれぞれの場合の各プレイヤーの利益（utility）を表したのが、上の表です。

利益といっても金銭に限らないもので、プレイヤーにとっての望ましさ、好ましさ（選好度合い）を数値化したものです。それは\(U= (u_1, u_2)\)という2つの数の組で表され、第1成分\(u_1\)が囚人1の利益、第2成分\(u_2\)が囚人2の利益を表しています。

例えば、囚人1が自白し、囚人2が黙秘した場合は、利益は\((4,1)\)です。囚人1は罰が軽くなり（4）、囚人2は重い罰を受けます（1）。2人とも自白した場合の利益は\((2,2)\)で、2人とも黙秘した場合\((3,3)\)より、それぞれが損をする結果となります。

さて、あなたが囚人1だとしたら、黙秘と自白、どちらの戦略を選ぶでしょうか。相手（囚人2）の戦略はわからないとします。自らの利益を最大化するように行動するには、どうしたら良いでしょうか。

囚人2が黙秘を選んだパターンを考えてみましょう。囚人1が黙秘で利益は\((3,3)\)、自白で\((4,1)\)なので、比べると自白の方が得をしそうです。囚人2が自白を選んだケースを考えてみましょう。囚人1が黙秘で\( (1,4)\)、自白で\( (2,2)\)なので、こちらも比較で自白の方が得しそうです。よって、自白という戦略が魅力的に見えます。

これは囚人2の目線から見ても同じです。囚人2も自白を選んだほうが、相手の出方によらず得をしそうです。

しかし、2人とも自白を選んだ結果はどうなるでしょうか。これは\((2,2)\)です。2人がより得をする結果、2人とも黙秘の\((3,3)\)があるのに、それが選べないという結末が訪れました。

個人にとってはより良い結果をもたらす選択肢を選んだ結果、全体としては最も望ましいというわけではない結果が達成される。この個人的な合理性と社会の効率性の矛盾は、囚人のジレンマと呼ばれています。

ゲームのモデル化、選好の定義

さて、今までの状況を数学的なモデルに落とし込んでみましょう。そこで使われるのが、集合論、特に順序関係です。

まず、プレイヤー（Player）を集合で表せば、\(X =\{囚人1,囚人2\}\)と表せます。

続いて、それぞれのプレイヤーの戦略（strategy）も集合で表せます。\(S_1 =\{黙秘,自白\}\)、\(S_2 =\{黙秘,自白\}\)です。

\((黙秘,自白)\)のようなそれぞれのプレイヤーの戦略の組が、起こりうる結果（outcome）です。結果の集合は\(S = S_1 \times S_2\)と直積集合で表されます。

さらに、利益の情報を使って、どの結果が望ましいかという選好（preference）が定義できます。例えば\((黙秘,黙秘)\)という結果の利益は\((3,3)\)、\((自白,黙秘)\)という結果の利益は\((4,1)\)で、後者の方が囚人1の利益が大きくなります。囚人2の利益にかかわらず、囚人1の利益が大きいほうの結果を囚人1は好ましいと考えるとしましょう。

プレイヤー		囚人2
	戦略	黙秘	自白
囚人1	黙秘	\((3,3)\)	\((1,4)\)
囚人1	自白	\((4,1)\)	\((2,2)\)

囚人1が\((黙秘,黙秘)\)より\((自白,黙秘)\)を好むことを、\(\leq _1\)という記号を使って、\( (黙秘,黙秘) \leq _1 (自白,黙秘)\)と表すことにしましょう。選好は、数学的に言えば、順序関係です。

\[ (黙秘,自白) \leq _1 (自白,自白)\]

\[ (自白,自白) \leq _1 (黙秘,黙秘)\]

\[ (黙秘,黙秘) \leq _1 (自白,黙秘)\]

表に示された利益の大小によって、結果の集合\(S\)上に\(\leq _1\)という順序関係を定めることができます。

\(\leq_S\)が\(S\)上の順序関係（全順序、線形順序）とは、

(0)2項関係：すべての\(x,y \in S\)に対し、\(x \leq_S y\)か、その否定\(\lnot (x \leq_S y)\)のいずれかが成り立つ。
(1) 反射律：すべての\(x\in S\)に対して、\(x \leq_S x\)
(2) 反対称律：すべての\(x,y \in S\)に対して、\(x \leq_S y\)かつ\( y \leq_S x\)ならば\(x=y\)
(3) 推移律：すべての\(x,y,z \in X\)に対して、\(x \leq_S y\)かつ\(y \leq_S z\)ならば\( x\leq_X z\)
(4) 比較可能：すべての\(x,y \in X\)に対して、\(x \leq_S y\)または\( y \leq_S x\)のいずれかが成り立つ。

を満たすことと定義されています。

2項関係と比較可能性は、あらゆる結果の順序、好みの順番を比較できていることを意味します。どちらの結果が良いか判断できないことが起こりえない状況です。

反対称性の否定とは、どちらが良いか比べられない異なる結果\(s_1,s_2\)が存在することです。つまり、反対称性は、（異なる結果に対して）\(s_1 \leq_X s_2\)かつ\(s_2 \leq _X s_1\)となる状況がありえないことを意味しています。

囚人1の選好\(\leq _1\)と同様にして、囚人2の選好\(\leq _2\)も定義できます。例えば、利益が\((1,4)\)となる結果\((黙秘,自白)\)と、\((2,2)\)の\((自白,自白)\)では、プレイヤーによってその選好が違いますね。

\[ (黙秘,自白) \leq _1 (自白,自白)\]

\[ (黙秘,自白) \geq _2 (自白,自白)\]

ここまで出てきた概念をまとめたものが、囚人のジレンマのモデル化と言えます。

プレイヤーの集合\(X\)、それらの戦略\(S=S_1\times S_2\)、それらの選好\(\leq _1, \leq _2\)をまとめたものです。利益の情報は、選好として置き換えられています。

囚人のジレンマに限らず、プレイヤー、戦略、選好をまとめた組\(G= (X, S , (\leq_i)_{i \in X} )\)は、標準形ゲーム（normal form game）または戦略型ゲーム（strategic form game）と呼ばれています。

支配戦略均衡とパレート最適

結果に対するプレイヤーの好み\(\leq _1 ,\leq _2\)を順序関係として定めると、囚人のジレンマの分析をより明確に行なえます。

ひとつは、プレイヤー個人の利益を優先する戦略の選び方、支配戦略です。

プレイヤー		囚人2
	戦略	黙秘	自白
囚人1	黙秘	\((3,3)\)	\((1,4)\)
囚人1	自白	\((4,1)\)	\((2,2)\)

他のプレイヤーがどの戦略を選んでいたとしても、一貫して自分の利益が大きくなるような戦略が存在する時、それは支配戦略（dominant strategy）と呼ばれます。

囚人1について分析しましょう。囚人2が黙秘を取るときは、\( (黙秘,黙秘) \leq _1 (自白,黙秘)\)と自白が好ましく、囚人2が自白を取るときも\( (黙秘,自白) \leq _1 (自白,自白)\)と自白が好ましいです。したがって、自白が囚人1にとっての支配戦略です。囚人2についても、同様にして支配戦略が自白であるとわかります。

すべてのプレイヤーが支配戦略を取ることによって起きる結果は、支配戦略均衡（dominant strategy equilibrium）と呼ばれます。この例ならば、\((自白,自白)\)が支配戦略均衡です。

一方、囚人のジレンマを全体的に眺めれば、利益\((2,2)\)の\((自白,自白)\)より良い結果自体は存在していそうです。つまり、利益\((3,3)\)の\((黙秘,黙秘)\)のことです。

2つの結果を比較すると、\((自白,自白) \leq _1 (黙秘,黙秘) \) かつ \((自白,自白) \leq _2 (黙秘,黙秘) \)と、どちらのプレイヤーも共通して\((黙秘,黙秘)\)という結果を好んでいます。すべてのプレイヤーがより好むような結果が他に存在するとき、もとの結果\((自白,自白)\)はパレート最適でない、と呼ばれます。

結果\(A\)がパレート最適（Pareto optimal）であるとは、すべての結果\(B \in S\)に対して、あるプレイヤー\(i\)が\(A \leq _i B\)ならば、他のあるプレイヤー\(j\)が\(B \leq_j A\)が成り立つことです。

パレート最適な結果では、誰かがより得をする結果に変えようとすると、必ず誰かが損をします。パレート最適でない結果では、誰もがより望ましく思う「上位互換」の結果が存在します。

この定義によれば、\((黙秘,黙秘)\)はパレート最適です。例えば、囚人1個人としては\((黙秘,黙秘) \leq _1 (自白,黙秘) \)とより望ましい結果があるわけですが、囚人2から見るとそれは\((黙秘,黙秘) \geq _2 (自白,黙秘) \)と望ましくない結果です。他にも、\((黙秘,自白)\)、\((自白,黙秘)\)はパレート最適となります。

これらをまとめると、囚人のジレンマの状況がより明確になりました。

相手の出方によらず、個人の利益を最大化する戦略によってもたらされる結果は、支配戦略均衡と呼ばれ、利益\((2,2)\)の\((自白,自白)\)です。

一方、利益\((2,2)\)の\((自白,自白)\)には、それぞれのプレイヤー目線でより良い結果、利益\((3,3)\)の\((黙秘,黙秘)\)が存在します。前者はパレート最適でない結果、後者はパレート最適と呼ばれます。

つまり、支配戦略均衡がパレート最適な結果とは限らない。個人としての利益の最大化する戦略が、全体としての利益の最大化をもたらすとは限らない。

自分だけが全体としての利益をもたらす結果を期待して戦略を選ぼうとしても、相手が支配戦略である可能性があって、より損をするリスクを負うため選びづらい。こうしたもどかしさが囚人のジレンマが表している状況というわけですね。

以上、ゲーム理論入門として、囚人のジレンマとは何か、順序関係の応用としての選好について紹介してきました。

ゲーム理論の入門は、なんとなく話だけ聞く分には簡単ですが、数学的に調べるとなると、集合論や順序関係の知識があると良いでしょう。逆に、集合論や順序関係の応用、または練習問題として、ゲーム理論を学んでみると面白いと思います。

木村すらいむ（@kimu3_slime）でした。ではでは。