Unboundedly

統計的因果推論・疫学についてのお話

「世界一高いIQ」が生んだ謎、モンティホール問題はなぜパラドックスなのか

今回は、前回紹介したシンプソンのパラドックスと同じくらい有名な統計トリック、モンティホール問題について書きます。確率的に正しいことと、我々人間の直感が大きく食い違うシチュエーションの非常に良い例だと思います。

モンティホール問題についての解説は多くありますが、どれも”なぜ確率的にその答えが正しいのか”ということの説明のみでとどまっており、”なぜその答えが我々の直感に反するのか、パラドックスのように感じるのか”という問いに対しては答えていません。そのため解説を読んで頭では理解していても、なんとなくスッキリしない、腑に落ちないような気持になるという現象が起きてしまいます。

今回は特にこの後者にフォーカスして説明をしていきたいと思います。

f:id:KRSK_phs:20180902105127j:plain

モンティホール問題とは 

モンティホール問題を語るうえで欠かせないのが、Marilyn vos Savantという女性です。彼女は「世界一IQが高い人間(IQ228)」としてギネスブックに認定されていました。*1

f:id:KRSK_phs:20180902111736p:plain

出典:本人のTwitterアカウント(@VirtualMvS)プロフィール画像

要するに非常に頭が良いとされていた彼女ですが、読者からの質問・相談に答える"Ask Marilyn"というコラムを連載しておりいました。多くの難しい問題に彼女は難なく答えを出し続けていたとのことです。ところが1990年、ある一つの質問に対する彼女の回答が世界中をざわつかせました

当時のアメリカで人気だったテレビ番組”Let's Make a Deal"を題材にした問題です。この番組の司会者の名前がモンティホールでした。番組中で、モンティホールは番組参加者に次のようなゲームを用意しました。

1.目の前に三つの閉じたドアがある
2.三つのドアのうち、一つのドアは後ろに自動車、それ以外の二つの後ろにはヤギがいる
3.どのドアが正解(後ろに自動車がある)かは司会者モンティホールのみが知っている
4.回答者はまず、自動車が後ろにあると思うドアを一つ選ぶ
5.モンティホールは残りの二つのドアのうち、必ず外れ(ヤギ)のドアを開けてみせる
6.残った二つのドアのうち、回答者はそのまま最初に選んだドア、もしくはもう片方の(モンティホールが開けなかった)ドアのどちらかをファイナルアンサーとして選ぶことができる

Marilyn von Savantに出された問題とは、

「ゲーム参加者は最後の二択で選択を変えるべきか」

というものでした。
もう少しイメージがわくように、例をみてみましょう。以下の画像では三つのドアのうち、「ドア2」が正解となっています。

f:id:KRSK_phs:20180902121104p:plain

ここであなたは、最初に「ドア3」を選んだとしましょう。すると、司会者モンティホールはあなたが選ばなかったドア1とドア2のうち、ハズレのドア、つまりドア1を開けてみせてくれます。

f:id:KRSK_phs:20180902121244p:plain

さて、あなたは最後の選択に迫られます。最初に選んだドア3か、モンティホールが開かなかったドア2か。当然あなたはそれぞれのドアの後ろになにがあるか全くわかりません。この場合は、仮にあなたがドアを変えた(ドア2を選択)場合、晴れて正解というわけです。逆に最初のドアのまま選択をかえなければハズレです。

f:id:KRSK_phs:20180902122117p:plain

このゲームをやるとき、最初の選択そのままがいいか、ドアを変えるべきか。どういう選択をするのが正解なのでしょうか?それとも、そもそもどっちを選んでも正解する可能性は高くならないのでしょうか?

「世界一の頭脳」が出した答えとは

 Marilyn von Savantはこの問いに対して「ドアを変えることで正解の確率が2倍になる」という答えをだしました。

この答えに対して、数学・統計学の博士号保持者を含む、世界中の猛者からの反対の意見が10,000通以上届いたそうです。彼らに言わせれば、Marilynの答えは「全くもってナンセンス」であったようです。

たしかに直感的に考えれば、そもそも自分はドアの後ろになにがあるかを知らないので、どちらのドアを選んでも正解の確率は1/2のような気がします。結局、片方が正解、片方がハズレの二択から一択を選ぶわけですから、どちらを選ぶかは確率的に考えれば関係なさそうです。

f:id:KRSK_phs:20180903041629p:plain

しかし、実はこの問題、Marilynの答えが正解なのです。数学・統計の専門家の直感も、「世界一の頭脳」の論理的思考の前に敗れ去ったということです。

なぜMarilynの答えが正しいのか、それを証明する方法はいくつもあります。ベイズ統計の視点から答えを出しているものなど、一見難しいものから直感的なものまで様々ですが、もっともシンプルなのは次の証明(Marilyn自身がつかった回答)だと思います。

あなたがドア1を選んだときに、起こりうるシナリオを考えてみましょう。

f:id:KRSK_phs:20180902125423p:plainまず、ドアの正解とハズレのパターンは合計三つ。ドア1が正解のとき(1行目)、ドア2が正解のとき(2行目)、ドア3が正解のとき(3行目)です。

各パターンに対して、最後の二択でドアを買えた時とそのままの時の結果がそれぞれ5列目と6列目にあります。

例えばドア1が正解の場合(1行目)、残りのドアはどちらもハズレなので、モンティホールはドア2とドア3のどちらか片方をランダムに開けます。どちらが開かれたにしろ、残ったドアもハズレなので、ドアの選択をそのまま1でキープすると正解。逆にドアを変えてしまうとハズレになります。

ドア2が正解の場合(2行目)、最初に選択しなかったドア2とドア3のうち、モンティホールはドア3(ハズレ)を開きます。残ったドア1とドア2の二択ですが、ドア2が正解なので「ドアを変える」が正しい選択になります。

どのドアが正解になるかは全くのランダムで決められるので、それぞれ等しい確率でおこりうるシナリオになります。すると、ドアを変えたときは3パターン中2パターンが正解そのままのドア1を選択したときは1パターンしか正解になりません

最初にドア2・ドア3を選んだ場合もそれぞれ同じような状況がおきます。つまり、ドアを変えると確率2/3で正解、そのままだと正解する確率1/3ということです。Marilynの言った通り、ドアを変えると正解する確率が2倍になるわけです。

この説明が分かりにくい、という人はその他の証明方法もあるので「モンティホール問題」でググってみてください。

それでも納得できないという人は以下のサイトでシミュレーションができます。やはり、ドアを変えない場合の正答率は33%程度、ドアを変えた時の正答率は66%程度に収束していきます。

モンティ・ホール問題 Simulator - instant tools

なぜモンティホール問題の正解は受け入れがたいのか

しかし、何度説明を聞いてもこれだけでは腑に落ちない感覚が(少なくとも私には)あります。どのドアが正解かは最初のドアを選択する前に決められています。なので、最初にどのドアを選ぼうが、正解のドアの位置にはまったく影響しません。したがって、残されたドア二つのうち、それぞれが正解である確率は等しく1/2ずつだと考えるのが自然です。

これは、「最初に選んだドア」と「正解のドアの位置」の間に統計的な関連(Association)が存在しないと言い換えることもできます。「最初の選んだドア」がなにか、という情報を知っていることは、「正解のドアの位置」を決めるのになにもヒント(情報)を与えてくれないということです。

しかし実際には、最初に選んだドアが正解である確率が三分の一選ばなかった(かつモンティホールが開かなかった)ドアが正解である確率が三分の二という結果です。言い換えると、最初に選んだドアを知っていると、どの正解のドアの位置について「最初に選ばなかった方が確率が高い」というヒントが得られるというわけです。つまり、「最初に選んだドア」と「正解のドアの位置」の間に統計的な関連がある、といえます。

f:id:KRSK_phs:20180903052012p:plain

なぜ、「最初のドア」と「正解のドアの位置」の間に統計的な関連が存在することが直感に反していて、パラドックスのように感じるのか。

それは、我々人間の頭は、統計的な関連を因果的に解釈するように働くからです。

統計的な関連があれば、そこに因果関係がある。逆に因果関係がないなら、統計的な関連は生じない。このような因果的な解釈を人間はとりやすいのです。

先ほど、確率が二分の一であるという考えの根拠となった「最初にどのドアを選ぼうが、正解のドアの位置にはまったく影響しない」という表現。「影響」という言葉が使われていることから分かるように、これは「最初のドア」と「正解のドアの位置」の間の因果関係がないことに言及しています。実際に因果関係はない(最初のドアを選ぶ前に正解は決まっている)のだから、この前提自体は正しいものです。ところが、「因果関係がないのだから、関連も存在しない(確率二分の一)」という思考がここで働いています。このロジックは正確ではありません。なぜなら本ブログでも繰り返し主張してきたように、因果関係がなくても統計的な関連が生じるケースがあるからです。

ドアを変えたときの正解率が実際には三分の二であること、この事実が受け入れがたいのも、“「最初のドア」と「正解のドアの位置」の間の因果関係がない”という最初の前提と直感的に矛盾するからです。ですが、やはり関連と因果関係はイコールではないのでこれも正確には矛盾していません。

統計的な関連に因果的な解釈を持ち込む、我々の思考回路がパラドックスを生むのです。

なぜ統計的な関連が生じたのか?

なぜ、「最初のドア」と「正解のドアの位置」の間に因果関係がないのに統計的な関連が生まれたのか。この謎を解き明かすためには、おなじみ因果ダイアグラム(DAG)を書いて考える必要があります。

 次のようなDAGが書けます。

f:id:KRSK_phs:20180903060205p:plain

以下の点に注目してください。

①「最初に選んだドア」と「正解のドアの位置」の間に矢印がない

先ほど述べたように、因果関係がないので矢印も存在しません。

②「最初に選んだドア」と「モンティホールが開いたドア」の間の矢印

最初にどのドアを選ぶかによって、モンティホールが開くドアは変わってきます。例えば上記の例だと、最初にドア3を選んだせいで、モンティホールはドア2(残りのドアのうち、ハズレのほう)を選ばざるをえなくなってしまいます。

③「正解のドアの位置」と「モンティホールが開いたドア」の間の矢印

正解のドアの位置によって、どのドアを開くかが決まります。正解じゃないほうを開くのですから。

④「モンティホールが開いたドア」の周りの四角い囲み

DAGのルールで、四角で囲まれているものは「条件付けされている」と解釈できます。このゲームでは、「モンティホールが開いたドア」が何なのかを参加者は知ることができます。この情報を知っている、観測している状態でゲームに挑んでいるということは、条件付けがされているのと同義です。確率の言葉を使うと、ドアの選択が、モンティホールが〇〇を選んだという条件つきの確率になると言い換えることもできます。

 

さて、これはDAGのルールを知っている人なら一目でわかる「選択バイアス」の例です。「最初に選んだドア」と「正解のドアの位置」、両方から影響を受けて決まった「共通効果(Common effect)」である「開かれたドア」が条件づけされています。

選択バイアスが生じることによって、「最初に選んだドア」と「正解のドアの位置」の間に統計的な関連が生じます。両者の間に因果関係など全く存在しないにも関わらず、です。

モンティホール問題からの教訓とは

因果関係が存在しないもの同士の間に、統計的な関連があることから生じたパラドックスがモンティホール問題でした。「関連と因果を混同しない」という基本以外に、この問題から得られる教訓とは、

データ自体よりも「そのデータがどうやって作られたか」を考える必要がある

というものです。どういうことでしょうか。

思考実験として、ゲームのルールを少し変えてみましょう。オリジナルでは「モンティホールは残った扉のうち、必ずハズレのほうを開く」というルールがありました。これを「モンティホールは残った二つからランダムに扉を開く」というルールに変えたとしましょう。

次のシナリオを考えてください。

①あなたは最初にドア3を選ぶ。
②残った扉(ドア1とドア2)のうち、モンティホールはランダムに開けるドアを選び、結果ドア1(ハズレ)を開いた。
③残った扉(ドア2とドア3)のうち、どちらを選択すべきか?

これ、最終的な状況は最初に使った例と全く同じなのです。あなたはドア3を最初に選び、モンティホールはドア1を開いた。オリジナルのルールでは、ドアを変えたほうが正解率が高いという結果でした。

ところが、全く同じ状況にもかかわらず、新しいルール下では「ドアを変えても変えなくても正解する確率は変わらない」というの答えになります。

これが正しいことは、新しいルール下でMarilynがやったような起こりうるシナリオを列挙していく方法でも確認できますし、DAGからもわかります。新ルール下でのDAGは次のようになります。

f:id:KRSK_phs:20180903062932p:plain

先ほどのDAGと比べると「正解のドアの位置」から伸びる矢印がありません。モンティホールがどのドアを開くかはランダムに決められるので、正解のドアの位置との間に因果関係がないからです。この場合、たとえ「モンティホールが開いたドア」を条件つけたとしても選択バイアスは発生せず、「最初のドア」と「正解の位置」の間に統計的な関連も生じません。

全く同じ状況(データ)でも、そのデータが作られたルールによって導かれる答えが変わってくるということです。

ビッグデータというと、そのサイズや内容ばかりが注目されますが、そもそもどうやってそのデータが得られたのかもしっかり考える必要がありますね。データのソースが注目している二つの要因の「共通効果」になっていそうな場合は要注意です。

例えば、Fitbitのような活動量計から得られた巨大なデータで「一日に歩いた数」と「健康」が関連していることが発見されたとしましょう。データはFitbitを所有している人からしか得ることができません。もしかすると、一日にたくさん歩くような運動好きの人が好んでFitbitを購入しているかもしれません。同様に、健康な人(普段から健康意識の高い人)は好んでFitbitを購入しているかもしれません。このような状況では選択バイアスが生じているので、両者の統計的関連を「たくさん歩くと健康になれる」という因果関係として解釈することはできないかもしれません。

参考資料

DAGの生みの親でありAI研究者のJudea Pearlが一般向けに出した以下の本では、モンティホール問題の本質である「関連を因果的に解釈する」というのが人間の思考の本質であると考えた彼が、「より人間らしい思考をするAI」を開発するために因果推論の分野を切り開いてきた、その歴史を知ることができます。モンティホール問題についても当然書かれています。

The Book of Why: The New Science of Cause and Effect

The Book of Why: The New Science of Cause and Effect

 

 

*1:現在はその信ぴょう性が問われ、ギネスブックから項目自体が消えているそうです(Wikipedia参照)