Unboundedly

統計的因果推論・疫学についてのお話

選択(セレクション)バイアスとは?人によって定義が違うので整理してみた。

疫学と経済学、どちらもある要因Xがある要因Yに与える因果的な効果の大きさを推定する「因果推論」に関心があることが多いです。

「選択(セレクション)バイアス」「交絡」「内生性」、多くの用語が因果推論で登場します。

ところが、話をしているとどうも噛み合わないことが多いよくよく聞くと、

①同じことを違う用語を使って話している

②同じ用語を使って全く違う概念について話している

ことが判明。

実は因果推論は様々な分野で(根本の考え方*1は共通しつつも)独自に発展したため、用語が統一されていないという現状があります。似たような取り組みをしていて、学び合えることはたくさんあるはずなのに分野間のコミュニケーションが上手くいかないのは残念ですよね。

さらにいえば分野内(私の場合は疫学)でも頻繁に用語の使い方が一致しないことがあります。

そこで今回は因果推論まわりの疫学・経済学における用語の整理をしてみようと思います。タイトルには「選択バイアス」とありますが、関連するその他用語もみていきます。

一点注意いただきたいのは、本記事の目的は「どちらの使い方が正しい」とか「こういう呼び方に統一すべきだ」みたいな提案をするものではありません。あくまで様々ある因果推論関連の概念の整理と各分野での呼び方の確認です。

 前提・登場する用語の整理

本論に入る前に、いくつか前提知識や用語を整理しておきます。知っている方は飛ばしてください。

潜在アウトカムモデル&DAG

今回お話する因果推論は「潜在アウトカムモデル」というものに基づいています。「反事実モデル」とも呼ばれ(微妙なニュアンスの差があるようですが今回は無視します)、詳しくは過去にまとめていますので知らない方はそちらをどうぞ。

「効果」というものを学術的にはどのように定義するのか、という話です。

潜在アウトカムの定義や記法などは分かる人は説明しなくてもわかるし(後で少しだけでてくる)、知らない人は別に知らなくてもだいたい読めるようにまとめるので、ここでは省略します。

それよりも本記事を読み解く上で重要なのがDAGと呼ばれるツールです。端的に言えば、色々な要因間の関係を図で整理したものです。こちらも詳しくは過去記事を。

よく「DAGを使う因果推論」と「潜在アウトカムモデルに基づく因果推論」が別流派として扱われることが多いのですが、少なくとも疫学においては両者は融合しています。

具体的には潜在アウトカムモデルに基づく因果推論で置かれている仮定やバイアス*2の種類をDAGを用いて可視化して整理するのが疫学流です。

言い換えると、DAGを使うことで経済学もベースとしている潜在アウトカムモデルの考え方が何か変わるわけではないということです。ただ、可視化すると諸々整理が捗るので説明のための便利ツールとして以下使用します。

疫学特有の用語

疫学脳なんで、疫学でよく使われる言葉を使って様々な要因を呼んでいきます。

具体的には、

  • 曝露(Exposure): 効果を推定したい要因。他分野ではtreatmentと呼ばれることも。アルファベットXで表現します*3
  • アウトカム:なにに対する効果をみたいのか、という要因。エンドポイントとも呼ばれる。アルファベットYで表現します。
  • 共変量:曝露・アウトカム以外の全ての要因。データとして測定されているものはL,未測定のものはUを使って表現します。

まあ雑ですが、こんな感じでいきます。

Sample vs Population

これはまあ統計学をかじったことがある人なら分かると思います。

ある集団について、データを使ってなにか知りたいことがある(例:なにかの平均値を知りたい、この集団における曝露効果を知りたい)場合に、全員からデータを集めるわけにはいきませんのでその一部の人からデータをとります。

この時、もともと興味のあった集団を母集団(Population)、データがとられた人たちを標本(Sample)と呼びます。

ではどうやって誰からデータをとるかを決めるのか、というのが色々方法があって、サンプリングと呼びます。理想は母集団からランダムに人を選んでくるランダムサンプリングですね。

内的妥当性・外的妥当性

内的妥当性(Internal Validity)外的妥当性(External Validity)という言葉も、後で概念の整理に役立つので導入しておきます。ざっくりとした定義は

  • 内的妥当性:観察データから推定された因果効果が真の因果効果を正しく捉えているか?
  • 外的妥当性:サンプルから推定された効果が元の母集団・別のPopulationに当てはまるか?

だと思ってください。

要は内的妥当性は「因果推論ちゃんとできてますか」っていう話。外的妥当性に関しては、厳密には元の母集団への適応可能性のみが正しい定義かもしれません。この辺りは一般化可能性Generalizability), Transportabilityとか似たような言葉がごちゃついていて、人によって使い方が違うので別の機会に整理します。

三種類の「セレクション」

さてようやく本題に入ります。

疫学・経済学の各用語の確認に入る前に、そもそも因果推論ではどのような「バイアス」がおこりうるのかを整理します。つまり、データから観測された統計的関連と因果効果が乖離するパターンを考えます。

疫学・経済学で各バイアスを異なる名前で呼んでいるので、ここではあえて名前を使わず、その原因となる構造に注目してまとめます。

具体的には、バイアスはいくつかの「セレクション(選択)」によって生じるものとして考えることができます。

曝露因子の割付に対するセレクション

1つ目は曝露因子の割付に対するセレクション(Selection into treatment)です。割付(assignment)とは、ある人がどのような曝露を受けているか、という意味だと思ってください。

例えば、喫煙が死亡率に与える影響を知りたい場合はタバコを吸っている人たちと吸っていない人たちの死亡率を比較するわけですが、この時、「喫煙」が曝露因子で「喫煙者」は「喫煙」に割付、「非喫煙者」は「非喫煙」に割付された、みたいなイメージです。

曝露因子への割付は、観察データを使う限りなんらかの理由があって発生します。言い換えると、ある曝露を受けている人たちとそうでない人と比べると何らかの背景因子の違いがあるため異なる曝露を受けていると考えられます。

このように、なにか第三の因子によって曝露の割付が決まることによってグループ間に属性の差が生じることを割付に対するセレクションがある、と呼びましょう。そして曝露割付に対するセレクションを引き起こす第三の要因がアウトカムにも影響しうる場合、困ったことがおきます。

この状況をDAGを用いて示すと以下のようになります。

f:id:KRSK_phs:20200513010733p:plain

具体的に考えましょう。喫煙の例だと、喫煙者は若くて健康に不安がないからタバコを吸っているのかもしれませんし、非喫煙者の多くは高齢であったり持病があるために健康に気を遣ってタバコを吸っていないのかもしれません。つまり、喫煙という曝露(A)に対して、年齢・健康状態といった第三因子(L)によるセレクションが生じているわけです。

この場合、喫煙者と非喫煙者を単純に比較できないことがわかります。なぜならば、喫煙者に健康に不安を抱えていない人が多いのだとすると、喫煙者における死亡率は「見かけ上」良くなってしまうからです。逆に、非喫煙者の死亡率は高齢・持病持ちが多いのだとすると高くなりますよね。つまり、この2つのグループの死亡率を比較しても、その差(の少なくとも一部)は喫煙自体(A)ではなく喫煙をするかどうかを決めたその理由(L)によるものだと言えます。見かけ上非喫煙者の方が死亡率が高くなっているわけですから、喫煙者vs非喫煙者の死亡率の差は、喫煙によって死亡率が高まるという真の効果を過小推定しているとも言えます。

このような曝露割付に対するセレクションは、統計的関連と因果効果が離れていくことにつながるので内的妥当性の問題と言えます。

いわゆるランダム化比較試験(RCT)というのは、この曝露の割付をランダムに行うことによって割付に対するセレクション(Aに伸びる矢印)を消去することが目的です。言い換えると、この後説明する残り二種類の「セレクション」に対してはランダム化は効果を発揮しないということです。

曝露割付後のColliderによるセレクション

2つ目は曝露割付後のセレクション(Post-treatment Selection)*4です。曝露割付(曝露の値が確定した時点)よりも後のタイミングで、なんらかの理由により分析対象が選択される状況を指します。

そして、曝露割付後のセレクションの基準がなんらかの理由で曝露そのものの影響を受けている場合、特に深刻な問題がおきる可能性があります*5

このような状況が発生する原因はいくつかあるので整理しましょう。

特定の集団における効果の検討

分析者によって、一般集団ではなく特定の集団にしぼった関連を見ることに関心があることが多いです。

例えば、「糖尿病患者において、肥満が死亡率に影響するかどうか?」がそもそも分析者が知りたいことだとします。このようなクエスチョンに答えるためには、当然次のようなことをします。

  1. 糖尿病患者を集めて
  2. 肥満と死亡率の関連を見る

1の段階で「分析対象者のセレクション」が発生しているわけです。重要なのは、このセレクションの基準となっている糖尿病が、注目している曝露(肥満)よって引き起こされている可能性があるということです。「肥満」は糖尿病のリスクを高める要因であることが知られています。

肥満の人は糖尿病になりやすいのだとすると、「糖尿病患者という集団において、肥満でない人たち」というのはどのような人たちかを考えてみましょう。当然、肥満でないにも関わらず糖尿病になっているわけですから、何らかの別の理由(例:遺伝、生活スタイル)があるはずです。そして、例えば遺伝子が原因で糖尿病になった人は、そのような遺伝子を持っていない糖尿病患者と比べて死亡率も高そうです。

つまり、実際には肥満に死亡率を高める効果があったとしても、”糖尿病患者において”肥満の人とそうでない人を比較すると、肥満の人のほうが(そのほかの糖尿病の原因をもっていないがために)健康そうに見える可能性があるわけです。だからといって、糖尿病患者に「太った方が良い」というアドバイスをすればいいか、というと違いますよね?

DAGで示すと以下のようになります。

f:id:KRSK_phs:20200513011309p:plain

DAG上で四角で囲まれているのは、「糖尿病ステータスが同じ人(つまり糖尿病患者)に限定して分析をしている」という意味です。

実はこれ、疫学の世界では"Obesity pradox"と呼ばれる著名な問題です。慢性疾患がのある患者においては、少し太り気味な人のほうが予後がよいという傾向がみられるという現象です。

これを上記のように、割付後セレクションによるバイアスだと整理したのが以下の論文になります。

Lajous, Martín, et al. "Should patients with chronic disease be told to gain weight? The obesity paradox and selection bias." The American journal of medicine 128.4 (2015): 334-336.
似たような問題に"Birthweight paradox"があります。妊娠中のお母さんが喫煙をすると、産まれてきた赤ちゃんの死亡率が高まることが一般的に知られています。ところが、低体重で産まれてきた赤ちゃんだけに限定すると、妊娠中に喫煙に曝露していた赤ちゃんのほうがそうでない赤ちゃんよりもその後の死亡率が低い。

では、妊娠中の喫煙は低体重児にとっては健康によいのか?Noです。実はこれも割付後セレクションによる統計的artifact(因果効果ではない統計的関連)として説明可能です。

f:id:KRSK_phs:20200513014117p:plain

つまり、妊娠中の喫煙への曝露がないにも関わらず低体重で産まれてきた赤ちゃんは何かしら死亡のリスクとなりうるような別の理由をもっている、というわけです。

詳しくはこちらの論文で解説されています。

Hernández-Díaz, Sonia, Enrique F. Schisterman, and Miguel A. Hernán. "The birth weight “paradox” uncovered?." American journal of epidemiology 164.11 (2006): 1115-1120.

あとは「有名企業に入る東大生は使えない!」とか「グーグル社員の調査でわかった!学歴は年収と無関係!」とかも多かれ少なかれ同じようなバイアスの影響を受けていますね。

このように

  1. 曝露割付後の要因で分析対象を選択
  2. その選択基準が曝露レベル/曝露の原因&アウトカム/アウトカムの原因の共通の効果となる*6

の2条件が揃った時、選択された集団においては異なる曝露を受けたグループ同士の比較はフェアでなくなり、統計的関連≠因果効果となるわけです。ちなみに2の条件をcolliderと疫学では呼びます。

データの性質・研究デザインによるもの

研究デザインや利用可能なデータの制約から生じる割付後セレクションもあります。

もっとも典型的なのはRCTにおける追跡の失敗(Loss-to-follow-up)です。

例えば、ある薬が6ヶ月後の健康状態に与える影響を評価するためのRCTを100人を対象に実施したとします。まずは薬を飲むvsコントロール(飲まない/プラセボ)をランダムに(例えば50人vs50人)割り付けます。ランダムですから、薬を飲む群に割り付けられた人とコントロール群に割り付けられた人に属性の差はないはずです。ここでは割付られた人がその割付に実際に従うかどうか、というアドヒアランスの問題は無視します。

f:id:KRSK_phs:20200513023632p:plain

6ヶ月間追跡して全員の健康状態を評価するわけです。ところが、そのうち20人が研究から途中抜けしたとすると、アウトカムが評価されるのは残った80人だけです。

途中抜けの理由は様々で、

  • 薬を飲んだことによる副作用で体調が悪くなって参加ができなくなった人
  • もともと体調が悪くて参加できなくなった人

などがあるとしましょう。この時、

  • 薬を飲んだ人の方が副作用のせいで残る確率が少ない
  • 逆に薬を飲んでいるのに残っているのはもともと元気な人が多い?

と考えることができ、残った80人のなかで薬割付群vsコントロール群の比較を行うと、割付群のほうが見かけ上健康になる、という可能性があります。RCTにも関わらず、「追跡の失敗」という割付後におきた条件でセレクションがおきることで統計的関連≠因果効果となるわけです。

RCTにおける追跡の失敗以外にも、欠測データによる問題も同じです。欠測という割付後に発生する条件を用いて、「データが完全に測定された人」のみを分析対象とすると欠測がおきたメカニズムによってはバイアスが発生します。

もう1つ面白い事例が、定義上、曝露を受ける集団の一部のみでアウトカムが測定されうるケースです。

妊娠中の様々な曝露が産まれてきた赤ちゃんに与える影響を見る研究を考えましょう。例えば妊娠中にお母さんがどんな栄養をとっていたのか、喫煙をしていたのかが産まれてきた赤ちゃんの健康・発達にどのように影響するか、です。

話を簡単にするために仮想的なRCTをやったとしましょう。全くもって非倫理的ですがありえない実験ですが、妊娠中のお母さんをランダムに喫煙・非喫煙に割付けたとします。

f:id:KRSK_phs:20200513024926p:plain

シンプルに考えれば、産まれてきた赤ちゃんの健康状態を喫煙群vs非喫煙群で比較をすればよさそうです。しかし、この分析は「赤ちゃんが生きて産まれてきている(生誕)」という割付後の条件によって分析対象者が選択されていることに注意してください。

ところが、妊娠中の喫煙は流産などのリスクも高めますので生誕確率に影響します。ということは、妊娠中の喫煙があったにも関わらず生誕することができた赤ちゃんというのは、もともと健康な子が多い可能性がありますよね。

つまり、たとえ先ほど説明した「割付に対するセレクション」がなかったとしても、喫煙群vsコントロール群で赤ちゃんの健康状態を比較したときの差は、もともとの健康状態の違いによるものかもしれないというわけです。

サンプリングによるもの

割付後のセレクションが起こる原因として、最後に紹介するのはサンプリングの方法です。つまり、どうやってデータを得る対象者を集めてくるのかです。

古典的にはまず母集団を想定して、そこからランダムに抽出して・・・とやるのが理想ですが、なかなか費用も手間もかかります。

なのでランダムでない方法を用いて手っ取り早く研究参加者を集めることがあります。

例えば、肥満と心臓の病気の関係を調べる研究をしたいとします。研究対象者はボランティアを使って、参加を募るとします。参加者は様々な検査を受けて、心臓の健康状態をチェックすることができるような研究だとしましょう。

f:id:KRSK_phs:20200513031013p:plain

肥満の人は自分の健康状態が気になって参加しようと思うかもしれません。逆に肥満でないのにボランティアをしようと思う人はどんな人でしょうか?ものすごく健康意識の高い人なのかもしれませんし、逆に心臓の病気の家族歴があるリスクの高い人なのかもしれません。いずれにしても、これらの要因はアウトカムと強く関連する可能性が高く、単純に肥満ありvsなしの比較で得られる統計的関連は必ずしも「肥満の効果」とは言えないものになります。

 

諸々見てきましたが、 どれも結局は割付後に発生する条件によって分析対象者を選択することで曝露群・非曝露群の背景因子が異なってくるという現象だと捉えることができます。つまり、今回紹介した「曝露割付後のセレクション」は内的妥当性の問題だということです。「曝露割付へのセレクション」とは、セレクションの結果生じる”アンフェアな比較”が原因で因果効果を見ることができなくなるという意味では同じですがその理由が異なるわけです。

このようなバイアスについて詳しく学びたい方は次の名著論文を読むことをお勧めします。

Hernán, Miguel A., Sonia Hernández-Díaz, and James M. Robins. "A structural approach to selection bias." Epidemiology (2004): 615-625.

厳密には「曝露割付後のセレクション」のうち、colliderを条件としたものが内的妥当性に影響すると言えます。言い換えると、曝露割付後の条件が曝露&アウトカム/アウトカムの原因の、共通効果でない場合はそれに基づくセレクションは内的妥当性には影響せず、サンプル内では効果を正しく推定できることになります。ただし外的妥当性は微妙になるかもしれません。このパターンは次に紹介する三種類目のセレクションと同じ扱いをしてよいと思います。この辺り、疫学・公衆衛生学内でも混同されるケースが多いです。

曝露割付前のセレクション・曝露割付後のnon-colliderによるセレクション

最後に「曝露割付前のセレクション」「colliderでない曝露割付後の条件によるセレクション」を考えます。これは端的に言えば、サンプルの代表性/偏りの問題です。

「曝露割付前のセレクション」は例えばRCTが顕著な例です。RCTでは母集団からランダムにサンプルを抽出ということは滅多にしません。そんのため、「RCTに参加した人たち」から得られた結果がどの程度一般化されるのかが批判されることが多いです。

これは、必ずしも因果推論の問題に限定されません。例えば、ある疾患を持つ人が東京都内でどれくらいいるかを知りたいのに、①とある医療クリニックで②自ら希望して③自腹で検査を受けた人たちの集団での有病率から一般化できないですよね。*7

まさかそんなことする人はいないと思いますが・・・。

あとは「曝露割付後のセレクション」であっても、colliderでない場合は単に偏った集団にRCTを行なっていると考えるとよいかもしれません。例えばRCTの追跡の失敗が割付と全く無関係の場合など。

いずれのケースも、結果が偏ったサンプル以外の集団に当てはまるかどうかはわからないという、外的妥当性の問題はあるものの、(他の問題が全くない場合には)サンプル内で因果効果を見ること自体はできるというわけです(内的妥当性の問題ではない)

代表性がない、偏った集団での因果効果を見ても嬉しくないことが多いわけですから、より一般的な集団・関心のある他の集団に結果が当てはまるかを考えたいわけです。

ところが偏った集団だからといってすぐに否定してしまうのも考えものです。実はどのくらい一般化が可能かは、「効果修飾」という現象を考えることである程度具体的に考察することが可能だと思っています。今回は詳しく触れません。

疫学における用語の確認

さてようやく用語の確認に移ります。まずは疫学から。

交換可能性(Exchangeability)

統計的因果推論が成立するための重要な仮定の1つがExchangeabilityです。フォーマルには「潜在アウトカムと実際の割付が独立」と定義されますが、平たく言えば比較されているグループ(例:曝露vs非曝露)が同質の集団であるという意味です。つまり、”フェアな比較が行われている”という仮定になります。統計学ではIgnorabilityと呼ばれています。

上で説明した「曝露割付に対するセレクション」、「曝露割付後のセレクション(Collider)」が存在する場合、どちらも結果として比較されているグループ間で(アウトカムに影響する)背景因子の分布が異なることにつながるので、Exchangeabilityの仮定が違反されます。

交絡(Confounding)

疫学における交絡とは「曝露割付に対するセレクション」から生じるバイアスのことです。「割付に対するセレクション」という言い回しは疫学ではあまりせず、「曝露とアウトカムの共通原因(Common causes)」によるバイアスとして整理されることが多いです。

交絡に対処する方法は様々ですが、基本的には共通原因Lの値が同じ人たちを対象に分析をすることで、その集団内では他の共通原因が存在しないのでExchangeabilityが成立する(Conditional Exchangeabilityと疫学では呼びます)ことを仮定します。

回帰モデルをつかった「調整」というのも本質的には同じことです。

(疫学の)選択バイアス/セレクションバイアス(Selection Bias)

選択バイアスという用語は、実は疫学内でも人によっては微妙に違う意味で使われています。疫学におけるSelection biasの定義のコンセンサスは疫学辞典(Dictionary of Epidemiology)から拝借しました。用語の確認はこれが一番です。曰く、

Bias in the estimated association or effect of an exposure on an outcome that arises from the procedures used to select individuals into the study or the analysis. When the selection involves conditioning on a factor that is affected by the exposure or a cause of the exposure, and also affected by the outcome or a cause of the outcome, selection bias can arise even in the absence of a causal effect of exposure on outcome

(訳:分析対象の選び方によって曝露とアウトカムの関連の推定値がバイアスされること。分析対象の選択が曝露/曝露の原因によって影響を受ける&アウトカム/アウトカムの原因によって影響される要因に基づいてされる場合、曝露のアウトカムに対する因果効果がない場合でも選択バイアスが生じる)

要は「曝露割付後のセレクション(Collider)」によって生じるバイアスのことです。したがって、疫学における選択バイアスは、「曝露割付に対するセレクション」とは別の構造から生じる内的妥当性の問題だということがわかります。

なお、社会学においても似たような使われ方をされているようです。

サンプリングバイアス(Sampling Bias)

サンプリングバイアスとは 「曝露割付前のセレクション」および「曝露割付後のセレクション(non-collider)」から生じる一般化可能性・外的妥当性の問題のことです。研究の対象となった偏ったサンプルで得られた知見を母集団や他の集団に適応できないという問題です。

実はこれを前述の「選択バイアス」と混同して使用しているケースが疫学内でも少なくありませんが、区別すべきだと思います。なお、必ずしもこれらの用法が絶対正しいとは言いませんが、①異なる現象であることを認知すること、および②できれば統一されたコミュニケーションが捗ることを考えると辞書的な意味を一度確認して認識を同じにしたほうがいいと思っています。

疫学辞書には次のように書かれています。

Often “selection bias” is used to refer to systematic differences between the characteristics of the study population and those of other populations (i.e., sampling bias). These differences may make it problematic to transport the inferences from the study population to the other populations. Because such uses of “selection bias” do not imply lack of internal validity, it is more appropriate to use the expressions “lack of generalizability” or “low external validity.”

(訳:「選択バイアス」という用語は、研究対象集団とその他の集団の属性の違い(サンプリングバイス)を指して使われることも多い。そのような違いがあると、研究対象集団に対する推論を別の集団に当てはめることが問題になる。そのような「選択バイアス」という用語の使用は内的妥当性を意味しないので、”一般化可能性の欠如”や”低い外的妥当性”といった表現を使う方が適切である。

Study populationといった単語がやや曖昧ですが、要はサンプルの偏りから生じる一般化可能性・外的妥当性の問題に対しては「選択バイアス」ではなくて「サンプリングバイアス」という言葉を使いましょうというニュアンスだと思います。

「バイアス」とありますが、上記の交絡によるバイアスや(疫学的な意味での)選択バイアスが統計的関連と因果効果の差を指しているのに対して、ここでいうバイアスはサンプルの推定値と推論の対象としている集団における真の値の系統的な差を意味しているので、区別した方が良さそうです。

経済学における用語の確認

疫学の用語を確認したところで、似たような概念を指す経済学の用語を確認していきます。私はフォーマルに経済学の教育を受けたわけではないので、自分なりに文献を読み・解釈したうえでのまとめです。なにか不正確な点があればご指摘を。

内生性(Endogeneity)

WooldridgeのIntroductory Econometricsでは次のように定義されています。

  • Endogeneity: A term used to describe the presence of an endogenous explanatory variable.
    内生性:内生的説明変数が存在すること)
  • Endogenous Explanatory Variable: An explanatory variable in a multiple regression model that is correlated with the error term, either because of an omitted variable, measurement error, or simultaneity.
    内生的説明変数:重回帰モデルにおいて、誤差項と相関する説明変数。その理由には欠落変数、測定誤差、同時性がある)

なぜ「重回帰」と限定?とは思いますが、経済学では統計的関連≠因果効果を注目している変数と誤差項の相関で捉えるようです。そして、そのような相関が生じる理由にはいくつかあって「曝露割付へのセレクション(疫学の交絡)」「曝露割付後のセレクション(collider)(疫学の選択バイアス)」のどちらも含まれるようです。測定誤差(おそらく厳密にはdifferential measurement error/misclassificationのこと)や逆因果なども入っているのが面白いです。交絡=内生性ではなく、もう少し広い概念ですね。測定誤差と因果推論についてはいつかまとめたいと思っています。

疫学脳の私にはどうも誤差項との相関、という考え方が馴染まないのですが疫学でいうところのExchangeabilityが成立していない状況のことを指しているような気がします。 

 

*補足*

記事の公開後、本職(経済学者)の方からご指摘いただきました。「内生性」という言葉はいわゆる統計的因果推論の枠におさまらない広い意味を持つようですね。「誤差項との相関」というのも、初学者向けの定義であるようです。

 

欠落変数バイアス(Omitted Variable Bias)

再びWooldridgeを参照すると、

  • Omitted Variable Bias: The bias that arises in the OLS estimators when a relevant variable is omitted from the regression.
    (欠落変数バイアス:重要な変数が回帰から抜けていることで最小二乗法推定に生じるバイアス)
  • Omitted Variables: One or more variables, which we would like to control for, have been omitted in estimating a regression model.
    欠落変数:調整したいのに回帰モデルの推定から抜け落ちている変数)

とあります。OLSに限定しているのが定義として少し狭いかなという印象がありますが、欠落変数バイアス=交絡というわけではなさそうです。

これも疫学でいう交絡よりは広い概念のようですね。もちろん「曝露割付に対するセレクション」があったときには、曝露割付に影響しかつアウトカムにも影響するような要因を回帰モデルにいれてあげればいいわけだし、逆に抜けていたら交絡が起きているわけだし「欠落変数バイス」が起きているということもできると思います。

一方、例えば「曝露割付後のcolliderによる対象者の選択」が起きている場合、セレクションの基準とアウトカムの共通原因となっている第三の要因(例:Obesity Pradoxの話における遺伝子)を回帰モデルに含めれば(疫学でいう)選択バイアスは回避できるし、逆に抜けていたら「欠落変数バイアス」がおきるわけです。

つまり、欠落変数バイアスは、回帰分析において交絡や(疫学でいう)選択バイアスの補正に失敗したことで生じるバイアスを指すようですね。

なお、回帰モデルに変数を含める以外にも補正の方法はありますし、なんとなく狭い定義ですので個人的には内生性とか次に出てくる(経済学の)選択バイアス、サンプルセレクションバイアスという用語のほうが好きです。

(経済学の)選択バイアス/セレクションバイアス(Selection Bias)

ややこしいことに、経済学でも選択バイアスという言葉は登場し、しかも疫学とは異なる使われ方をされているようです。

Wooldridgeでは明確に定義されていませんでしたので、AngristのMostly Harmless Econometricsを参照しました。本をもっていなかったので、ググって適当にでてきたpdf(リンクは載せません)を読んだだけなので最新版かどうかもわかりません。

(入院が健康に与える影響の話をする文脈で)The observed difference in health status however, adds to this causal effect a term called selection bias. This term is the difference in average Y_0i between those who were and were not hospitalized.

(簡略化した訳:選択バイアスとは同じ曝露を受けた時の平均潜在アウトカムが実際の曝露群と非曝露群で異なること) 

とありました。これは潜在アウトカムと実際の曝露割付の非独立を指しているのですから、疫学でいうExchangeabilityが成立しない状況の定義と一致します。

Exchangeabilityというのは「曝露割付へのセレクション(交絡)」や「曝露割付後のColliderによるセレクション(疫学の選択バイアス)」によって成立しなくなる仮定であることはすでに述べました。

ところが読み進めていくと、どうやら著者のAngristはSelection biasという言葉で前者の「曝露割付へのセレクション」のみを指していることがわかります。例えば、"Random Assignment Solves the Selection Problem"というセクションでなぜランダム化が(経済学の)選択バイアスの解決に有効なのかを話していますが、すでに説明したように「曝露割付後のセレクション」によっておきる問題はランダム化では解決しないからです。

つまりまとめると、経済学におけるセレクションバイアス/選択バイアスというのは「曝露割付へのセレクション」によるバイアス、Selection (into treatment) biasであり、疫学でいう交絡と同じ意味ということです。

サンプルセレクションバイアス(Sample Selection Bias)

再びWooldridgeを見ると、

Sample Selection Bias: Bias in the OLS estimator which is induced by using data that arise from endogenous sample selection.

(訳:内生的に選択されたサンプルのデータによって生じるOLSのバイアス)

とあります。OLSに限定する必要はなさそうですが、endogenous(内生的)と言っているわけですから、少なくとも単なる一般化可能性の話ではなさそうです。

別の箇所を読むと、「教育歴が賃金に与える影響」を推定するモデルの例がありました。ここで、「賃金」のデータは働いている人においてしか得ることができない(つまり分析対象者が就労している集団に限定される)&働くという意思決定が賃金にも影響する第三の要因によって左右される可能性があることが指摘されています。そしてその結果、サンプルセレクションバイアスが起きると。状況的には、「妊娠中の曝露と生まれてきた赤ちゃんの健康は、生誕によるセレクションがある」という先ほどの例と似ていますね。

ここでは明確に書いていませんでしたが、上記のシナリオに「働くという意思決定に教育歴が影響する」という条件が加わると、これは「曝露割付後のColliderによるセレクション」と同じ状況です。つまり、経済学のサンプルセレクションバイアス=疫学のセレクションバイアス/選択バイアスだということが推測できます。

まとめ

こんな感じでしょうか?

f:id:KRSK_phs:20200513140815p:plain

紛らわしいですが、こればっかりは仕方ありません。少なくとも構造的に異なるタイプのバイアスが存在していて、それぞれ分野ごとに違う呼ばれ方をしている、ということだけ覚えておきましょう。学際的な会話がスムーズに進むことを願って、整理しました。

 

*1:潜在アウトカムモデル

*2:統計的関連≠因果効果となるときのその差。本ブログで5億回くらい言いました。

*3:疫学ではAを使うことが多い

*4:なお、このような呼び方は私が勝手につけているので疫学・経済学で一般に使われる呼称ではないと思います

*5:因果構造によっては、セレクション基準が曝露の影響を受ける場合だけでなく統計的関連が存在しているだけの場合も問題になります。詳しくはHernan 2004で。

*6:要はcolliderを条件づけることで曝露とアウトカムにopen pathが開くパターン、ということです。いろんなパターンがあります。詳しくはHernan 2004を参照ください。

*7:単純に集団に代表性がないだけでなく、事前確率と検査のパフォーマンスの関係という事情も関わってきます。