傾向（プロペンシティ）スコアの各使用法の仮定・解釈の違いを比較してみた

観察データを用いた因果推論のための分析手法として非常に人気の「傾向スコア(Propensity Score)」法。

「傾向スコアを用いた分析」と言っても、マッチングや重み付けなどその使い方は様々あります。

巷にある因果推論に関する書籍では、傾向スコアを”どうやって使うのか”という視点で各手法の紹介がされていることが多いですよね。

ところが実際にマッチングや重み付けをしてみると、傾向スコアの使い方によって結果が大きく異なることも少なくありません。

このとき、「どちらの手法から得た答えが正しいのか？」と疑問に思うのは自然です。

それに傾向スコアの使い方はたくさんあるので、「そもそも結局どの使い方が一番いいの？」と思う人も多いでしょう。

この記事を読み終わるころには、「そもそもベストな傾向スコアの使い方、正しい使い方はない」ということがわかると思います。

・傾向スコアという考え方の導入
・傾向スコアを用いた各分析手法の比較。どう使い分けるのか、それぞれの仮定・結果の解釈の違いはなにか。
・そもそもなんで傾向スコアを使うと嬉しいのか？普通の回帰分析じゃだめなの？

以上のようなポイントについてまとめていきます。

そもそも傾向スコア(プロペンシティスコア)とは？
- 観察データを用いた因果推論
- 傾向スコアは複数のLを１つの変数でまとめる
傾向スコアを用いた手法の比較
傾向スコアを用いた各手法の比較まとめ
傾向スコアと普通の（アウトカム）回帰モデルの比較
まとめ

そもそも傾向スコア(プロペンシティスコア)とは？

傾向スコア(Propensity Score)とは、「Conditional Exchangeabilityを得るのに必要なLで条件づけた、効果を推定したい要因Aに割付られる条件付き確率」です。

このままでは何のことかよくわからないかもしれませんが、少しずつ紐解いていきます。

少しステップバックして、因果推論の基礎から導入します。

観察データを用いた因果推論

統計的因果推論の目的は、ある要因AがアウトカムYに与える効果の大きさを定量化することにあります。

例えば、ある薬をのむこと(A)が死亡(Y)に平均的に与える効果

$E[Y_{a=1} - Y_{a=0}$ ]

を知りたい、などです。

なお、上記の数式は反事実アウトカムモデルという考え方に基づいていおり、わからないって方は以下の記事をご参照ください。

ところが薬を飲んでいる人(A=1)と飲んでいない人(A=0)では、アウトカムに関連する背景因子が異なるのでそのまま比べると”アンフェアな比較”になるわけです。

例えば、より若い人の方がその薬を飲む習慣がある場合、薬に効果が全くなかったとしても「見かけ上は」薬を飲んでいる人の方が（より高齢な「薬を飲んでいないグループ」よりも）死亡リスクが低いという統計的な傾向が見られます。

なので一般的には回帰分析などを用いてそういう年齢などの背景因子（Lと呼びます）を"調整"するわけです。

具体的にはLを条件づけることで、Lの層内（＝Lの値が同じ人たち）では"フェアな比較"ができるだろうと仮定を置くことで、Aの効果を考えていきます。

$\newcommand{\indep}{\mathop{\perp\!\!\!\!\perp}}$ $Y_a \indep A\ |\ L$

これを（Lの層内における）Conditional Exchangeabilityといいます。

そんな条件を満たすLが何か、という点については、DAGというツールを使うことで考えることができます。

傾向スコアは複数のLを１つの変数でまとめる

現実にはLが年齢だけということはありません。

薬Aを飲んでいる人と飲んでいない人は、健康状態、経済状況など様々な点で異なる可能性があり、それらの違いがアウトカムYに影響するとき、全てのLを条件付けなければ厳密な意味での"フェアな比較"（Conditional exchangeability）を行うことはできません。

ところが条件づけるべきLの数が増えると、Lの（組み合わせの）層の数は指数関数的に増えていきます。

2値変数がL1, L2, ......, L10とあれば $2^{10}=1024$ 通りみたいなイメージです。

1024通りのアウトカムの比較をしていたのではキリがありません。

また、マッチング（Lが同じの人どうしでA=0とA=1のペアをつくる）をしようにもペアが見つからないなんてことも起こります。

（アウトカムに対する）回帰分析ではこの問題をパラメトリックモデルという仮定付きのモデルを使うことで上手く推定しようとしたわけです。

しかし、Lの数が増えれば増えるほど、アウトカムに対するモデルの仮定も強くなってくる。

そこで登場するのが傾向スコアです。

傾向スコア $S(l)$ はConditional Exchangeabilityを得るのに必要なLの層内における曝露（治療）を受ける（A=1)条件付き確率

$S(l) = Pr[A=1|L$ ]

になります。

例えば、年齢と性別と既往歴による交絡があってA=1 vs A=0のフェアな比較ができていないという場合は、「年齢が60歳、性別が男性、既往歴がXXのときに治療を受ける確率」みたいなのが傾向スコアです。

当然、傾向スコアは人によって（というよりLのパターンによって）高かったり（ものすごく曝露を受けやすい）低かったり（ものすごく曝露を受けにくい）します。

なぜこのような条件付き確率をわざわざ計算するのかというと、その昔、偉い人たちが次のようなことを証明したからです。

$L \indep A\ |\ S(l)$

これは「傾向スコア $S(l)$ が同じ人集団ではA=1群とA=0群のLの分布が同じ」という意味です。

分布が同じ、というのは例えば男女比が同じ、年齢も高い人と低い人が同じような割合でいるといったニュアンスです。

関連して次のようなことも言えます。

$Y_a \indep A\ |\ S(l)$

これは先ほどのconditional exchangeabilityのLが $S(l)$ と入れ替わったものです。

つまり、「Lの値が同じ集団でA=1群とA=0群のフェアな比較ができるなら、傾向スコア $S(l)$ が同じ値の集団でもフェアな比較ができる」という意味です。

この２つの性質は傾向スコアを用いた各手法の比較で非常に重要になるので、覚えておいてください。

これらの性質の画期的なところは、

わざわざ大量のLを条件付けなくても、 $S(l)$ という１つの変数を使うだけで因果推論が可能になる（次元縮約）

という点にあります。

傾向スコアは実際にはわからないので、手持ちのデータから推定することになります。

いくつかポイントを。

具体的には、Lの情報を用いてA＝1となる確率をロジスティック回帰を用いて予測するのが一般的
つまり $Pr(A=1|L)$ に対するモデルを作成するし、それに対する仮定が必要
機械学習などを使ってもいいが、それは柔軟なモデルを使ってモデルの誤設定リスクを減らしているだけでバイアスの補正が途端に強くなるわけではない
そもそも傾向スコアを推定するモデルに含めるべき変数はConditional Exchangeabilityを得るのに必要なL（＋非colliderなアウトカムYの予測因子）*1のみ
とにかくなんでもAに関連するものをモデルにいれて割付確率 $Pr(A=1|L)$ を精度良く予測すればいいという話ではない

重要なのは、傾向スコアが正しく機能するためには

どのLを条件づければバイアスがなくなるのかがわかっている(Conditional Exchangeabilityの成立条件をドメイン知識に基づき決める）
それらLのデータが（正しく）測定されている

の２条件が必須だということ。

言い換えると、傾向スコアでは、特定＆測定されている原因によるバイアス以外は対処できないということです。

この条件は単純に重回帰分析などを用いた因果推論と変わらないので、傾向スコアを使ったからといって魔法のようにバイアスへの対処が強くなるわけではありません。

これ重要なのでご唱和ください。

傾向スコアを使ったからといって魔法のようにバイアスへの対処は強くなりません

とはいえ、対処できるバイアスが重回帰分析と同じであったとしても、なにか別の違いがあるはずと思いますよね。

実はその通りで、傾向スコアを用いた分析が優れている点がいくつかあります。

その辺りは本記事最後の「（アウトカムに対する）重回帰分析との比較」で簡単に解説します。

傾向スコアを用いた手法の比較

さて本題に入ります。

傾向スコアを用いた分析方法として次のものを紹介・比較していきます。

マッチング
傾向スコアによる層化
アウトカムモデルによる調整
逆確率重み付け

各方法の細かい数理的な議論やRでの実装方法などに踏み込むつもりはありません。

なんとなく「なぜそうすると因果効果を推定できるのか」という雰囲気が理解できればOKです。

それよりも背景にある仮定や結果の解釈について掘り下げていくことが重要だと思っています。

具体的には次のようなポイントを見ていきます。

調整し切れていないバイアス(Residual bias)はあるか
曝露確率の"support"をどのように扱っているか
モデルの仮定はあるか
どのような問いに答えているか（効果の異質性をどのように扱っているか）

です。

マッチング

おそらく傾向スコアの使い方として最もポピュラーなものは傾向スコアマッチングではないでしょうか？

例えば「マッチングで年齢を補正」というのは、年齢が同じ人でA=0とA=1のペアを作っていくという意味。

最終的に出来上がる、ペアがたくさん集まった集団ではA=0とA=1で年齢の分布が等しくなる（同じ年齢のペアの集まりなのですから当然ですね）ので年齢によるバイアスは取り除くことができる、というロジックです。

ところが前述のように調整すべきLの数が増えると「同じ年齢、性別、教育歴、年収・・・の人」でたくさんの条件が同じペアを見つける必要がでてきますが、そんな人はなかなか見つかりません。

ところが傾向スコアであれば、次元縮約されて１つの変数についてペアを探していけばよいのでやりやすいわけです。

傾向スコアを使って作られたペアたちで構成される集団（matched sample)では、やはりLの分布がA=0とA=1で同じになる（ことが期待される）ので、”フェアな比較”をすることが可能になります。

実際によくやられる手順はこうです。

傾向スコアが”同じくらい”とみなせる範囲を決める
各A=1の人の傾向スコアの値に対して、"同じくらい"の傾向スコアを持つA=0の人を（1人もしくは複数名見つけて）ペアを作る
ペアの見つからない人（傾向スコアが極端に大きかったり、小さかったりする人）のデータは除外する

傾向スコアは確率であり0-1の間を連続的に変化する変数ですから、傾向スコアが"全く同じ"ペアを見つけるのは至難の技です。

そこで例えば「傾向スコアの差が0.05より小さければ同じくらいとみなす」といったルールを決めます。

$S(l)=0.25$ であるA=1に対して、 $S(l)=0.29$ のA=0は「だいたい同じ」としてペア認定しますし、 $S(l)=0.32$ だったら傾向スコアが離れすぎているのでペアとしてしないわけです。

２番目については、別にA=1の人を基準にペアを探していかないといけない決まりはありません。

まあとりあえず「A=1, A=0で傾向スコアが同じくらいの人たちのペアをたくさん作る」と理解しておいてください。

Residual Bias

傾向スコアマッチングで肝となるのが、先ほど出てきた「傾向スコアが同じくらい」とみなすルール（キャリパーって呼ばれます）決めです。

厳しくしすぎるとペアが決まりませんが、逆に緩すぎても問題が発生します。

例えば「傾向スコアの差が0.05より小さければ同じくらいとみなす」といったルールを考えましょう。

繰り返しになりますが、例えば $S(l)=0.25$ であるA=1に対して $S(l)=0.29$ のA=0はペアとなります。

傾向スコアの性質から

$L \indep A\ |\ S(l)$

というのがありました。

傾向スコアが"全く同じ"( $= S(l)$ )人のなかではA=1群とA=0群でLの分布が同じ、となるわけですが、このとき $S(l)=0.25$ であるA=1と $S(l)=0.29$ であるA=0でLの分布が等しくなるかどうかは保証されていません。

確かに $S(l)$ の値は近いのでLについても似通った集団であるような気はしますが全く同じわけではないですし、そもそも「近い」という判断自体が恣意的な基準で決められているからです。

例えば、「所得が高い人のほうが治療を受けやすい」という傾向があり、 $S(l)=0.29$ の人は $S(l) = 0.25$ の人より高所得というケースがあるかもしれません。

この時、所得が交絡因子であるならば上記のようなマッチングルールは所得によるバイアスを完全に除去することができない、ということになります。

このように傾向スコアマッチングでは、たとえConditional Exchangeabilityが成立＆正しく傾向スコアを推定という条件がそろっていたとしても除ききれていないバイアス（Residual bias)が出てくる可能性があります。

曝露確率のSupport

因果推論の重要な仮定の１つにPositivityというものがあります。

要は「Lの層内で曝露(A=1)確率と非曝露(A=0)確率が0でも１でもない」というものです。

言い換えると、「全員が曝露となる」「全員が非曝露となる」みたいなLの層がないということです。

例えば全員がA=0だと比較相手(A=1)がいないので因果効果を推定できない、と言えば納得の条件ですね。

Positivity違反には二種類あります。

まず１つ目は「絶対（非）曝露となるような条件」がある場合で、構造的なpositivity違反と呼ばれます。

例えば「ある検査の数値が〇〇以上の人には絶対この薬を投薬しない」みたいなガイドラインがあるときにその検査の数値をLに含めてしまった場合は構造的なPositivity違反が発生します。

この場合、「数値が〇〇以上の人」の人を除外して「〇〇未満の人における薬の効果を推定」といった具合にクエスチョン自体を変える必要がでてきます。

２つ目はサンプルサイズが有限であることから生じるPositivity違反で、Lの層の数が増えれば増えるほど「たまたまA=1(or0)の人しかいない」というケースがでてきます。

例えば1000人(うちA=1が100人）のデータに対して50通りのLの組み合わせを考えると、A=0人しかいない層が５０通りのうち１つくらいはでてきそうです（というよりもっとあるでしょう）。

このようなPositivity違反に対して、通常回帰分析ではパラメトリックモデルを用いた外挿(extrapolation)を行なって対応します。

例えばA=0しかいないLの層については、まわりのデータから情報を拝借してその層におけるA=1のひとのアウトカムを予測してあげることで比較対象を無理やりつくってあげるわけです。

傾向スコアを用いると、Positivity違反の可視化が可能です。

例えば曝露群と非曝露群で傾向スコア $S(l)$ が次のように分布していたとしましょう（めんどいのでラフな手書きですいません）。

f:id:KRSK_phs:20200906123238j:plain

傾向スコアの定義を考えれば、A=0群で傾向スコアが小さい、A=1群で傾向スコアが大きいというのはまあ自然な結果ですよね。

ところが各群における傾向スコアの分布の両端を見ると、ペアの存在しない部分があることがわかります。

f:id:KRSK_phs:20200906124040j:plain

このような人たちの存在はPositiviy違反を示唆しますよね。

傾向スコアが重なっていない（＝ペアがいない）"off support"な人たちと呼ばれます。

傾向スコアマッチングではこれらの人に対してモデルに依存した外挿を行うのではなく、off-supportを除外した（ペアがいないので）集団で効果推定をするというアプローチでpositivityの問題を克服します。

こうすることでモデルへの依存が少なくなりますが、同時に結果の解釈も変わってきます。これ後ほど。

モデルの仮定

（基本的には）傾向スコアの推定に使う、曝露A（効果を知りたいもの）へのモデルに対する仮定のみです。

マッチング後は単純に曝露群ｖｓ非曝露群でアウトカムを比較してあげればよいです。

答えている問い

傾向スコアマッチングでは(ペアのいない）傾向スコアが極端に大きかったり、小さかったりする人たちを分析から除外します。

そのためマッチング後の曝露vs非曝露の比較から推定される効果は「matched sampleにおける効果」であり、除外された人たちを含めた集団における効果はわかりません。

分析の手法によっては「傾向スコアが大きい/小さい人も含めた、集団全体における効果（ATE)」を推定していることが多かったりしますが、傾向スコアマッチングで得られる効果の推定値はそれとは異なります。

ここで「傾向スコアが極端に小さい人たち」における治療効果について少し考えてみましょう。

傾向スコアが小さいということは、例えば医療のコンテクストでは治療を決定している医師によって「治療Aが不要」と考えられている集団なわけです。

「治療Aが不要」と考える理由はいろいろあると思いますが、

そもそもアウトカムのリスクが低いから治療Aが不要
治療の効き目が悪いから、この治療Aはしない（代わりにBやらCをやる）

１の場合は単純に交絡の話、２はいわゆる効果修飾の問題です。

ここでは交絡の可能性はないものとして、２にフォーカスしましょう。

そうすると「傾向スコアが小さい人たち」というのは治療の効き目が悪い人たちなわけですから、「仮にその人たちが治療を受けていたらどうなっていたか」を考えて効果推定をしても、その大きさは小さいはずです。

つまり、そのような人たちを含めた集団全体における効果(ATEの推定値)はそれらの人を除外した集団における効果（傾向スコアマッチングの結果）よりも小さいはずですよね。

そもそも答えている問い（どの集団における効果か？）が異なるので推定値が違うのは自然な話です。

傾向スコアによる層化

個人ごとにペアをみつけてマッチングする代わりに、傾向スコアに基づいて分析対象集団をいくつかのグループに分類する(Stratification)こともあります。

傾向スコアが小さい人たちから大きい人たちまで順番に並べて、各グループの人数が等しくなるように例えば10分割すると、傾向スコアが同じような値の人たちが集まったグループが10個できます。

あとは各グループ内で曝露vs非曝露のアウトカム比較をすれば良いです。

10分割だったら10通りの効果の推定値が出てきますが、これをまとめて１つにすることもあります。