Consistency：「●●の効果」が１つに決まらない？~見過ごされがちな因果推論の仮定~

今回は統計的因果推論の重要な仮定の１つであるConsistencyについてまとめます。

「因果推論」というと、交絡・選択バイアスといった問題の議論に終始することが多いです。それに対して、Consistencyの重要性は見過ごされがちです。

端的に言えば、「そもそも何の『効果』をみているのかが明確に定義されているか」という問題です。

Consistencyが成立しない場合、その他の問題にどんなに頑張って対処しても、そもそも意義のある因果推論ができないと言えます。

Consistencyとはそもそも何か？
Consistency違反の例
曖昧な曝露への対処方法
Consistencyについてどの程度本気で考えるべきか？

f:id:KRSK_phs:20200522032824j:plain

Consistencyとはそもそも何か？

定義

以下、潜在アウトカムモデル・反事実モデルに基づいた因果推論の考え方を知っていることを前提に書きます。

「XがYに与える効果を知りたい」といったときに、Xのことを曝露、Yをアウトカムと呼ぶことにします。

言葉を使ってConsistencyを定義すると、次のようになります。

「ある曝露レベルを実際に受けた人が、仮に曝露を同じレベルにする介入を受けたときの潜在アウトカムは観察されたアウトカムに等しい」

???

まだなんのことかよく分かりませんね。数式的にはConsistencyは次のように示されます。

f:id:KRSK_phs:20200521130702p:plain

Yaというのは曝露A=aとする介入を受けたときの潜在アウトカムYの値。Yは実際に観測されたYの値です。

例えば、「ある薬Aが血圧Yに与える効果」を知りたいとしましょう。

ある人が仮に薬を飲んでいた(a=1)としたら観察されていたであろう血圧がYa=1です。

もしその人が実際に薬を飲んでいたひと(A=1)であるなら、その人の観測された血圧Yと一致するはずです。

「薬を飲んでいる人の血圧は、その人が仮に飲んでいたときの血圧と一致する」

なにを当たり前のことを・・・と思いますよね？

実は、自明に見えるConsistencyの仮定も場合によってはうまく成立しないことがあります。

Consistencyの２つの要素

弊学の教授らが出している因果推論の教科書では、Consistencyの仮定は２つの要素から構成されるとあります。

(Sufficiently)Well-defined intervention

端的にいうと、「効果」をみたい要因が十分具体的に定義されているかということです。

例えば「ある薬AがアウトカムYに与える効果」をデータから推定する、としましょう。シンプルに「薬Aを飲んでいるひと」ｖｓ「薬Aを飲んでいない人」の比較だとします。

ところが、この「ある薬Aの効果」というのは実は結構曖昧な表現です。

薬Aを「どのくらいの量」、「1日に何回」、「どうやって摂取（注射？錠剤？など）」するのかなどを考えていくと、実は一口に「薬Aを飲む」といっても多様な解釈がありうることがわかります。

考えてみれば、「薬A（錠剤）を一回２錠、毎食後に飲む」効果と「Aを気が向いたときに、数日に一回１錠だけ飲む」では効果がだいぶ違いそうです。

このように注目している曝露因子Aに複数の*種類（バージョン）*があることをmultiple versions of treatmentと言います。

そして、その曝露因子のバージョンによってアウトカムへの効果が異なるとき、問題が生じます。

統計的因果推論における「効果」は、数式を用いると例えばE[Y_a=1]-E[Y_a=0]と表現されます。

これを言葉で解釈すると、「仮に対象集団全員がA=1（*薬を飲んだ*）だったときに観測されていたであろうYの値-仮に全員がA=0(*薬を飲まなかった*)だったときに観測されていたであろうYの期待値の差」と言えます。

ところが曝露因子に効果の異なるバージョンが存在する場合、「全員がA=1」とはどのように解釈したらよいでしょうか？「全員が一回二錠、毎食後」？それとも「全員が気が向いたときに一錠だけ」？

想定する「全員がA=1」のシナリオによって、対応する潜在アウトカムの値が異なってきます。言い換えると、潜在アウトカムが一意に定義されないということです。

意味のある因果推論(meaningful causal inference)をするためには、その根幹となる考えである潜在アウトカムY_aがしっかり定義される必要があります。そして、そのためには曝露(treatment)も明確に定義される必要があります。

具体的には、曝露因子をできるだけ具体的に定義する(well-defined intervention)ことで、対応する介入が複数存在＆それぞれ効果が異なるという状況を避ける必要があります。

ここでポイントは、対応する介入がただ１つに定まるほど曝露を細かく定義必要はないということです。

例えば、「薬Aを1日三回、食事の際に一回１錠ずつ飲む」という曝露の効果を考えるとします。例えば、この曝露には「食前に飲む」というバージョンと「食後に飲む」というバージョンが存在すると思います。

ところが、食前に飲もうが食後に飲もうが薬の効果は変わらない、という仮定がもっともらしい場合にはこのようなmultiple versionsは無視できるのです。VanderWeele (2009)ではこれを"treatment-variation irrelevance assumption"と呼んでいます。そういう意味で、"sufficiently（十分に）" well-defined interventionを定義することが意味のある因果推論には必要である、とされています。

Linkage with observed data

ここはさらっと流します。

要はsufficiently well-defined interventionの部分をクリアした(つまりをY_a明確に定義できた）として、ではそれを実際のデータで評価することが可能ですか？という当たり前の話です。

「薬Aを1日三回、食事の際に一回１錠ずつ飲む」がsufficiently well-defined intervention (a = 1)だとしましょう。

このとき、データ錠で曝露群（A=1)となっている人が全員「薬Aを1日に一回１錠しか飲んでいない人たち」だった場合、A=1のひとたちにおける観測されたアウトカムYと仮に「薬Aを1日三回、食事の際に一回１錠ずつ飲む」という介入を受けたときの潜在アウトカムY_a=1が一致しない可能性がでてきます(Y_a=1≠Y when A=1)。

dataが表現しているものと効果をみたい仮想的な介入が一致しない場合には、consistencyの仮定のイコールが成立しない（潜在アウトカムと現実のアウトカムがつながらない）ということです。

Consistencyの定義について、もっと具体的な解説は以下のHernanによるまとめが分かりやすいと思います。

紛らわしい用語の整理

なお、consistencyという用語は状況によって全く別の意味で使われることがあります。

例えば、Hill's Criteria for Causalityにおける"Consistency"と本記事で解説しているConsistencyは意味が全く異なります。

統計学のコンテクストでは、"consistent estimator"といった表現を使って統計的推定量の漸近的な性質を指すことが一般的ですが、本記事のConsistencyの意味はこれとも異なります。

非常にややこしいので、個人的には(本記事的な意味での）Consistencyは別の呼び方をしたほうがいいと思っていますが、まあ分野ごとの慣習なのでそこはしょうがないということにします。

なお、Consistencyに非常に近い概念として、統計学ではStable Unit Treatment Value Assumption（SUTVA）と呼ばれるものがあります。

Consistency違反の例

「薬A」の例もそうなのですが、曝露が曖昧に定義(ill-defined)されているとき、Consistency違反の可能性がでてきます。

いくつか例を見てみましょう。

例１：（雑な）RCT

因果推論のゴールドスタンダードとも言われるRCTですが、場合によってはConsistency違反が問題になることがあります。

例えば、「薬Aの摂取の有無をランダムに割り付ける」とだけプロトコルに書いてあった場合、「薬Aの摂取」には（量・時間・回数・方法などによる）様々なバージョンがありますよね。

これは、あらかじめどのような効果を評価したいのかを緻密に定義しておくことで避けられる問題です。

例２：Composite index

複数の要素を併合して、トータルな状態を評価したものをインデックスと呼びます。

例えば、血圧・BMI・血清コレステロール・・・をなんらかの方法でまとめて、「メタボ得点」みたいなのをつくったとしますよね。

そして、そのメタボ得点が変化したときに死亡率がどの程度変わるのかを知りたいとしましょう。

回帰分析なり、なんなりを使って「メタボ得点が１点増加した時の死亡率の増加」という効果の推定値を得たとしましょうか。

ところが「メタボ得点が１点増加」というのは、そのインデックスのどの要素の変化によるものなのかという点について曖昧です。血圧が高まって得点が増えたのかもしれないですし、BMIが増加して増えたのかもしれないですし、その両方かもしれないし、どちらでもないかもしれないです。

そして、「血圧が高まったこと」と「BMIが増加したこと」が死亡率に与える影響はおそらくことなりそうなのでmultiple versions of treatmentが存在していると言えます。つまり潜在アウトカムY_a=1が１つに定まらないという問題が生じます。

似たようなものに、例えば社会科学だと、所得・教育歴・職業などをまとめてしまって「社会経済的ステータス得点」みたいなふわっとした言葉を用いることがあります。

これも同じように問題ですよね。ステータス得点の増加が、所得によるものなのか教育によるものなのかによってアウトカムへの影響が異なりそうです。

例３：そもそも単体でも曖昧な概念

臨床的な例だと、「肥満」というのもill-defined interventionであるとされています。

例えば人を肥満にするような介入として、

食事の増量
運動制限
禁煙（食欲が増加すると言われています）

があるとしましょうか。

当然、禁煙の健康効果と運動制限の健康効果は違う（というか逆方向になりそう）というのは分かりますよね。

そして現実のデータ上でも、「肥満」のカテゴリに入る人たちのなかには食べ過ぎでなった人もいれば運動不足・禁煙でなった人もいると思います。

つまりmultiple versions of treatmentなので「全員が肥満」vs「全員が肥満でない」のコントラストの解釈が難しくなってきます。

詳しくはHernan (2008)で。

同じように「所得（income)」みたいな社会的な要因も（場合によってその程度は変わりますが）ill-definedと言えます。

例えば、「所得がその人の幸福感に与える効果」を評価したいとしましょう。

所得に対する介入を考えると、さまざまなものがあります。

宝くじのように、ランダムに選ばれて突然キャッシュが増える
「稼ぐ能力」を育てて、自力で所得を増やせるようにする
遺産相続
などなど

例えば、「宝くじで突然手に入った30万円」と「一生懸命勉強して、仕事をして増やした年収分3０万円」では幸福度に対する影響度が異なる可能性がありますよね？

仮に異なるのだとすると、これもmultiple versionsの問題となりますのでconsistency違反の可能性がでてきます。

つまり、そもそも「所得の効果」というリサーチクエスチョン自体が曖昧すぎるというわけです。

さらに、例えば宝くじの結果を使った”自然実験”などで得られた推定値と、様々な理由で所得の変化を経験した人たちの集団から得られた推定値が一致しなかったとします。それは必ずしも自然実験のほうが交絡などを調整できているからではなく、そもそも異なるバージョンの曝露効果をみているからだ、という可能性もでてくるわけです。

社会科学系の要因に関するConsistencyの議論はRehkopf et al (2016)が詳しいです。

さらに社会疫学などの分野で最近議論を読んでいるのが、「人種(Race)」の効果。

そもそも人種の反事実アウトカムってなんでしょうか？黒人を白人にする介入とは？と様々な議論を呼んでいます。ここらへん少し掘り下げます。以下のGalea & Hernan (2020)とそれにぶら下がるコメンタリーが参考になります。

曖昧な曝露への対処方法

「人種効果」の例を少し掘り下げてみましょう。

Galea & Hernan (2020)は”Raceは対応する介入を設定しにくく、潜在アウトカムに基づく因果推論のフレームにはまりにくい曝露である”としています。

それに対して、VanderWeele (2020)は次のようなconsistency問題の回避方法を提唱しています。

曝露を再定義する
曝露と介入を切り離す
バージョンの”分布に対する”介入を考える

１−２は「人種効果」に特化した話ですが、３はその他の曖昧な曝露（例：肥満・所得）に対しても応用できる考え方です。

曝露を再定義する

そもそも「”人種”に対する介入が存在しない」という考え方は、「人種が遺伝子や肌の色などの先天的なものによって決まる」という前提に基づいています。

社会科学では人種というものは基本的に社会によって構成される概念（social construct)であるとみなすことができます。つまり、「黒人」だとか「白人」とかいう人間によって作られたラベル貼りの産物だということです。

そして、そのラベル貼りによって生じる社会的な不利・差別によって人種による様々な健康アウトカムの差が生じるわけです。

つまり、「黒人効果」みたいなのは「肌色を変える介入の効果」ではなくて、「人種ラベル貼りによるカテゴリー分けを無くす介入の効果」「カテゴリ分けによって生じる差別を無くす介入の効果」などと具体化することで対応する介入を捉えることができます。

もちろん、ここから先も「ではどうやって差別をなくすのか？強制？教育？」などと考えていくとmultiple versionsの問題が出てくるのですが、少なくとも対応する介入がないという問題は回避できます。

曝露と介入を切り離す

これは媒介分析の話なども入ってきて結構テクニカルなので省略します。興味がある方はVanderWeele & Robinson (2014)を読んでください。

バージョンの”分布に対する”介入を考える

これ結構面白いです。

効果の異なる複数バージョンから構成される介入A（compound treatment)があるとします。当然、consistencyが問題になってきます。

「介入Aの効果」というのは一意に定まらないのですが、「実際にAに曝露している人たちにおけるバージョンの分布を維持したまま、全体に介入したときの効果」と解釈することでconsistency違反の問題を回避することができるのです。

例えば、「肥満の効果」というのは曖昧なのですが、例えばデータ上で肥満の人のうち「５０％が食べ過ぎ、３０％が運動不足・・・」とバージョンが分布していたのだとすると、その分布を維持したまま全体を肥満にするような介入の効果とみなすことができるというわけです。

もちろん、現実世界でそんなことを可能にする介入はないのですが、compound treatmentに対して推定された因果効果にも一定の意味を持たせることができるという意味で汎用性の高い考え方だと思っています。

なお、曝露バージョンの分布を考えるというアプローチは外的妥当性を考えるのにも応用できるという面白い議論もあります。

この辺り詳しくはHernan & VanderWeele (2011)で解説されています。

Consistencyについてどの程度本気で考えるべきか？

ここまでで、

「いや、Consistency成立させるのすごい難しいのでは？」

「そんなこといい始めたらほとんどのリサーチクエスチョンがだめになってしまう」

と思う方もいるかもしれません。

これはまさにその通りで、個人的には程度の問題だと考えています。

そもそもなにをもってsufficiently well-definedとするか、というのもドメイン知識に依存するものですし、それがわからない（介入効果がなにによって左右されるかわからない）から研究するわけですよね。

なにが因果的に影響しているのかわからない状態から探索的に「因果的ななにかがありそう」なものを探していくフェーズと、そこから具体的に介入のための方法とその効果の定量化にとりくむフェーズを分けて考えて、前者の場合は多少のConsistency違反は多めに見るくらいが健全な態度かなと思っています。

とはいえ、consistencyをしっかり考えることはリサーチクエスチョンを突き詰めることにつながるので良いことだと思います。

Consistencyの仮定は、本質的には「意味のあるクエスチョンを立てる」ということにつながると思っています。

また、たとえば「所得効果」のような曖昧なものの推定値が研究デザインによって異なる（例：自然実験vs交絡調整）としたときに、必ずしもデザインの強弱ではなく、効果が推定されている介入のバージョンが異なるのでは、と考えることで議論を膨らませることができます。

因果推論となると、交絡や選択バイアスといったExchangeabilityの問題ばかりが取りざたされますが、Consistencyも重要な仮定として忘れないようにしておきたいですね。

Unboundedly

統計的因果推論・疫学についてのお話