Unboundedly

日々大学院で学んだこと、考えたことを更新

データから得られた知見は実在集団に当てはまるか?外的妥当性について少し深く考えてみた

データ分析をおこなう人のほとんどは「一般化可能性」とか「外的妥当性」という言葉を耳にしたことがあると思います。

例えば次のような議論を聞いたことがないでしょうか。

・「アメリカ人のデータから●●を食べると死ににくいことがわかった」→「いやいや、日本人のデータではないから日本人が●●を食べて健康になれるかどうかはわからない」
・「大学生にボランティアで実験に参加してもらって▲▲が判明した」→「大学生以外には当てはまらんでしょう?」
・「SNSでアンケート調査をして、AとBの関連を検討した」→「SNSを使っているひと、さらに調査に協力してくれる人、って偏りすぎて参考にならない」

論文を書く際にも、最後の方で研究の限界点を述べる時に

・「本研究は●●というサンプルを使っているので一般化可能性は限定的である」
・「小規模RCTなので実在集団への一般化はできないかもしれない。より広い集団でさらなる研究が求められる」

みたいな決まり文句をさらっと並べて御茶を濁すことが多いです。

今回は手持ちのデータから得られた知見をどの程度広い集団に当てはめることができるのか、「外的妥当性」の問題について少し深く考えてみます。

なお、今回はあくまで因果推論の枠組みのなかで推定されたある介入の効果がどのくらい他の集団に当てはまるか、という問題について考えます。

例えば「内閣支持率をTwitterで調査したら偏っている」的な、記述的なデータ分析の非代表性も重要ですが、今回は考えないことにします。

最初に関連する用語の定義や概念の分類をしたあとに、「情報の消費者サイド」の視点から結果が一般化できる程度を評価するためのポイントをまとめ、その後に「分析者サイド」の視点から、定量的に結果の一般化を行う方法を簡単に紹介します(やや高度なので不要な人は飛ばしてください)。最後に、外的妥当性に関する個人的な考えをまとめます。

f:id:KRSK_phs:20200830141149j:plain

内的妥当性(Internal Validity)と外的妥当性(External Validity)

内的妥当性(Internal validity)は手持ちのデータから推定された介入効果が正しく因果効果を捉えているかどうか、その程度を差す用語として使われます。

例えば、喫煙者として非喫煙者で健康状態を比較しただけだと、両グループの背景因子が異なるために喫煙が健康に与える因果効果を正しく捉えることができない、つまり内的妥当性が脅かされているといいます。

内的妥当性が損なわれる原因はたくさんあり、因果推論の文脈で死ぬほど議論されているので各自確認をお願いします。
「RCTは因果推論のゴールドスタンダードだ」とはよく言われますが、これは(よく設計・実施された)RCTがこの内的妥当性を平均的に保証してくれるからです。

これに対して外的妥当性(External Validity)は、手持ちのデータから得られた結果が"より広い集団"にどの程度当てはめることができるか、その程度を差す言葉です。

この"より広い集団"というのはやや曖昧な表現なので、少し整理します。

外的妥当性の分類:GeneralizabilityとTransportability

外的妥当性は大きく二種類にわけられます。

疫学の世界ではGeneralizability(一般化可能性)Transportability(日本語訳はよくわかりません)と分けて呼ばれていますが、分野によって呼び方は違うので特にこだわる必要はないです。

重要なのは手持ちのデータから得られた結果をどんな集団に当てはめたいのか、その当てはめ先の集団の性質によって、外的妥当性が分類されているということです。

母集団を代表しないサンプルはGeneralizabilityの問題

伝統的な統計学の枠組みでは母集団というものを想定して、そこからサンプルをとり、母集団に対する推論を行うわけです。

因果推論ではサンプルのデータを使って、一定の仮定のもとで介入効果の推定を行うことで母集団における介入効果について考えるわけです。

このブログの読者はもうこの辺り大丈夫なんだろうと思いますが、以下の記事をご参照ください。 

推定された効果は、その方法によってAverage Treatment Effect(ATE)とかConditional Average Treatment Effect(CATE)とかいろいろ呼ばれます。

例えばATEは「集団全体における効果」とか「集団全員が介入を受けたときと集団全体が仮に介入を受けなかったときのアウトカムの比較」と解釈されます。

ところでこの「集団全員」ってどんな人たちでしょうか?

実はサンプルデータから推定された因果効果は、厳密にはSample Average Treatment Effect (SATE)、つまり「サンプルに含まれている人が全員、介入を受けた場合と受けなかった場合の比較」になります。

仮にこのサンプルが母集団からランダムに抽出された集団(ランダムサンプリング)だとすると、サンプルは母集団を代表していることになるのでSATEは母集団全体における介入効果(Population Average Treatment Effect: PATE)を推定していることになります。

ところが現実にはサンプルがある母集団を完全に代表していることは稀です。

例えばランダムサンプリングをしてもその後、選ばれた人の多くが調査に参加しないとう選択をすると、「面倒な調査への参加をしてくれる人たち」のサンプルができあがり、興味のある母集団とは異なる人びとのデータが集まるかもしれません。

また、ランダムサンプリングの実施自体が難しくて、簡単にデータがとりやすい人たちを対象に調査をしたり*1(例:ある大学の学生全員が母集団なのに、自分の受け持ったクラスの学生を対象に調査)すると代表性は簡単に損なわれてしまいます。

このように手持ちのサンプル(データ)とそのサンプルが得られた母集団が解離したとき、サンプルで推定された効果(SATE)と母集団における効果(PATE)もまた解離する可能性があります

そして、SATEがPATEと大きく異なる状況を「Generalizabilityが低い」と(疫学では)呼びます。

重要なのは、サンプルが母集団を代表しないとして、どのような状況でSATEとPATEが異なってくるのかを議論することです。

代表性がないからGeneralizabilityがないと自動的に結論づけるのでは議論として物足りないですよね。

後述する「外的妥当性を定性的に考える3つのポイント」について、母集団とサンプルの差を考えながらGeneralizabilityが損なわれている程度を考えたいところです。

全く異なる集団に当てはまるかどうかはtransportabilityの問題

サンプルから推定された効果が母集団に当てはまるかどうかという問題がGeneralizabilityであったのに対して、サンプルが得られた母集団とも全く異なる新たな集団への当てはめを考えるのがTransportabilityです

例えば、日本人のデータを用いて「ある治療Aが病気Bに与える効果を検証した」場合を考えます。

この日本人のデータがどのように集められたのかによって正確な母集団は異なりますが(「ある特定の病院の患者」かもしれないですし、「東京都の総合病院の60歳以上の患者」みたいなのかもしれません)、その母集団は少なくとも日本人によって構成されるなんらかの集団であるのは明らかでしょう。

そしてこの日本人のデータから得られた知見が、全く異なる集団、例えば「アメリカ人」にどの程度当てはまるかを考えるのがtransportabilityです。

日本人vsアメリカ人は極端な例ですが、例えば高齢者でとられたデータから得られた結果がより若い集団に当てはまるかどうか、などtransportabilityを考える状況は比較的多いと思います。

「アメリカ人の研究結果だから日本人にはあてはまらない」

的な主張を目にすることもしばしばありますが、集団が異なるから効果が異なる、transportabilityがないと自動的に結論づけるのも少し浅い議論ですね。

やはり、集団の違いがどの程度効果の違い(Transportability)に繋がるのか、後述する3つのポイントについて、サンプルと推論対象の集団の差を考えながら議論したいところです。

分類は必要か?

これは完全に私見なのですが、以上の分類はプラクティカルにはそこまで重要ではないのではないか、と思っています。ここまで読んでくれた方、すいません。

GeneralizabilityにしてもTransportabilityにしても、サンプル以外の集団に対して得られた結果を当てはめたいときに生じる問題だという点では共通しています。

そして、次の項で説明する「外的妥当性の程度を定性的に評価する3つのポイント」はGeneralizabilityでもTransportabilityでも同じように使える内容です。

言い換えると、「サンプルで推定された効果が別の集団でも当てはまるための仮定は同じ」ということです。

その仮定のもっともらしさが、2つの外的妥当性のタイプによって異なる(Transportabilityの方が成立が厳しそう)という傾向はあると思いますし、後述する定量的にサンプル外の効果を推定する手法のための仮定もやや異なるらしい(私もよく分かっていない)のですが、そこまでクリティカルな問題でもないように思えます。

それにそもそも推論の対象となる母集団自体が強く意識されていない・曖昧であることも多いです。というより、(少なくとも疫学・臨床研究では)ほとんどこのケースではないでしょうか。

例えば、RCTはその顕著な例だと思います。内的妥当性に関しては非常に優秀なRCTですが、そもそもRCTへの参加基準を満たす&参加に同意する人たちが代表している集団ってそもそも誰なのかを考えると、正直わからないですよね。

「RCTの結果は外的妥当性が低い」とはよく言いますが、それが(曖昧に定義された)母集団とRCT参加者という偏った集団の差から生じる問題なのか、その(曖昧に定義された)母集団とは異なる集団への適用の問題なのか、というのはさほど重要ではなさそうです。

それよりも、結果を解釈するときに、どのような集団における介入効果がわかると(臨床的・政策的に)意味があるのか、その推論の対象として関心がある集団をはっきりイメージすることが重要だと思います。

では、データから得られた結果を当てはめたい集団がイメージできたとして、外的妥当性が成立する程度をどのように考えていけばよいのでしょうか?

情報の消費者の視点:結果が当てはまる程度をどう考えるか?

「代表性がないからだめ」

「日本人のデータでないから当てはまらない」 

と自動的に結論づけるのではなく、サンプルから推定された効果の外的妥当性をもう少し深く、定性的に考えるポイントがいくつかあります。

ここではHernan & VanderWeele (2011)に書かれている3つの視点(Effect Modification, Treatment Variation, Interference)について紹介します。

効果の異質性の問題(Effect Modification)

ある介入の効果が介入対象の属性によって異なることを疫学では効果修飾(Effect Modification)と読んでいます。

「属性Xによって介入Aの効果が異なる」というのと「属性Xを変えると介入Aの効果が変化する」というのは意味合いが全く異なりますが、疫学における効果修飾は前者を指し、後者は(因果的な意味での)交互作用と呼ばれ区別されています。

正直「修飾」という言葉に因果的なニュアンスがあるので、記述的にサブ集団間で効果が違うという現象をとらえる用語として「効果修飾」というのはミスリーディングだと個人的には思っています。

単純に人によって効果が異なることを指しているので、効果修飾ではなく「効果の異質性(Heterogeneity)」と呼ぶほうがその意味合いを正確に捉えているのではないかと思います。 

とはいいったものの、便宜上ここでは効果の異質性が観測される要因Zのことを「効果修飾因子」と呼ぶことにします。

そして、介入効果が推定されたデータ(サンプル)における効果修飾因子の分布が、母集団あるいはtransportabilityを考えたい別の集団における分布と異なる場合、外的妥当性が損なわれることになります。

「教育歴が収入に与える効果」というのを例に考えてみましょう。 

同じ教育を受けていても、それから受けられる恩恵は(非常に残念なことですが)性別や人種によって異なるというのが現状ですよね。例えば、同じ教育歴で同じ仕事をしていても女性のほうが収入が低い、ということはあると思います。

このとき「性別・人種は、教育が収入に与える効果の効果修飾因子である」と呼ぶことができます。

仮に推論の対象として関心のある母集団における男女比が50%vs50%であるのに対して、(代表性が得られないような方法で集められた)サンプル内の男女比が80%vs20%であったとしましょう。

サンプルから得られた「教育歴の効果」は教育が収入に与える影響が大きい男性が多いデータから推定されているわけですから、男女半々の母集団における効果を過大推定していることになり、母集団に対するGeneralizabilityがあるとはいえません

また同様に、白人ばかりのデータから推定された教育効果が黒人の集団において当てはまるかというと、やはり過大推定となっていてTransportabilityがあるとは言えなさそうです。

いずれの場合も共通しているのは、「性別・人種」という効果修飾因子の分布が集団間で異なることによって外的妥当性が怪しくなってくるという考え方です。

裏を返せば、理論的に効果修飾の程度が少ないと考えられる場合は集団の属性が大きく違っていても外的妥当性はそこまで損なわれない、ということもできます。

極端で馬鹿げた例を考えてみます。

「上空3000mからパラシュートなしダイブ」という介入をしたとしましょう。

「アメリカ人のデータを用いて、上空3000mからダイブすると100%死亡することがわかった。しかし、日本人ではまだ検証されていないので日本人におけ効果はわからない」

という主張は馬鹿げていますよね。なぜなら、そのような介入の効果が集団間で異なることはありえない(つまり、効果修飾が存在しない)わけですからどんなに異なる集団にも外的妥当性が成立します。

これは極端な例ですが、例えば何か生物学的な機序をベースとした医学的な介入であれば、「例え違う国の人でも同じヒトである以上、介入効果はある程度同じだと期待できる」と主張することだってできるかもしれません(もちろんケースバイケースですが)。

「集団が違うから結果が当てはまらない」、で終わらずに

①効果修飾がありうるか、あるならばどのような因子によってどの程度効果の異質性が観測されそうか
②集団間でどの程度効果修飾因子の分布が異なりそうか

の2点を議論しましょう。

論文のイントロダクションで「●●の研究は欧米では多くされてきたが、日本ではまだない。そこで本研究は〜」といった内容をよく目にしますが、これが議論として内容が薄いこともお分かりいただけると思います。

やはり上記の①と②を議論したうえでないと、「日本人で新たに検証すること」を新規性としてアピールすることはできないのではないでしょうか。

介入タイプの問題(Treatment Variation)

因果推論の重要な仮定の1つに、「介入効果を推定する曝露/treatmentが十分に詳しく定義されている」というものがあります。

違う言い方をすると、「曝露/treatmentに対する介入方法が1つに定まる、または介入効果に影響しないようなバージョン(種類)の違いしかない」というものです。

これはConsistencyと呼ばれる仮定の一部で詳しくは以下の記事をご参照ください。

Hernan&VanderWeele(2011)に登場する具体例で考えてみましょう。

「運動が健康に与える影響」を知りたいとします。

「運動をしている人」と「運動を全くしていない人」の比較では曝露が十分に定義されているとはいえません。なぜなら「運動をしている人」のなかには毎日1時間以上ジムで汗を流す人もいれば、週に一回近所の公園まで散歩にいくだけの人もいて、それぞれの「運動」が健康に与える効果は異なるからです。

このような曝露の定義が様々な「バージョン」を含むものをcompound treatmentと呼びますが、理想的にはバージョン間の効果の違いがなくなるまで詳細に曝露を定義する必要があります。

「毎日運動することの効果」という曝露の場合、「毎日10分」と「毎日2時間」というバージョン間で効果が異なりそうです。

「毎日1時間運動することの効果」だと「毎日1時間ジョギング」と「毎日1時間ラジオ体操」だと効果が違いそうです。

「毎日1時間ジョギングすることの効果」だと「ジムのトレッドミルの上でジョギング」と「皇居の周りでジョギング」などバージョンがあるかもしれませんが、それらの違いは健康への影響には関係ないかもしれません。

このような状態を曝露が十分に定義された(sufficiently well-defined)といい、考えらる曝露のバージョンは推定される介入効果に影響しない(treatment-variation irrelevance)と表現されます。

Treatment-variation irrelevanceが成立していないときには、曝露に対する介入バージョンによって効果が異なるため、サンプルにおける効果(SATE)は「サンプル内のtreatment versionの分布に即した集団全体への介入の効果」の推定値なります

そして、(treatment-variation irrelevance不成立のもと)集団間でtreatment versionの分布が異なるとき、外的妥当性は成立しなくなります

例えば、ほとんどの人がジョギングをしているサンプルAから推定された「毎日1時間運動することの効果」は、毎日1時間以上運動している人のほとんどがラジオ体操をしている集団Bに当てはめることはできないわけです。

効果修飾の時と同じように

①どのようなTreatment versionが存在しているか、そのバージョンごとに介入効果は同じか、違うならばどの程度違うと考えられるか
②treatment versionの分布が集団間でどの程度異なるのか

の2点を考えていく必要があります。

効果の波及の問題(Interference)

通常の因果推論の枠組みでは「ある個人への介入がその他の人のアウトカムに影響しない」という仮定が置かれています。

この仮定をno interferenceといい、前述の(sufficiently)well-defined interventionの仮定と合わせてSUTVA(Stable Unit Treatment Values Assumption)と呼ばれることもあります。

しかし、現実にはno interferenceの仮定が違反されることは少なくありません。

例えば、ある個人に対して運動をうながす介入をした場合、その人の家族や親しい友人まで(直接介入を受けていないにもかかわらず)つられて運動をするようになるかもしれません。

このような場合、集団内における個人間のつながりが強ければ強いほど効果の波及の程度も大きくなります。

つまり、集団Aと集団Bの間で社会関係のネットワークの形、強さなどが異なる(そのため、効果の波及の程度が異なる)場合、ある介入の効果の大きさも異なる可能性がでてきます。

分析者の視点:異なる集団での効果を定量的に推定する

では実際に、あるサンプルにおける介入の効果(SATE)が推定されたとき、その情報をもとに別の集団における効果についても推論することは可能なのでしょうか?

実はこの問題こそ因果推論界で今まさにホットなトピックの1つで、外的妥当性を定量的に克服するための手法を提案する論文がここ数年多く出版されています。

私が全てを把握しているわけでもありませんし、ここで細かい手法を紹介するつもりもありませんが、どんな条件に基づいて他集団における効果を推定するのか、その考え方の概要だけ簡単にまとめます。不要な方は読み飛ばしてください。

話をシンプルにするために(完璧に実施された)RCTの結果を別集団に当てはめるケースを考えましょう。RCTなので内的妥当性の問題はとりあえず無視することができ、単純に介入群(a=1)とコントロール群(a=0)のアウトカム(Y)の比較で因果効果を評価できる状況だとします。

S=1がサンプルに含まれていること、S=0がサンプル外の人を差す時、

S _||_Y(a)|W for a=1,0(サンプルに含まれるかどうかと、その人の潜在アウトカムY(a)はWの層内で独立)

という仮定をSについてのConditional exchangeabilityと言います。

これは観察研究でいわゆる交絡や選択バイアスが存在している時に因果推論を行うための条件、曝露Aに対するConditional exchangeability:

A_||_Y(a)|L

と非常に似ています。

問題は上記の条件が成立するWが何か、ということなのですがこればかりは統計学的に知ることができません。Wの層内(=Wに含まれる変数の値が同じ集団)では効果修飾因子やtreatment versionの分布の違いによって効果が異なったりしない、という状況が成立するWを考えるわけです。少なくとも考えうる主な効果修飾因子はすべてWに含まれている必要があるでしょう

上記のSについてのConditional Exchangeabilityのもと、推論の対象となる母集団(S=0 & S=1)におけるATE、E[Y(a)]をどのようにサンプルデータ(S=1)から推定するかというと、

f:id:KRSK_phs:20200830125323p:plain

つまり、サンプル(S=1)におけるWの層内のアウトカムの条件付き期待値E[Y|A=a,S=1]を推定してそれを「母集団におけるWの分布」に基づいて標準化をしてあげれば母集団における潜在アウトカムの期待値がわかるため、効果が推定できるわけです。

なお、標準化ってなんぞ・・・・?という方はぜひHernan&Robinsの教科書をご参照ください。当ブログでもそのうち扱います・・・・。

標準化以外にもIPWを用いたり、ダブリーロバスト推定を使って一般化を行う方法を提唱している論文もあります。

いずれにしてもキーとなるのは、

①Sに対するConditional Exchangeabilityが成立するWが特定でき
②Wについてのデータが"サンプルおよび母集団の両方"で利用可能であること

というややキツめの条件です。

内的妥当性と外的妥当性のバランスについて

因果推論に関する議論や様々な手法のほとんどが内的妥当性を確保するためのものです。

交絡、選択バイアス、傾向スコアマッチング、IPW、などなどなど・・・

しかし因果推論の究極の目的はサンプルにおける介入効果の推定ではなく、実在集団に対する介入についての意思決定を助けることにあるはずです。

そのためには偏ったサンプルにおける因果効果を正しく推定することだけを追求するだけでなく、実世界で介入を行う対象となる集団に対する外的妥当性とのバランスを考えていく必要があるのではないでしょうか。

例えば観察研究において操作変数法やRegression Discontinuityといった手法は内的妥当性が高いと考えられています。

もちろんこれらの手法で因果効果を推定するために必要とされる仮定がもっともらしい場合は、です。

仮定が成立しているとして、なにかしらの因果効果を正しく推定できたとします。つまり内的妥当性が高い分析ができたことになるので、嬉しいわけです。

ところがこれらの手法で推定される効果というのはLocal Average Treatment Effect(LATE)と呼ばれて、サンプル内のさらにごく一部の人たち・状況における効果になります。詳しくは今回は説明しませんが、計量経済学の本など読めば大抵載っているでしょう。

重要なのは、このように"特殊な"介入効果を正しく推定できたとして、もし外的妥当性を著しく欠いている場合はその推定された介入効果がどの程度実世界での意思決定に役立つものなのか、という点です。

外的妥当性のなさが重要になるかどうかは程度の問題&ケースバイケースなので、LATEは常に役立たないというつもりは毛頭ありません。

しかし、とにかく内的妥当性をまずは担保して正しく因果効果を評価するのが重要だ、という態度が常に正しいとも思えません。

このようなことを言うと因果推論に厳しい人からはおそらく次のような反論があります。

  1. 内的妥当性がない(つまり因果効果を正しく捉えていない)結果に対していくら外的妥当性を担保しても意味がない。意味のない数字を一般化しても仕方がない。
  2. たしかにLATEなどをそのまま実在集団に当てはめることは難しいが、内的妥当性を追求することで少なくとも「因果的ななにか」が存在するかどうかをみることはできるだろう。

1つめの点については、内的妥当性は「あるorない」の二値ではなく、「より妥当〜より妥当ではない」といったスペクトラム、程度の問題であることを認識するのが重要だと思います。

例えば「観察データで交絡調整に基づく手法は未測定交絡によるバイアスが懸念」というのは正しい指摘ですが、未測定交絡によるバイアスの程度というのは十分に観測されたデータで調整されればされるほど弱くなっていくという点を考慮していません。

「バイアスがあるが、その大きさはそこまででもないかもしれない(内的妥当性がそこそこ)&意思決定上の意義の強い集団への外的妥当性が高い因果効果の推定値」と「ギチギチに因果効果を捉えている(内的妥当性が非常に高い)けど意義のよく分からない特殊な集団における効果(外的妥当性が低い)の推定値」のどちらのほうが重要か、というのは必ずしも自明ではないと思います。

2つ目の点について、確かに推定されたLATEが十分に大きい場合は、(少なくともその小集団においては)因果効果が存在するということが実証でき、この情報には一定の価値があると思います。

しかし、例えばLATEの推定結果が小さい(null valueに近い)場合は注意が必要です。ある特定の集団において因果効果が小さいことは、集団全体における効果が小さい/効果がないということを意味しないからです。

統計学のことを正しく理解している人にとっては当たり前のことですが、このような誤った解釈が非常に多いので2つめの反論のような言説には注意が必要だと思います。

というわけで、因果推論は伝統的に内的妥当性を追求してきたのですが、外的妥当性も同じようにバランスをとりながら大切にしていきましょうというのが最近のトレンドだと思います。

その2つのバランスを評価した"Target Validity"なる言葉も最近では登場してきています。

参考文献

最後に外的妥当性に関して、役立つ文献をリストしておきます。

*1:Convenient samplingと呼ばれたりします