自己紹介
はじめまして。現在博士号取得を目指して大学院に在籍している研究者見習いです。東京で修士号を取得したのちに、2016年夏よりアメリカはボストンのHarvard University, PhD in Population Health Sciencesというプログラムに入学。2020年に博士号(Ph.D)を取得し、そのままハーバード公衆衛生大学院の疫学部でリサーチフェローをしています。
https://www.hsph.harvard.edu/phdphs/
Public Health(公衆衛生)であるとかEpidemiology(疫学)と呼ばれる分野で研究をしています。多くの人にとって、「なんだそれ??」と思われる分野でしょう。平たくいうと、「どんな人たちが健康でどんな人たちが不健康なのか」「なぜそれらの人々は健康(不健康)なのか、どうすれば人々の健康を向上させることができるのか」という疑問に対して応えるべく研究を行っています。具体的には様々な(主に観察)データを統計解析することで、上記の問題に取り組んでいます。
研究者としてはまだまだ駆け出しですが、データをいじってみたり、コードを書いたり、文章を推敲したりが根っから好きだったりするので、楽しんで研究修行の日々を過ごしております。SAS, STATA, R, Pythonと一通り使ってきましたが、メインの統計ソフトはRです。
ブログを書こうと思った経緯
統計学は確かに「最強」かもしれないけど、、、
一応まじめなというか、それっぽい理由をあげるとすればこれになります。昨今の統計学ブーム、ビッグデータブーム、これ自体は素晴らしいと思うのです。医療や、教育、企業の経営戦略から、国の政策まで、データを活用してあらゆることを可視化し、定量的に評価することで、これまでの経験則に基づく(多くの場合非効率的または意味がない)風習や意思決定のプロセスにメスをいれることができます。わくわくしますね。
でも盲目的にデータを過信するのも危険だと考えています。データは(意図的にであれ、知らず知らずのうちにであれ)うそをつきます。そして、誤った(時に悪意ある)データの活用・解釈は百害あって一利なしです。エセ科学は駆逐しましょうー。データや統計は、それらからなにが言えてなにが言えないのか、各手法ではなにができてなにがいえないのが、それぞれを使用する際の前提条件はなにかを理解したうえで利用するのが健全な使い方だと思います。
ブームがブームのままで終わらず、”正しく”データを使い・解釈していくことで世の中がもっとよくなってほしい、なんてことを考えながらまだまだ勉強中の身ではありますが日々学んでいることやそこから考えたことを発信していきます。
学んだことを整理し、理解を深める
実はこちらも大きなモチベーションとなっています。アメリカの大学院教育は大変な詰め込み型なので日々のインプットの量が膨大です。正直消化不良気味になることもしばしば。学んだことをできるだけ分かりやすく、人に伝わる言葉でアウトプットすることでカオスになっている頭の中を整理し、系統的な知識にすることも目的です。
ブログを書くことで新たに学ぶことや理解が深まることも多いはず。自分のもし自分の理解が間違っていたり重要なポイントを見落としていた場合は、インターネット上の素晴らしく優秀な方々がきっと指摘してくれるだろうと期待しています(笑)
本ブログについて
統計学・データ分析に関する記事がメインです(たぶん)
私の学術的ベースは疫学や生物統計学にあります。したがって使用する用語もこれらの分野で使われているものが多くなります。それって別分野だとこういう風に整理されているよ、こんな用語が使われているよ、みたいなコメント大歓迎です。
さらに、データ分析といってもいろいろなものがありますが、私が主に書く(というか書ける)のは基本的に「因果推論」とか「効果推定」みたいな目的で行う分析の話でして、予測モデルの話(特に機械学習やその界隈の話)などにはあまり触れることがないかもしれません。
ただし注意していただきたいのは、私は統計家ではないということです。あくまで統計”ユーザー”の立場から、わかりやすくまとめを目指して更新していきたいと思います。餅は餅屋。細かい数理的なバックグラウンドなどは身の回りの統計専門家に聞くことをお勧めします。
フィードバックをください
ぜひ問い合わせフォームからブログに関するフィードバックをください。
- 記事のこの部分がよくわからない
- ~について説明を追加してほしい
- ここが違う!これが抜けてる!
- その他、統計一般に関してこれがわからない、こんな記事を書いてほしい
など。皆様からのフィードバックを心よりお待ちしております。