Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Select an option

  • Save genkuroki/e8a1bc4791bc2f8a36737e80474fd800 to your computer and use it in GitHub Desktop.

Select an option

Save genkuroki/e8a1bc4791bc2f8a36737e80474fd800 to your computer and use it in GitHub Desktop.

ソース


統計学の物語:データから学ぶ教訓集

統計学とは、単なる数式や計算の集まりではありません。それは、データの中に隠された物語を読み解き、世界をより深く理解するための「思考法」なのです。この教訓集では、統計分析、因果推論、そして専門家でさえも惑わす一般的な落とし穴について、現実世界で起きた数十の物語を通して探求していきます。それぞれの物語は、データから学ぶべき重要な教訓を明らかにし、あなたの世界を見るレンズを、より鋭く、より洞察に満ちたものに変えてくれるでしょう。

第1学期

Wikipediaの実験 (ROS 1.1)

テクノロジー業界では、ユーザーの行動を最適化するためにA/Bテストが日常的に行われます。特にウィキメディア財団の寄付金募集キャンペーンのように、成否が大きな影響を及ぼす場面では、その重要性は計り知れません。財団は常にオンライン実験を行い、どのデザインがより多くの寄付を集められるかを検証しています。

ある実験で、財団は角が丸いバナーと四角いバナーの効果を比較しました。結果は驚くべきものでした。わずか12時間、2百万回以上の試行で、四角いバナーは寄付率を実に15%も低下させたのです。統計的にも、これは偶然の産物ではありませんでした。しかし、熟練したデータサイエンティストにとって、この数字はあまりに衝撃的で、何かがおかしいと感じさせるものでした。最初のヒントは、データに潜むごくわずかな不均衡でした。

統計の探偵たちが調査を進めると、対照群(丸い角)と処置群(四角い角)の試行回数が均等ではないことに気づきました。これは単純なランダム化実験では奇妙なことです。さらに時間ごとのデータを詳しく分析すると、驚きの事実が判明します。寄付率が高い日中の時間帯には対照群が多く表示され、寄付率が低い夜間には処置群が多く表示されていたのです。この「失敗したランダム化」こそが、見かけ上の大きな効果を生み出す巧妙な罠でした。

この物語が教える核心的な教訓は、一見クリーンに見えるランダム化実験でさえ、実施上の欠陥が深刻なバイアスを生む可能性があるということです。統計的推論の妥当性を支える前提(この場合はランダム化の完全性)を鵜呑みにせず、データを探索し、その前提が本当に満たされているかを確認すること。これこそが、データサイエンティストの最も重要な仕事の一つなのです。

この実験では実験データの欠陥が問題となりましたが、次の物語では観測調査データに潜むバイアスについて探求します。

1936年のリテラリー・ダイジェスト誌の世論調査 (ROS 1.2)

政治的な世論調査は、時に歴史の行方を占う重要な役割を担います。中でも、1936年のリテラリー・ダイジェスト誌による大統領選挙予測は、統計学における伝説的な大失敗として語り継がれてきました。しかし、この物語を深く掘り下げると、単なる警告話に留まらない、データ調整という、より洗練された教訓が浮かび上がってきます。

1936年、リテラリー・ダイジェスト誌は前代未聞の規模で世論調査に乗り出しました。電話帳やクラブの名簿をもとに、実に1千万通もの調査票を送付。その結果、共和党のランドン候補がルーズベルト大統領に圧勝すると予測しました。しかし、実際の結果はルーズベルトの地滑り的勝利。なぜ、これほど大規模な調査が、これほど壮大に間違えたのでしょうか?

原因は「サンプリングバイアス」にありました。調査対象は電話を所有する裕福な層に偏っており、有権者全体を代表していなかったのです。巨大なサンプルサイズも、サンプルが偏っていては意味がありません。しかし、物語はここで終わりません。統計学者のLohrとBrickは、当時入手可能だったデータ、具体的には調査回答者が1932年の選挙で誰に投票したかという情報を用いて、この調査結果を「重み付け」し、調整する試みを行いました。驚くべきことに、この調整によって、ルーズベルトの勝利を正しく予測できたのです。

ここに、二重の教訓が隠されています。単純な教訓は「ランダムサンプリングをせよ」ですが、より高度な教訓は「すべてのサンプルには欠陥がある。しかし、モデリングと調整によってバイアスを軽減することは可能だ」というものです。これは、不完全なデータからでも真実に近づこうとする、統計学の本質的な挑戦を体現しています。

サンプルのバイアスを調整する話から、次は因果推論研究において、介入前のグループ間の差異を調整する話へと移りましょう。

国連の平和維持活動 (ROS 2.1)

国連の平和維持ミッションのような介入は、本当に効果があるのでしょうか?この問いに答えるのは非常に困難です。なぜなら、平和維持部隊はランダムに派遣されるわけではなく、通常、最も深刻な紛争地域、つまり介入がなければ平和が最も破られやすい場所に送られるからです。この「選択バイアス」こそが、社会科学における因果推論の核心的な課題です。

政治学者ヴァージニア・フォートナの研究では、調整前のデータを単純比較すると、国連の平和維持部隊が派遣された国の方が平和が持続する傾向にありました。しかし、この比較だけで「平和維持活動には効果がある」と結論付けるのは早計です。

この問題を解決するため、フォートナは「処置前変数」で調整するという賢明な手法を用いました。彼女は、平和維持部隊の派遣が決定される前の国の状況がいかに深刻であったかを数値化する「悪化度スコア」を作成したのです。これにより、介入前から存在した「不利な条件」を考慮に入れることが可能になりました。

この「悪化度スコア」で調整した後の結果は、実に興味深いものでした。国連が最も困難な事例に派遣される傾向があったため、その効果は調整後にさらに強く現れたのです。つまり、もし介入がなかったならば、それらの国々はもっと悪い結果に陥っていた可能性が高いことを、データは示唆していたのです。

観測データから因果関係を探る上での中心的な教訓は、処置群と対照群の単純な結果比較は、しばしば誤解を招くということです。介入前に存在する両グループ間の差異を戦略的に調整することこそが、処置の真の効果に迫るための不可欠なステップなのです。

大規模な政治研究から、次はメディアで報じられたある統計的主張を解体する物語へと焦点を移します。

女子とスポーツ (ROS 2.2)

研究論文やメディアは、時に私たちの常識を揺るがすような統計的主張を提示します。「女子生徒のスポーツ参加が増加すると、女性の宗教性が低下し、シングルマザーになる可能性が高まる」。こんな見出しを見たら、あなたはどう思いますか?ある研究は、まさにこの驚くべき主張を、巨大な効果量とともに発表しました。

その主張はこうです。「州レベルでの女子スポーツ参加率が10パーセントポイント増加すると、女性の非宗教率は5〜6パーセントポイント、シングルマザーの割合は6パーセントポイント上昇する」。これが事実であれば、社会に与える影響は計り知れません。しかし、この数字の裏には、統計的な罠が隠されていました。

研究の方法論を詳しく見てみると、致命的な欠陥が浮かび上がります。この分析は、個々の女子生徒のスポーツ参加を測定したのではなく、1971年時点の男子のスポーツ参加率に基づいて各州を比較し、その後の女性の社会的結果との関連を調べていたのです。これは「生態学的」あるいは集計レベルの比較と呼ばれます。

この集計レベルの推論には、「生態学的誤謬」という大きな問題が潜んでいます。これは、ある都市の平均所得が高いからといって、その都市に住む一人ひとりが金持ちであると結論づけるのと同じ誤りです。グループレベルでの相関関係が、必ずしも個人レベルで当てはまるとは限りません。1971年に男子のスポーツ参加率が高かった州と低かった州とでは、都市部か農村部かといった、観察された相関を説明しうる他の系統的な違い(交絡変数)が存在した可能性が高いのです。

この物語の教訓は、グループレベルの相関から個人レベルの因果関係を結論付けることの危険性です。見出しの主張を鵜呑みにするのではなく、研究で実際にどのような変数が比較されているのかを批判的に吟味すること。それこそが、データに惑わされないための統計的思考の第一歩なのです。

出版された研究データの分析から、次はスポーツファンに関する調査データの探索へと話を進めましょう。

スポーツファンの政治的傾向 (ROS 2.3)

文化と政治は、どのように交差するのでしょうか。「スポーツファンは、より大きな保守連合を築くための鍵となるかもしれない」。これは、データを用いて検証できる、魅力的な社会科学の問いです。

1990年代半ばの総合社会調査(GSS)のデータは、この仮説に光を当ててくれます。データを見ると、スポーツイベントに参加する人々は、そうでない人々と比べてわずかに共和党支持者である傾向が見られます。しかし、リベラルか保守かというイデオロギーの自己認識においては、ほとんど差がありませんでした。この結果は、当初の仮説を強く支持するものではないようです。

もちろん、この分析には限界もあります。「スポーツイベント」というカテゴリーは非常に広範です。例えば、NFL(ナショナル・フットボール・リーグ)の視聴者に絞って見ると、民主党支持者よりも共和党支持者がわずかに多いことが示されており、よりニュアンスに富んだ全体像が浮かび上がります。

この物語の主な教訓は、社会に存在するもっともらしい仮説や公の議論が、既存の調査データを用いて直接検証できるプロセスそのものにあります。データを使って、証明されていない仮説を一つひとつ検証していく。これこそが統計的探求の醍醐味と言えるでしょう。

データの探索から、次はデータを効果的に表示する原則についての物語に移ります。

比較を用いてグラフを描き直す (ROS 2.4)

優れたグラフの目的とは何でしょうか?それは、一言で言えば「比較」を容易にすることです。デザインの悪いグラフは、伝えるべき洞察をかえって曖昧にしてしまい、データの物語をかき消してしまいます。

IMG_1102

ある心理学の論文で発表された棒グラフを見てみましょう。このグラフには、凡例とグラフを何度も見比べなければならなかったり、中央の空白が紛らわしかったり、最も重要な比較(例えば子供と大人の間)が非常にしにくかったりと、いくつかのデザイン上の欠陥があります。

優れたグラフには二つの目標があります。(a) 関心のある比較の大きさと方向性を伝えること、そして (b) 予想外の新しいパターンを発見することです。このグラフを改善するには、まず最も重要な比較対象が「子供 vs. 大人」であることを見極めます。これを基に、線グラフをデザインし直すことができます。新しいグラフでは、2本の線がそれぞれ子供と大人を表し、横軸に条件を示すことで、重要な比較が一目瞭然となります。元の棒グラフと同じ情報を、より明確かつコンパクトに伝えることができるのです。

IMG_1103

この物語が示す中心的な原則は、「すべてのグラフは比較である」ということです。効果的なデータ可視化とは、装飾を凝らすことではありません。データに含まれる最も重要な分析的比較を際立たせるように、視覚的要素を熟慮して設計することなのです。

データの表示原則から、次は人口データに関する誤った統計計算の物語へと進みましょう。

パンデミックにおける死亡率 (ROS 3.1)

COVID-19のパンデミックの最中、多くの人々がその深刻さを過去のパンデミック、特に1918年のスペインかぜと比較することに強い関心を持ちました。そんな中、ニューヨーク・タイムズ紙は「2020年の米国の死亡率は、1918年の大惨事さえも上回り、平年を最も上回る水準だった」という衝撃的な見出しを掲げました。しかし、生の数字は全く異なる物語を語っていました。一体どうすれば、この二つが両立し得るのでしょうか?

記事は、2020年の死亡率のピークは平年比+16%で、1918年の+11%を上回ると主張しました。しかし、生のデータを見ると、1917年から1918年にかけて総死亡者数は40%も急増したのに対し、2019年から2020年にかけての増加はわずか15%でした。この矛盾こそが、この物語の中心的な謎です。答えは、「年齢調整済み死亡率」という、強力でありながらしばしば誤解される統計ツールにありました。

新聞の主張は、2000年の米国の人口構成に合わせて調整された死亡率に基づいていたのです。しかし、この特定の年齢調整は、二つのパンデミックを比較する上で大きな誤解を招きます。1918年のインフルエンザは多くの若者の命を奪いましたが、若者は2000年の人口構成では比較的小さな割合しか占めません。そのため、この調整は若者の死の重みを人為的に軽く見積もってしまうのです。これは、現代の消費者物価指数を使って、「1918年のインフレは、現代の電子機器の価格が上がらなかったから低かった」と主張するようなものです。

この物語が教える重要な教訓は、年齢調整済み死亡率のようなデータ要約は、決して中立的な事実ではないということです。それらがどのように構築されているかを理解しなければ、正しく解釈することはできません。重みの選択一つで、結論は劇的に変わってしまうのです。

現代の統計的な謎から、次は人口分布に関する別の誤った仮定を含む、歴史的な謎へと移りましょう。

ガルトンの巨人 (ROS 3.2)

フランシス・ガルトンは、応用統計学の礎を築いた巨人です。しかし、彼の1869年の著作に掲載された英国人男性の身長分布を示すグラフは、歴史的な資料であると同時に、驚くべき統計的誤謬を私たちに教えてくれます。

ガルトンのグラフが抱える核心的な問題は、分布の裾野における非現実的な予測です。彼のグラフを信じるならば、当時のイングランドには身長9フィート(約274cm)の男性が約6人も存在することになります。これは明らかに現実と矛盾します。一体、何が間違っていたのでしょうか?

統計史家スティーブン・スティグラーの分析によれば、その原因は、ガルトンが正規分布の特性を完全には理解していなかったことにあります。彼は正規分布を仮定しましたが、当時は十分な数表がなかったため、その裾野がいかに急速にゼロに近づくかを認識していませんでした。計算を再現してみましょう。ガルトンの仮定(100万人に100人が身長78インチ以上)から出発すると、標準偏差は3.23インチと導出されます。この場合、身長9フィートの男性は平均から13標準偏差も離れていることになり、その発生確率は天文学的に低く、ほぼゼロです。

この物語から得られる主な教訓は、統計的な仮定は現実世界で検証可能な帰結をもたらすということです。正規分布は多くの場面で優れた近似モデルとなりますが、その数学的特性から導かれる予測は、データや常識と照らし合わせて常に検証されるべきなのです。

欠陥のある計算の話から、次は正しく計算されたものの、誤って使われた計算の話に移ります。

彼らは標準誤差を間違えた (ROS 4.1)

標準誤差は、調査結果の不確実性を測るための重要な指標です。この物語は、報告された調査結果が不自然なほど正確に見えたため、その計算自体にメスが入った、さながら現実世界の探偵事件です。

問題となったのは、ある政治候補者への支持率に関する152人規模の世論調査でした。報告された結果は支持率34%、そして標準誤差は0.009と、疑わしいほど小さな値でした。

割合の標準誤差を正しく計算する数式は sqrt(p*(1-p)/n) です。このデータに当てはめると、sqrt(0.34 * 0.66 / 152) = 0.041 となります。つまり、正しい標準誤差は約4.1パーセントポイントであり、報告された値の実に4倍以上も大きかったのです。

では、研究者たちはどのような間違いを犯したのでしょうか。彼らはサンプルサイズ(n=152)と母集団のサイズ(N)を混同し、誤って sqrt(n) の代わりに sqrt(N) で割ってしまった可能性が高いです。これにより、不確実性が劇的に過小評価されてしまいました。

この物語が教える明確かつ重要な教訓は、計算は必ず確認すべし、ということです。基本的な統計式の根本的な誤解が、研究の精度と信頼性に対する完全に歪んだ見方につながる可能性があることを、この事例は痛烈に示しています。

単純な計算ミスから、次は統計分析の選択が、いかにして効果量の途方もない過大評価につながるかという、より複雑な問題へと話を進めます。

あり得ないほど大きな効果量の主張 (ROS 4.2)

科学研究の世界では、「統計的に有意な」結果を発表することへの大きなプレッシャーが存在します。このプレッシャーが、「統計的有意性のフィルター」という現象を生み出すことがあります。ここでは、報告された効果があまりに大きく、信じがたい複数の研究を分析し、そのフィルターがもたらす体系的な問題を明らかにします。

最初の事例は、ジャマイカの幼児期介入プログラムが成人後の収入を42%も増加させたと主張する研究です。この効果量は、常識的に考えてあり得ないほど大きいものです。この主張には二つの核心的な問題があります。第一に、この研究の標準誤差は非常に大きく、そもそも「有意な」結果を得るためには、効果量が必然的に巨大(少なくとも40%)でなければなりませんでした。第二に、データ分析における柔軟性(「フォークキング・パス」)により、真の効果がゼロであっても、有意な結果を見つけ出す可能性が高かったのです。

赤い服を着た女性、幸運のゴルフボール、排卵と投票行動といった他の事例も同様のパターンを示しています。いずれも、小規模でノイズの多い研究と、分析上の柔軟性が組み合わさることで、人々の目を引く、統計的に有意でありながら、最終的には信じがたい効果量が生み出されているのです。

これらの事例が示す包括的な教訓は、統計的有意性のフィルターがもたらす歪みです。これは、目の粗い網で魚を捕るようなものです。小さな、現実的な大きさの魚は網の目を通り抜けてしまい、偶然網にかかった巨大な魚(あるいはただのガラクタ)だけが「発見」として報告されるのです。このフィルターは、現実的で小さな効果をふるい落とし、ランダムなノイズをあたかも大きな発見であるかのように増幅させてしまうのです。

出版された研究におけるこれらの問題から、次は双子に関する単純な人口パラメータの推定という、関連しつつも異なる課題へと移ります。

人口における一卵性双生児の割合 (ROS 5.1)

「出生全体のうち、一卵性双生児と二卵性双生児の割合はそれぞれどのくらいか?」この一見単純な問いは、観測可能なデータを用いて隠れたパラメータを推測する、巧妙な統計的推定テクニックを私たちに教えてくれます。

問題を解くために利用できるデータは次の通りです。全出生の1.13%が双子であり、そのうち約65%が同性のペア、35%が異性のペアです。なぜ、このような不均衡が生じるのでしょうか?

この謎を解く鍵は、論理的な推論にあります。

  1. まず、生物学的な事実として、一卵性双生児は必ず同性です。一方、二卵性双生児は、ほぼ半々の確率で同性にも異性にもなり得ます。
  2. 次に、すべての異性の双子(全体の35%)は、必ず二卵性でなければならない、という点に着目します。ここから、二卵性双生児の総数を推定できます。異性のペアが35%いるならば、同性の二卵性双生児も約35%いると推測され、合計で双子全体の70%が二卵性であると結論付けられます。
  3. 最後に、残りの30%の双子が一卵性であると推論できるのです。

これらの割合を最終的な推定値に変換すると、0.30 × 1.13% で一卵性双生児の出生率は0.34%(約300分の1)、0.70 × 1.13% で二卵性双生児の出生率は0.79%(約125分の1)となります。

この物語が示す重要な教訓は、これが「間接推定」の美しい一例であるということです。創造的な統計的思考が、問題の論理構造と観測可能なデータ(双子の性別の構成)を用いて、直接測定できない量(一卵性か二卵性かの比率)をいかにして推定できるかを示しています。

静的な推定問題から、次はプロセスを時系列でシミュレーションする動的な問題へと移りましょう。

イノベーションのプロセスをシミュレーションする (ROS 5.2)

医療、ビジネス、教育といった分野では、継続的な改善が成功の鍵を握ります。しかし、単一の介入策の効果を測るのではなく、新しいアイデアを常にテストし、実行していくシステム全体の長期的な利益をどうやって推定すればよいのでしょうか。これは非常に難しい課題です。

この課題に取り組むため、あるシミュレーションのシナリオを考えてみましょう。ある企業が、2年間にわたって新しい介入策(A/Bテストなど)をテストしていくとします。このシミュレーションを構築するには、新しいアイデアがいつ生まれるかというランダムなプロセスと、それらのアイデアが持つ真の効果量(プラスにもマイナスにもなり得る)の分布が必要です。

シミュレーションの中では、さまざまな意思決定ルールをテストすることができます。例えば、「何もしない」、「提案されたすべての介入を実施する」、そして「実験によって推定された効果がプラスのものだけを実施する」といった戦略です。これらの戦略を比較することで、どのルールが最も優れた結果をもたらすかを評価できます。

このシミュレーションアプローチの価値は、意思決定者が時間の経過とともに起こりうる結果の範囲を把握し、小さく不確実な決定の連続が、いかにして長期的な大きな結果へと集約されていくかを理解できる点にあります。単一の「イエスかノーか」の決定を超え、継続的な改善プロセス全体を評価するための強力なツールとなるのです。

ビジネスプロセスの概念的なシミュレーションから、次は現実世界の結果を予測する具体的な統計モデルの例へと話を進めます。

経済から選挙を予測する際の傾き (ROS 7.1)

経済指標を用いて大統領選挙の結果を予測する政治予測モデルは、線形回帰の古典的かつ分かりやすい応用例です。

IMG_1104

基本的なモデルは、現職政党の得票率を、近年の経済成長率の関数として示します。回帰直線 y = 46.7 + 2.8x は、経済成長がゼロの場合の予測得票率(切片)と、経済成長率が1%ポイント上昇するごとの得票率の上昇分(傾き)を明確に示してくれます。

しかし、この単純なモデルには一つ、考慮すべき複雑な要素があります。それは、近年の政治的な分極化の進展です。有権者の党派性が強まるにつれて、経済のパフォーマンスが選挙結果に与える影響は小さくなっているのではないか、という仮説です。この仮説を検証するため、1990年を境にデータを二分し、それぞれ別の回帰直線を当てはめてみましょう。すると、1990年以前の傾き(3.5)に比べて、近年の傾き(1.6)は緩やかになっており、データが分極化仮説を支持していることがわかります。

この物語が教える重要な教訓は、回帰モデルは静的なものではないということです。現実世界の根底にある関係性が進化するにつれて、モデルのパラメータも時間とともに変化し得ます。これは、モデルの前提を常に検証し、新しいデータや歴史的文脈に基づいてモデルを更新していくことの重要性を示しています。

マクロレベルの選挙予測から、次は州ごとの選挙分析と、また異なる統計現象についての物語へと移ります。

クリントン対トランプの得票と世論調査、そして平均への回帰 (ROS 6)

2016年のアメリカ大統領選挙は、事前の世論調査に反して驚くべき結果となったことで有名です。この物語では、州ごとの分析を通して、「平均への回帰」という、予測の世界における普遍的な統計概念を解説します。

IMG_1105

全50州におけるトランプ対クリントンの実際の得票差と、予測された得票差をプロットした散布図を見てみましょう。このグラフからは3つの重要なメッセージが読み取れます。(1) ほとんどの州で予測は非常に正確だったこと。(2) トランプは全体的に予測を上回る成績を収めたこと。そして(3) その上振れは、特に接戦が予測されていた州で最も大きかったことです。

この現象こそが「平均への回帰」です。これは純粋に統計的な現象であり、予測と結果のように、完全には相関していない2つの変数がある場合、一方の変数の極端な値は、もう一方の変数のより極端でない値と関連付く傾向がある、というものです。この選挙で接戦と予測された州は統計的な外れ値であり、実際の結果はより極端でない方向へ「回帰」したのです(この場合は、トランプの得票差がより大きくなる方向へ)。

この物語から得られる主な教訓は、これは世論調査が「間違っていた」ということではなく、予測という行為に内在する根源的な特性である、ということです。平均への回帰は、予測モデルを正しく解釈し、なぜ外れ値が発生したのかについて誤った物語を紡ぎ出すことを避けるために、非常に重要な概念なのです。

予測と認知バイアスに関するもう一つの物語として、教室での実験に話を進めましょう。

5² + 12² = 13² と国連に加盟するアフリカの国々 (ROS 7.2)

私たちの判断や推定は、無関係な情報によって無意識のうちに影響を受けることがあります。この物語は、「アンカリング・ヒューリスティック」として知られる認知バイアスを、教室での実験を通して実証します。ちなみに、この風変わりなタイトルは、実験で使われる「アンカー」と同様、遊び心のある目くらましです。

実験の手順はこうです。学生たちを2つのグループに分け、一方のグループには数字の「10」を、もう一方には「65」を「アンカー」として提示します。その後に「国連加盟国のうち、アフリカの国が占める割合は何パーセントか」を推定させます。

結果は驚くほど明確でした。低い数字(10)をアンカーとされたグループの平均推定値(13%)は、高い数字(65)をアンカーとされたグループ(21%)よりもはるかに低かったのです。学生たちは、アンカーの数字がランダムだと知らされていましたが、それでもその影響を強く受けていました。これは、最初に提示された任意の数字が精神的な「錨(アンカー)」として機能し、その後の数値推定にバイアスをかけたのです。

この物語が教える、データ収集と人間心理に関する重要な教訓は、調査の回答は知識の純粋な反映ではない、ということです。質問の文脈やフレーム(枠組み)そのものによって、回答は形作られうるのです。これは、調査の設計と解釈に重大な示唆を与えます。

調査実験から、次は観測調査データを用いた単純な回帰係数の解釈へと話を進めましょう。

身長と収入の回帰分析 (ROS 7.3)

社会科学には、単純でありながら根強く見られる発見があります。それは、身長と収入の間の相関関係です。この関係は、回帰係数の解釈と、その背後にある潜在的な因果関係の経路を考えるための理想的な例となります。

ある調査データから得られた回帰モデルは次の通りです。 earnings = -26000 + 600 * height + 10600 * male + error

このモデルの係数を一つずつ、言葉で明確に解釈してみましょう。

  • heightの係数:「同じ性別の人々を比較した場合、このモデルは身長が1インチ高くなるごとに、年収が平均で600ドル高くなると予測します。」
  • maleの係数:「同じ身長の男性と女性を比較した場合、このモデルは男性の収入が、平均で10,600ドル高くなると予測します。」

しかし、単純な解釈に留まらず、この関連性の背後にある可能性を探ることも重要です。研究者たちは、子供時代の身長の心理的優位性や、身長が社会的地位や知性といった他の属性と相関している可能性など、いくつかの仮説を検討してきました。

この物語が示す第一の教訓は、回帰分析を理解する第一歩は、他の変数を一定に保ちながら、一度に一つの係数を解釈することです。同時に、それは統計的な関連性(回帰係数)と、因果的な説明(様々な仮説)との間の決定的な違いを浮き彫りにします。

個人の属性に関する回帰分析から、次は時間を通じた政治的傾向に関する回帰分析へと話を進めましょう。

ロナルド・レーガンと福音派の票 (ROS 8.1)

アメリカ政治における連合の形成は、時代と共に進化してきました。福音派の票の動向は、調査データを用いて歴史的な政治的再編を探るための古典的な例です。当初の仮説はこうでした。1976年から1980年にかけての共和党の躍進は、主に福音派の白人プロテスタント層の大規模な支持転換によってもたらされた、というものです。

しかし、調査データを分析すると、異なる物語が浮かび上がります。確かにレーガンはこのグループからの支持を増やしましたが、その増加幅は、実は非福音派の白人プロテスタント層における増加幅よりも小さかったのです。データが示しているのは、すべての白人プロテスタントグループにわたる、より広範な共和党支持へのシフトでした。

ここで見られるのは、「グループレベルの変化 vs. グループ間の差異」という誤謬です。1980年における福音派の共和党への優位性は、彼らの投票行動が不釣り合いに変化したからではありません。彼らは1976年の時点で既に共和党寄りの傾向にあったからです。全体の潮流がすべての船を持ち上げ、既存の差は維持されたに過ぎなかったのです。

この物語が教える重要な教訓は、グループ内の変化と、グループ間の差異を明確に区別することの重要性です。データに目を向けることで、一般的に語られる歴史的な物語を洗練させ、時には修正することが可能になるのです。

宗教という人口統計学的特性と政治の関係から、次は子供の性別という家族の特性が政治にどう関係するかという物語に移ります。

女の子を持つと保守的/リベラルになるか? (ROS 8.2)

政治的態度に影響を与える微妙な要因を探求する中で、娘を持つか息子を持つかによって親がよりリベラルになるか保守的になるかという、興味深くも矛盾した研究結果が報告されています。これは、相反する発見が織りなす一つのパズルです。

ある米国の研究では、第一子が娘である父親は共和党支持者になりやすいことが分かりました。一方、別の英国の研究では、娘を持つ親は左派政党に投票する傾向が強まることが示されました。研究者たちは、この統計的発見に対して、保守的な政策が女性の「生殖に関する交渉力」を高めるという物語や、左派政党が「女性に優しい政策」を支持するという物語など、非常に異なる因果関係の物語を構築しました。

しかし、この議論全体には「一方通行の誤謬」という、より根深い概念的な欠陥が潜んでいました。議論のすべてが「娘の影響」という枠組みで語られ、それと対になる「息子の影響は何か?」という問いが無視されていたのです。このフレーミングの偏りは、結果の解釈を歪め、社会的なデフォルト(初期設定)を反映しています。

この物語から得られる主な教訓は、研究の問いがどのように枠付けられているか、その非対称性や暗黙のデフォルトに注意を払うことの重要性です。比較が提示される方法は、偏見を明らかにし、強化する可能性があり、データの不完全な理解につながるのです。

社会科学における複雑な因果関係の問いから、次は教室という場での直接的な因果介入に関する物語へと話を進めます。

ランダムな試験の公平性 (ROS 9.1)

実験におけるランダム化は、公平性を保証するための重要な手法です。しかし、教室で行われたランダム化実験が、後から振り返ると不公平に感じられる結果を生み出したとしたら、どうなるでしょうか。これは一つのパラドックスです。

ある統計学のクラスで、問題は全く同じで順序だけが異なる2種類の中間試験(AとB)が、学生にランダムに配布されました。結果として、試験Bの平均点は、試験Aよりも6点も高くなりました。ここに中心的なジレンマが生じます。点数を調整すべきでしょうか?試験Aを受けた学生は調整を求め、試験Bを受けた学生はランダムだったのだから不要だと反論するかもしれません。

統計的な観点から分析すると、50人のクラスでは、たとえ難易度に真の違いがなくても、6点もの差が偶然生じることは十分にあり得ます。しかし、これがもし1000人の学生を対象とした実験であれば、その差は真の効果の強力な証拠となるでしょう。このことは、結果を解釈する上で、サンプルサイズと事前の信念(この場合は、問題の順序はそれほど影響しないはずだという期待)がいかに重要かを示しています。

この物語が示す重要な教訓は、統計的証拠と知覚される公平性との間に存在する緊張関係、そして、曖昧なデータを解釈する際に事前の期待がいかに影響を及ぼすかということです。「公平性」の問題に対する、純粋に統計的な単純な答えは存在しないのです。

一つの教室での実験における不確実性から、次は大規模な全国予測における不確実性を可視化し、伝達するという課題へと移ります。

選挙予測における不確実性 (ROS 9.2)

確率論的な選挙予測が広まるにつれ、複雑な不確実性を一般の人々にいかに伝えるかという課題が浮き彫りになってきました。この物語は、予測の不確実性の異なる側面をそれぞれ浮き彫りにする、様々な可視化戦略を探求します。

全国規模の選挙予測には、主に3つの不確実性の源泉があります。(1) 最終的な全国レベルの結果に関する不確実性、(2) 時間の経過に伴う予測の変動、そして (3) 全50州にわたる変動です。

これらの不確実性を伝えるために、様々なグラフが用いられます。

  • 選挙人投票のヒストグラム: 起こりうる結果の範囲とそれぞれの確率を示し、誰が勝つかについての全体的な不確実性を直接伝えます。
  • 勝率の時系列グラフ: 新しい情報(世論調査)が入るにつれて、予測が選挙戦を通じてどのように変化したかを示します。
  • 一般投票の予測: 異なる指標(一般投票)に対する予測を表示し、80%の不確実性区間を含めることで、起こりうる結果の範囲を定量化します。
  • 州間の相関マップ: 予測の不確実性において重要でありながら、しばしば隠されている要素である、州がどのように連動して動くかというモデルの仮定を、ユーザーが探求できるようにします。

ここから得られる中心的な教訓は、複雑な不確実性を可視化するための唯一最善の方法は存在しない、ということです。確率論的予測の多面的な側面を効果的に伝えるためには、思慮深く設計された異なるグラフィックの組み合わせが必要なのです。

公共の予測における不確実性の伝達から、次は企業の業績における不確実性の推定という課題に移ります。

選挙における現職の優位性 (ROS 10.1)

政治における「現職の優位性」は、よく知られた現象です。この物語は、単純な回帰モデルを用いてこの効果を推定し、またその効果が時間とともにどのように変化しうるかを示します。

まず、1988年の選挙結果を現職であるかどうかだけで予測する単純な回帰モデルは、約9パーセントポイントという大きな現職の優位性を推定します。しかし、このモデルには改良の余地があります。前回の選挙の得票率を調整変数として加えることで、選挙区の根底にある党派性をコントロールし、現職であること自体の効果をより純粋に分離することができます。

この改良されたモデルを用いて、1956年から1990年にかけての現職の優位性を時系列で推定したグラフを見てみましょう。そのパターンは明らかです。1950年代には優位性は低く、1980年代にピークに達し、その後減少しています。

この物語が教える重要な教訓は、現職の優位性のような因果的な量は、固定された定数ではないということです。党派性の高まりのような、より広範な政治的変化によって、時間とともに進化し得るのです。これは、回帰分析が効果を推定するだけでなく、その時間的変化を追跡するためにも利用できることを示しています。

政治学の例から、次は経済学と心理学の分野から、異なる種類の予測因子に関する研究へと話を進めましょう。

美しさと授業評価 (ROS 10.2)

外見が現実世界の結果に与える影響を検証する研究は数多く存在します。この物語は、教員の知覚された美しさと授業評価スコアとの関係に関する特定の研究を取り上げ、重回帰モデルを構築する反復的なプロセスを実演します。

まず、eval ~ beauty + female という単純な回帰モデルから始めます。係数を解釈すると、美しさには正の関連が、女性であることには負の関連が見られ、モデルは2本の平行な直線を示唆します。次に、交互作用項 beauty:female を加えたモデルを考えます。負の交互作用項は、beauty の正の傾きが、女性教員にとってはより緩やかになることを意味し、モデルは2本の非平行な直線を示唆します。

さらに、age(年齢)のような予測変数を追加していくと、係数が 0.00 となり、解釈を容易にするために age10(10歳単位の年齢)へとスケールを変換する必要があることがわかります。最後に、nonenglish(英語が母国語でない)という指標変数を追加し、その係数を解釈します。

この物語が示す核心的な教訓は、重回帰モデルを構築する反復的なプロセスそのものです。予測変数を追加し、解釈可能性を確認し、そしてグループ間で関係性が異なることを許容するために交互作用項を使用する方法を示しています。

既存のデータの形式的な回帰分析から、次は教室で収集された新しいデータを用いて予測モデルを評価する物語へと話を進めます。

実際の試験スコア vs. 予想スコア (ROS 11.1)

モデルの検証とキャリブレーションは、統計分析において非常に重要です。この物語は、学生自身の試験スコアの予想を、実際の結果と比較することで、予測を評価するという、具体的でわかりやすい例です。

最初のクラスでは、学生に中間試験のスコアを予想してもらい、それを実際のスコアに対してプロットしました。グラフを分析すると、成績の低い学生は過信し、成績の高い学生は過小評価するという、自信過剰と過小評価の古典的なパターンが見られました。

次のクラスでは、介入を行いました。学生たちには、自分たちの予測をする前に、最初のクラスのデータを見せたのです。これは、彼らがよりキャリブレーションされた(較正された)予想を出せるようにするための試みでした。

結果は明白でした。「準備された」クラスの学生たちの予想は、「準備されていない」クラスの学生たちと比較して、バイアスが少なく、より良くキャリブレーションされていたのです。

この物語が示す第一の教訓は、データから学び、モデルを検証するという具体的な実証です。予測モデル(この場合は自分自身の直感)を実際のデータと対峙させるプロセスが、将来の予測を改善することにつながるのです。

予測モデルの視覚的な検証から、次は回帰モデルの仮定を検証するという、より形式的な議論へと話を進めます。

野球分析におけるモデル検証 (ROS 11.2)

あらゆる統計モデルは、仮定という土台の上に成り立っています。この物語は、野球の分析例を用いて、これらの仮定をいかに批判的に評価し、モデルの結論に対するその影響を理解するかを示します。

線形回帰には、妥当性、加法性と線形性、等分散性など、6つの主要な仮定があります。これらの抽象的な仮定を、様々な攻撃統計量から得点数を予測する具体的な野球のモデルに結びつけてみましょう。

  • 妥当性: 安打数は、本当に攻撃貢献度を測る最良の指標だろうか?
  • 加法性: 四球の価値は、次に打席に立つ強打者の存在によって変わるのではないか(交互作用効果)?
  • 等分散性: モデルの予測は、平均的なチームには正確でも、極端に得点が高い、あるいは低いチームには不正確かもしれない。

仮定が満たされなかった場合、「内部的」影響(例:標準誤差が不正確になる)と「外部的」影響(例:予測精度がチームの種類によって一様でなくなる)が生じます。

この物語から得られる重要な教訓は、モデル検証は単なる機械的なプロセスではないということです。それは、モデルの数学的な仮定とデータの現実世界の文脈との間の関連性について批判的に考え、これらの仮定の違反が本質的な結論にどのように影響するかを理解することを要求します。

モデルの仮定の検証から、次はモデルがデータにより良く適合するのを助けるための変数変換というトピックへと話を進めます。

世界人口の対数 (ROS 12.1)

人口増加をモデル化する際、単純な線形増加では不十分なことが多くあります。より強力なモデルは、指数関数的増加であり、これは対数スケール上で線形に見えます。

1年から2020年までの世界人口の生のデータをプロットすると、直線がうまく適合しないことがわかります。しかし、人口の対数を取ってプロットすると、この関係はほぼ線形になり、指数関数的増加を示していることがわかります。

この対数変換されたデータに線形回帰 log_pop ~ year_1000 を当てはめると、傾きの係数(1.7)は、1000年ごとにlog(人口)が1.7増加すること、つまり年平均0.17%の成長率を意味します。しかし、このモデルでさえ完璧ではありません。モデルの残差を分析すると、U字型のパターンが見られます。これは、現実世界の人口増加が、実は指数関数的増加よりもさらに速かったことを示唆しているのです。

この物語が教える教訓は二つあります。第一に、対数変換は指数関数的プロセスをモデル化するための強力なツールであること。第二に、変換後であってもモデルの残差を分析することで、より微妙なパターンを明らかにし、モデルがまだ捉えきれていない現実の側面を浮き彫りにできるということです。

対数モデルのもう一つの重要な応用例である、経済学の分野へと話を進めましょう。

需要の価格弾力性 (ROS 12.2)

経済学における「需要の価格弾力性」とは、製品の価格が変化したときに、その需要がどれだけ変化するかを示す概念です。この関係は、しばしば対数-対数回帰モデル log(demand) = beta_0 + beta_1 * log(price) を用いてモデル化されます。

このモデルの素晴らしい点は、傾き beta_1 が弾力性そのものを直接表すことです。つまり、価格が1%変化したときの需要のパーセント変化を意味します。

  • 弾力性 = 0(非弾力的): 価格が1%変化しても、需要は変化しない(例:必須医薬品)。
  • 弾力性 = -1: 価格が1%上昇すると、需要は1%減少し、総収益(価格 × 需要)は一定に保たれる。
  • 弾力性 < -1(弾力的): 価格が1%下落すると、需要は1%以上増加し、総収益は増加する。

この物語の要点は、対数-対数モデルが、ビジネスや経済学における重要な概念である弾力性を、直接的かつ解釈可能な形で推定する方法を提供するということです。回帰の傾きが、パーセント変化という明確で実用的な意味を持つ、強力な例なのです。

変数の変換というテーマから、次の学期の話題へと移行し、まずはサンプリングにおけるバイアスの復習から始めましょう。

第2学期

偏ったサンプルと信頼区間のカバレッジ (ROS 14.1)

統計的誤差には、サンプルサイズに起因するランダムな「標本誤差」と、データ収集における系統的な「非標本誤差」(バイアス)があります。この物語は、サンプルサイズが大きくなるにつれて、バイアスがいかに危険な存在になるかを実証します。

ある世論調査で、真のバイアスが2パーセントポイント存在すると仮定しましょう。このバイアスが異なるサンプルサイズでどのような影響を与えるかを見てみます。

  • n=100の場合: 標本誤差(5ポイント)がバイアス(2ポイント)よりもはるかに大きいため、バイアスの影響は比較的小さくなります。95%信頼区間は、94%の確率で真の値を捉えます。
  • n=10,000の場合: 標本誤差(0.5ポイント)はバイアス(2ポイント)よりもずっと小さくなります。この状況では、バイアスが総誤差の大部分を占め、95%信頼区間は非常に狭くなり、その結果、真の値を含むことはほとんどありません(カバレッジはわずか2%)。

COVID-19ワクチン接種率調査の事例が示すように、これは「ビッグデータのパラドックス」です。非常に大きなサンプルにおいては、精度を制限するのはサンプルサイズではなくバイアスなのです。巨大だが偏った調査よりも、小規模でバイアスの少ない調査の方が、より正確であり得るのです。

この物語が教える重要な教訓は、サンプルサイズを増やすことはランダムな誤差を減らすが、バイアスを減らすわけではない、ということです。系統的なバイアスが存在する場合、より大きなサンプルは、誤った答えに対する誤った確信につながる可能性があるのです。

データのバイアスに関する話から、次はデータに不適切なモデルを当てはめることの欠陥に関する話へと移ります。

才能が多すぎる問題? (ROS 14.2)

スポーツチームにおいて、エリートな才能を加えすぎることは、かえってチームのパフォーマンスを損なうのだろうか?ある研究は、劇的なU字型のカーブを示し、「イエス」と結論付けました。しかし、その魅惑的なモデルの先にある、生のデータそのものに目を向けると、何が見えてくるのでしょうか?

元の論文では、才能ある選手の割合が増えるにつれてパフォーマンスがピークに達し、その後低下するという二次曲線が示されました。しかし、この研究の生データを注意深く見ると、この発見に疑問符が付きます。データは「才能」スケールのハイエンドでは非常にまばらです。生データが示しているのは、実際の低下ではなく、収穫逓減(才能が増えることは常に良いことだが、追加される単位ごとの効果は小さくなる)という、より単純なパターンだったのです。

ここでの統計的な誤りは、横ばいになっているデータに二次曲線を当てはめることで、データに実際の低下の証拠がないにもかかわらず、曲線の端が下向きに曲がって見えるという統計的なアーティファクト(人工物)を生み出してしまったことにあります。

この物語が教えるモデリングに関する重要な教訓は、仮説に固執し、誤解を招く物語を生み出すモデルをデータに押し付けない、ということです。選択したモデルが適切か、あるいはアーティファクトを生み出していないかを確認するために、生のデータを可視化することは極めて重要です。

回帰モデルの誤解に関する話から、次はカテゴリ変数を含むデータセットを分析するために回帰を適切に使用する方法に関する話へと移ります。

期末試験の項目反応分析 (ROS 15.1)

項目反応分析の目的は、試験における個々の問題の特性、例えばその難易度や、高得点者と低得点者をどれだけうまく区別できるかを理解することにあります。

ある期末試験の24の多肢選択問題に対する学生の回答データを分析してみましょう。各問題について、学生の他の問題の合計点を予測変数として、正答の確率を予測するロジスティック回帰を当てはめます。

その結果をグラフで可視化すると、各問題の「性格」が見えてきます。「良い」問題は、曲線が急激に上昇し、より優れた学生がその問題を正解する可能性がはるかに高いことを示します。簡単な問題は曲線が高く、難しい問題は低くなります。特に注目すべきは、曲線が平坦、あるいはわずかに負になってしまった問題です。これは、その問題が優秀な学生とそうでない学生を全く区別できなかった「悪い」問題であったことを示しています。

この分析から学んだ教訓は、試験に欠陥のある問題があったことを明らかにし、それを採点から除外するという具体的な改善につながったことです。これは、単純なモデルを繰り返し当てはめ、その結果を可視化することが、いかに価値のある診断情報を提供しうるかを示す強力な例です。

試験の学生の回答の分析から、次は調査に対する市民の回答の分析へと移ります。

調査の無回答確率 (ROS 15.2)

調査における無回答は大きな課題です。この物語は、ある調査サンプルにおける奇妙な年齢分布の源泉を突き止める、さながら統計ミステリーです。

最初の発見は、回答者の年齢のヒストグラムが、滑らかな分布ではなく、のこぎりの歯のような不自然な山と谷を示していることでした。調査プロセスを詳しく見ていくと、問題の源泉は、調査機関が用いた、広範な年齢カテゴリ(例:30-44歳)を持つ「クォータサンプリング」にあることが判明しました。この方法は、各年齢区分の下限にいる人々の過小サンプリングと、上限にいる人々の過剰サンプリングを引き起こし、奇妙なパターンを生み出していたのです。

さらに、調査の波間の無回答率を年齢の関数としてプロットすると、驚くべきパターンが現れます。最も若い成人層で非常に低い回答率が、年齢とともに急速に上昇し、50歳以上では約75%で横ばいになるのです。この傾向は、ロジスティック回帰モデルによって見事に捉えることができます。

この物語が示す重要な教訓は、データ探索と可視化がいかにデータ収集プロセス自体の隠れた問題を明らかにできるかということです。また、ロジスティック回帰を用いて確率(この場合は調査回答の確率)を予測変数の関数としてモデル化する、明確で現実世界の例を提供しています。

調査方法論に関する話から、次は政治学で用いられる特定の種類の予測モデルに関する話へと移ります。

「ホワイトハウスへの鍵」と、なぜ可能な限り連続的な結果をモデル化する方が良いのか (ROS 14.3)

13の真偽を問う質問に基づいて大統領選挙の勝者を予測すると主張する「ホワイトハウスへの鍵」システムのように、単純で決定論的な予測モデルは魅力的です。しかし、このモデルには大きな欠陥があります。いくつかの鍵の主観性、統計的基盤の欠如、そして1960年や2000年のように実質的に引き分けの選挙で二値の結果(勝ち/負け)を予測しようとすることの問題です。五分五分の勝負を「正しく」予測しようとすることは、過剰適合を招くだけです。

これとは対照的に、より頑健な統計的アプローチは、連続的な結果をモデル化することです。選挙予測の例で言えば、単に誰が勝つかを予測するのではなく、現職の得票率(連続変数)を予測する方がはるかに優れています。得票率の回帰モデルは、データからより多くの情報を利用し、よりニュアンスに富んだ予測(勝利のマージンを含む)を提供し、非常に接戦の選挙によって狂わされる可能性が低くなります。

ここから得られる一般的な統計的原則は、可能であれば、二値変数に二分化するよりも、連続的な結果をモデル化する方が良い、ということです。これにより情報が保持され、より安定したモデルにつながり、より豊かな予測が提供されます。

このモデリング選択の議論から、次はグループ・アイデンティティに関する有名な歴史的・社会学的研究へと話を進めます。

大衆のアヘン (ROS 14.4)

宗教は「大衆のアヘン」であり、貧しい人々ほど宗教的であるべきだ、というマルクス主義の古典的な仮説があります。この仮説を、現代の調査データを用いて検証してみましょう。

2004年の調査データを見ると、興味深いパターンが浮かび上がります。教会に通わない人々の間では、収入と共和党への投票との間に関係はありません。しかし、教会の出席率が高まるにつれて、正の関係が現れ、裕福で宗教的な人々が共和党に投票する可能性がはるかに高くなります。この発見は、宗教的アイデンティティの政治的表現が、貧しい人々ではなく、富裕層の間で最も強いことを示しており、単純な「大衆のアヘン」という考えと矛盾します。

さらに、2020年の選挙データを見ると、収入と投票の関係は全体的に弱まっていますが、収入と宗教的出席率の交互作用は依然として持続しています。

この物語が教える重要な教訓は、これが交互作用を持つ回帰を用いて複雑な社会理論を探求する強力な例であるということです。データは、2つの変数(収入と政治など)の関係が、第3の変数(宗教的出席率など)に依存しうることを明らかにし、単純な一変数仮説よりもはるかにニュアンスに富んだ理解をもたらします。

この複雑な社会モデルから、次は銃所有のパターンを検証する別のモデルへと話を進めます。

銃所有のパターン (ROS 17.1)

銃の所有のような複雑な社会問題を理解するために、統計モデルが用いられます。ある研究では、ロジスティック回帰と負の二項回帰の両方を用いて、銃を所有すること、および所有する銃の数の予測因子を探っています。

ロジスティック回帰の結果を分析すると、例えば、「道徳的危害」に関する懸念が1ポイント高い人は、他の条件が同じであれば、銃を所有する確率が約13パーセントポイント低いことと関連している、といった解釈が可能です。同様に、負の二項回帰の結果は、同じ比較において、期待される銃の数が平均で43%少なくなることを示唆しています。

しかし、「他のすべてを等しく保つ」という解釈には注意が必要です。例えば、性別以外のすべての測定された特性(幼少期の社会化を含む)が全く同じである男性と女性を比較することを想像するのは、現実には非常に困難です。これは、回帰係数の純粋に記述的な解釈の限界を浮き彫りにします。

この物語が示す主な教訓は、一つの実質的な問題に対して、異なる一般化線形モデル(二値の結果にはロジスティック、計数結果には負の二項)を適用することの実践例です。また、回帰係数の解釈と、それらから因果的な結論を導き出すことの課題について、批判的な視点を促します。

調査データを用いて個人の属性を理解することから、次はそれを用いて社会構造を理解することへと話を進めます。

社会的ネットワークにおける構造 (ROS 17.2)

「あなたはジェイシーズ(米国の青年会議所)の会員を何人知っていますか?」このような調査の質問は、社会の隠れた構造を明らかにする鍵を握っています。

「ニコール」のような一般的な名前の場合、調査回答者が知っているニコールの数は、ポアソン分布というランダムな分布によく適合します。しかし、「ジェイシーズ」や「刑務所にいる人々」のようなグループの場合、分散は平均よりもはるかに高くなります(「過分散」)。この過分散こそが、社会構造の証拠なのです。もし人々がランダムに出会うのであれば、このようなパターンは現れません。ジェイシーズは社会組織なので、一人を知っていれば、他のメンバーを知っている可能性も高くなるのです。

この物語が教える重要な教訓は、一般化線形モデルが単純な予測以上のことに利用できるということです。モデルの適合度(あるいは、この場合のポアソンモデルのように、適合度の欠如)を注意深く検証することで、世界の隠れた根底にある構造、この場合は社会的ネットワークの非ランダム性について推論することができるのです。

複雑な統計的発見に関する話から、次は複雑な統計的落とし穴に関する話へと移ります。

マルチバース、統計的有意性のフィルター、そしてフィードバックループ (ROS 18.1)

女性の投票選好が排卵周期によって変化すると主張した2012年の研究は、科学的分析におけるより根深い問題、すなわち、妥当な分析選択肢の「マルチバース」を考えるための格好のケーススタディとなります。

マルチバース分析(あるいは「研究者の自由度」)とは、一つのデータセットに対して、研究者が下しうる数多くの主観的だが擁護可能な選択肢(除外基準、変数の定義など)の集合を指します。この投票行動の研究を再分析したところ、168通りもの妥当な分析経路が存在し、そのうち「統計的に有意な」結果を生み出したのはわずか3つでした。そして、発表されたのはその3つのうちの1つだったのです。

これがどのようにフィードバックループにつながるかというと、(1) 分析の柔軟性により、真の効果を大幅に過大評価した「有意な」結果が見つかりやすくなる。(2) この過大評価された効果が、将来の研究のための楽観的だが検出力が不足したデザインにつながる。(3) これらの新しいノイズの多い研究が、再び有意性を見つけるためにマルチバースを探索する必要性を生み、過大評価された主張のサイクルを永続させるのです。

科学的実践に対する重要な教訓は、データ分析が柔軟である場合、単一の「統計的に有意な」結果は極度の注意をもって解釈されるべきである、ということです。それは、頑健な発見ではなく、データを通じて選択された特定の経路の産物である可能性が高いのです。

過大評価された効果に関するこの話から、異なるが関連する統計的誤りを含む別の例へとつなげます。

幸運のゴルフボールとあり得ないほどの効果量 (ROS 18.2)

学生に「幸運のボール」だと伝えると、ゴルフのパッティング成績が35%も向上した。2010年のある研究は、そう主張しました。しかし、このような些細な心理的介入にしては、この効果量はあまりにも大きすぎ、信じがたいものです。

デザイン分析を行うと、この研究の脆弱性が明らかになります。より現実的な効果量(例えば5%の改善)は、この実験のサンプルサイズ(n=28)では到底検出できません。そのような効果を確実に検出するには、少なくとも64倍のサンプルサイズが必要だったでしょう。

では、なぜこのような検出力の低い研究が「統計的に有意な」結果を生み出せたのでしょうか。答えは、再び「研究者の自由度」にあります。パッティングの距離を変える、サブグループを分析するなど、研究者が純粋なノイズからでも有意な比較を見つけ出すことを可能にする、多くの述べられていない決定がなされた可能性があります。

ここから得られる重要な教訓は、小規模でノイズの多い研究から得られた、あり得ないほど大きな効果量は、大きな危険信号であるということです。それは、真の発見というよりも、柔軟な分析によって捉えられた、増幅されたランダムなエラーである可能性が高いのです。

対照実験に関する話から、全国調査から世論を推定する話へと移ります。

州レベルの意見を推定する (ROS 19.1)

州レベルでの世論を推定することは、重要であると同時に困難な課題です。全国規模の世論調査では、小規模な州の回答者数が少なすぎて直接的な推定が信頼できないため、多段階回帰・事後層化法(MRP)のような高度な統計手法が必要とされます。

MRPの基本的な論理は、個々の調査回答に回帰モデルを当てはめ、そのモデルの予測を各州の人口構成で平均化するというものです。しかし、この手法における重要な subtleties(微妙な点)は、州レベルの予測変数の選択にあります。例えば、銃規制に対する態度を推定する場合、ワイオミングのような保守的な州の推定値は、全国平均ではなく、他の保守的な州のデータと共に「プール」されるべきです。そのために、共和党の得票率を予測変数として加えることが考えられます。

この物語が示す主な教訓は、「人口統計学的に調整する」ことは、単純で機械的なプロセスではないということです。統計モデル、特にMRPのような複雑な手法における予測変数の選択は、主題に関する知識を必要とし、特に小規模なサブグループにおいて、結果に大きな影響を与える可能性があるのです。

洗練されたデータ調整技術に関する話から、データの基本的な問題である欠損に関する話へと移ります。

環境持続可能性指数と欠損データ (ROS 19.2)

環境持続可能性指数(ESI)のような大規模な指標は、国家間を比較するために作成されますが、そこには欠損データという広範で困難な問題がつきものです。ESIのデータでは、低所得国やESIスコアが低い国でデータが欠損する傾向があり、欠損はランダムではなく系統的であることがわかります。

欠損データを補完(インピュテーション)する際、その妥当性をどうやって確認すればよいのでしょうか?真の値が未知であるにもかかわらず、補完された値をチェックすることは可能です。ある汚染物質の変数の例では、観測データのみで訓練された単純な補完モデルが、観測データの狭い範囲に閉じ込められた補完値しか生成しないことが明らかになりました。これは、他の変数に対してプロットすると、人為的で誤解を招くパターンを作り出し、補完モデルの欠陥を暴いたのです。

この物語が教える重要な教訓は、補完は強力だが潜在的に危険なツールであるということです。補完されたデータの妥当性を、観測データや他の変数との一貫性を調べることによってチェックすることは可能であり、不可欠なのです。

処置の統計モデリングに関する話から、処置効果について考えるための概念的枠組みに関する話へと移ります。

変動する処置効果 (ROS 20.1)

単一の「処置効果」という考え方は、実は単純化されすぎています。ある薬が生存率に25パーセントポイントの平均的な利益をもたらすとしても、それは全ての患者の生存確率が25ポイント増加することを意味するわけではありません。

より現実的なモデルはこうです。その薬は、いずれにせよ生存または死亡したであろう人々には効果がなく、そうでなければ死亡したであろう患者のうちの25%の命を救う、というものです。この視点に立つと、「処置効果」は、研究に参加した患者の組み合わせに依存することがわかります。もし、薬によって助けられる種類の患者が多く登録されれば、平均効果はより大きく見えるでしょう。

潜在的結果フレームワークに関する重要な教訓は、処置効果を個人レベルで考えることを奨励する点にあります。これは、「平均処置効果」が何を意味するのかをより深く理解することにつながり、臨床試験の結果を解釈し、一般化する際の患者の組み合わせと文脈の重要性を浮き彫りにします。

医療処置に関する話から、政治的な「処置」である投票用紙の順序に関する話へと移ります。

投票用紙の順序効果 (ROS 20.2)

「ドナルド・トランプが2016年の選挙で勝利したのは、主要な激戦州での投票用紙の順序の優位性のためだったのか?」この挑発的な問いは、候補者の名前が投票用紙の最初に記載されることがもたらす、微妙でありながら決定的な影響について考えさせます。

ある研究では、投票用紙の最初に名前が記載されることには平均で3パーセントポイントの優位性があると主張されています。2016年の選挙でトランプが最初に記載され、かつ僅差だったミシガン、ウィスコンシン、フロリダの選挙人55票を動かせば、選挙結果は変わっていた計算になります。

しかし、この主張には反証もあります。カリフォルニアでの研究では、効果は少数政党の候補者にしか見られませんでした。また、多くの研究は観察研究であり、重要な処置前予測因子である、選挙区の過去の投票パターンを調整できていないという問題があります。

この物語が示す主な教訓は、これが小さくとも潜在的に重要な因果効果であり、正確に推定することが非常に困難な典型的な例であるということです。これは、観察データからの因果推論の課題と、強力な処置前予測因子を調整することの重要性を浮き彫りにします。

現実世界の実験に関する話から、統計的概念を説明するために設計された教室での実験に関する話へと移ります。

害虫駆除実験 (ROS 21.1)

アパートのゴキブリの蔓延を減らすための実験を具体的な例として、現実世界の設定における対照実験の設計について考えてみましょう。実験は、(1) 介入前にゴキブリの数を測定し(事前テスト)、(2) アパートをランダムに対照群と処置群に割り当て、(3) 1か月後に再びゴキブリの数を測定する(事後テスト)という手順で進められます。

この結果を分析するための統計モデルの選択は重要です。単純な線形回帰 y ~ x + z は出発点ですが、乗法的な効果(例:「40%の削減」)を推定するには、対数スケール上のモデルの方が適しています。しかし、ゴキブリが0匹の場合、対数を取ることができません。

ここで、負の二項回帰が威力を発揮します。データが(ゼロを含む可能性のある)計数値であるため、負の二項モデルは、ゼロを自然に扱いながら、対数リンク関数を介して乗法的な効果の推定を可能にするため、この種のデータには最適なのです。

この物語が教える教訓は、アウトカムデータの特定の性質(この場合は計数値)が、適切な統計モデルの選択を導くべきであるということです。

物理的な結果(ゴキブリ)に関する実験から、社会的な結果(政治的態度)に関する観察研究へと話を進めます。

社会的半影と小さな効果 (ROS 21.2)

政治学における新しい概念、「社会的半影(ソーシャル・ペナンブラ)」とは、特定のグループの誰かを個人的に知っている人々の集合を指します。この半影の大きさが、グループの政治的影響力の源泉になり得る、という仮説です。

ある調査では、回答者に様々なグループの人々を何人知っているかを尋ねることで、この半影を測定しました。その結果、イスラム教徒とゲイのように、同様の規模のグループが、全く異なるサイズの半影を持つ可能性があることがわかりました。

では、グループの半影に入ること(つまり、そのグループの誰かと知り合うこと)は、関連する問題に対する人の態度を変化させるのでしょうか?この因果仮説を検証するため、2波のパネル調査を用いて、波の間に半影に入った人々とそうでない人々を、事前の態度や人口統計学的特性を調整しながら比較しました。結果として、推定された効果はすべて非常に小さく、統計的にゼロと区別がつきませんでした。

これはなぜでしょうか。主要な問題に関する態度の変化は1年という期間では稀であり、したがって、一人の新しい知人の効果は、この研究デザインでは検出不可能なほど小さいに違いないのです。効果量に関する重要な教訓は、すべての因果効果が大きいわけではない、ということです。この物語は、観察データを用いて小さな因果効果を統計的に検出することがいかに巨大な挑戦であるかを浮き彫りにします。

複雑な研究におけるゼロ発見に関する話から、単純な研究における明確な発見に関する話へと移ります。

心臓ステントに効果なし? (ROS 22.1)

「心臓ステントは胸痛を緩和せず」。ある高名な盲検化ランダム化試験の結果は、このような衝撃的な見出しで報じられました。

ゲインスコア(運動時間のベースラインからの変化)に基づく初期分析では、処置群と対照群の差は16.6秒で、これは「統計的に有意」ではありませんでした。しかし、この分析方法は、ベースラインの違いや平均への回帰を適切に考慮しておらず、最適とは言えません。より適切なアプローチは、事後テストのスコアを、事前テストのスコアと処置指標に回帰する方法です。

この回帰分析を行うと、処置効果の調整済み推定値は21.3秒に増加し、p値は0.20から0.09に低下しました。効果は依然として従来の0.05レベルで「有意」ではないものの、データはゼロ効果よりも正の効果とより一致しています。この物語は、p値の閾値に基づく二元的な結論(「効果なし」)がいかに誤解を招き、よりニュアンスに富んだ現実を覆い隠しうるかを示しています。

医療上の誤謬に関する話から、社会心理学で一般的な統計的誤謬に関する話へと移ります。

新入生の誤謬 (ROS 22.2)

ある心理学教授は、研究で大学生を使うことへの学生の懸念を「新入生の誤謬」と一蹴しました。しかし、本当に誤っていたのはどちらだったのでしょうか?

排卵と服装に関する研究を例に、この議論の核心を考えます。新入生の指摘は妥当でした。排卵が服装の選択に与える影響は、大学生と一般の他の女性(例:妊娠を望む既婚女性)とでは大きく異なる可能性があります。

教授は、効果は誰に対しても一貫しているというシナリオを暗黙のうちに仮定していました。しかし、新入生は、効果は人や文脈によって大きく変動する可能性を正しく指摘していたのです。便宜的サンプルからの一般化は、効果が一貫しているという強力な仮定の下でのみ有効です。

これを「新入生の誤謬」と呼びましょう。それは、便宜的サンプルから一般化する際に、処置と母集団の特性との間の大きな潜在的交互作用を無視できるという誤った信念です。この物語が教える教訓は、新入生は正しかった、ということです。潜在的な交互作用を無視することは、深刻な概念的誤りなのです。

サンプルから母集団への一般化に関する話から、ランダム化対照群がなかった政策介入を評価する話へと移ります。

政策実験の遡及的対照評価 (ROS 20.3)

政策評価における「ゴールドスタンダード」はランダム化比較試験(RCT)ですが、ミレニウム・ビレッジ・プロジェクト(MVP)のように、実践的・倫理的な理由から当初RCTが実施されなかった注目度の高い事例もあります。

最終的に行われたのは、プロジェクト村を、事後的に処置前の特性が一致するように選択された対照村と比較する、遡及的評価でした。プロジェクト関係者による最初の評価は「実質的かつ費用対効果の高い影響」を報告しましたが、無関係の研究者による第二の評価は「ほとんどがゼロ結果」と結論付けました。

この二つの相反する結論は、(1) 第二の研究の期間が短かったこと、および (2) 場所による効果の変動が大きいことに起因すると考えられます。両方の評価は、MVPが正だが変動する効果を持ち、それが現れるのに数年かかるという事実と矛盾しません。

この物語が示す重要な教訓は、観察評価から生じうる課題と論争です。また、フレーミングの違いや統計的有意性の解釈が、根底にあるデータが必ずしも矛盾していなくても、いかにして正反対の公的な結論につながりうるかを浮き彫りにします。

非営利の開発プロジェクトに関する話から、大規模な政府のロジスティクス業務に関する話へと移ります。

郵便事業のモデリング (ROS 20.4)

アメリカ合衆国郵便公社のような巨大組織におけるコスト配分は、極めて複雑な統計的課題です。あるコンサルティングプロジェクトは、当初、郵便物の量や従業員の時間を測定する大規模な調査に焦点を当てていました。しかし、本当の不確実性の源泉は、全く予期せぬ場所に潜んでいました。

すべての不確実性の源泉を伝播させるシミュレーションモデルを構築した結果、チームは驚くべき発見をします。コスト推定の不確実性を最も大きくしていたのは、大規模で高価な調査ではなく、「郵便物が1ポンド増えるごとに追加で消費される燃料」といった「弾力性」を推定するために用いられた、小規模なオフラインの研究だったのです。これらの小規模な回帰分析が持つ大きな標準誤差が、最終的なコスト推定の不確実性を支配していました。

ここから学んだ教訓は、複雑なシステムにおける最大の不確実性の源泉は、必ずしも予想される場所にあるとは限らない、ということです。すべての誤差の源泉を考慮に入れた全体的なシミュレーションモデルは、分析チェーンにおける最も弱いリンクを特定し、改善のためのリソースを優先順位付けするための強力なツールなのです。

現実世界の観察研究に関する話から、非常に論争の的となるトピックに関する観察研究を実施する際の課題に関する話へと移ります。

死刑の抑止効果 (ROS 21.3)

死刑が殺人を抑止するかどうかという議論は、長年にわたり、非常に感情的かつ政治的な対立を生んできました。この物語は、統計的証拠がしばしば不安定で争われる、極めて困難な因果推論問題の一例です。

DonohueとWolfersによる包括的なレビュー論文は、様々な分析アプローチ(時系列、州間比較、操作変数法など)を検討した結果、死刑が殺人率に大きな影響を与えるという確固たる証拠は見つからなかった、と結論付けています。

なぜこの効果を推定するのはこれほど難しいのでしょうか。処置が観察的であること、死刑政策の変更が他の政策変更と交絡していること、そして処刑の数が殺人の数に比べて非常に小さく、ノイズの中からシグナルを検出するのが困難であることなどが挙げられます。統計的不確実性があまりにも大きいため、「救われた、あるいは失われた命」に正確な数値を当てはめることは、おそらく不可能です。

この物語が教える重要な教訓は、特定の種類の因果的な問いに対する統計分析の限界を強力に示している点です。効果が小さく、データが乱雑で、交絡因子が多数ある場合、洗練された統計手法でさえ、明確で頑健な答えを提供できない場合があります。これは、不確実性を認めることが最も正直な結論であるケースなのです。

この不安定な因果推定の話から、しばしば誤用され、誤解される因果推定の一つのカテゴリーに関する話へと移ります。

回帰不連続デザインの失敗例 (ROS 21.4)

回帰不連続(RD)デザインは、処置の割り当てにカットオフ・ルールを用いる、因果推論で人気の高い手法です。しかし、強力であると同時に、誤用されると誤解を招く結果を生み出す特徴的な失敗モードも持っています。

中国の室内石炭暖房が平均余命を短縮したと主張する研究を見てみましょう。この研究では、見かけ上の「不連続」が、カットオフ付近の急なトレンドを相殺するために強制された、あり得ない三次多項式を当てはめることによって作られたアーティファクト(人工物)であることがわかります。生のデータには、そのようなジャンプは見られません。

組合化と株価暴落、選挙と医療利用といった他の失敗例も、共通のパターンを示しています。研究者がカットオフの両側のノイズの多いデータに柔軟または不適切な曲線を当てはめ、それが境界で人為的なジャンプを作り出し、因果効果として誤解釈されるのです。

RD分析に関する中心的な教訓は、この手法は魔法のボタンではないということです。それは、カットオフのすぐ上と下のユニットが比較可能であるという仮定に依存しています。いつものように、生のデータをプロットし、モデルが現実を歪めていないかを確認することが不可欠です。

線形および多項式モデルの議論から、非線形モデルを使用しなかったために誤った科学的結論に至った話へと移ります。

葉の展開日の非線形性 (ROS 22.3)

気候変動が生物学的プロセスに与える影響の研究の中で、ある奇妙なパズルが浮上しました。それは、気候が温暖化するにつれて植物の「温度感受性」が低下しているという、広範な発見です。

しかし、この発見の裏には、統計的な罠が隠されていました。葉の展開日と温度の真の関係は、より暖かい温度で平坦になる非線形な曲線です。研究者たちは、この非線形なプロセスに線形回帰を当てはめることで、「温度感受性」を計算していました。気温が上昇するにつれて、初期の期間は曲線の急な部分をサンプリングし(高い感受性)、後の期間は曲線の平坦な部分をサンプリングしていたのです(低い感受性)。

結論として、観察された「温度感受性の低下」は、植物の生物学的変化の証拠ではなく、本質的に非線形なプロセスに線形モデルを適用することによって作られた統計的なアーティファクトでした。根底にある曲線は全く変化していなかったのです。

この物語は、モデルの誤指定の危険性を強力に示しています。適切な場所ではないところに単純なモデルを適用すると、完全に誤った科学的結論につながる可能性があるのです。

特定の非線形モデルに関する話から、データ探索のために柔軟な非線形モデルを使用する話へと移ります。

州知事選挙と寿命 (ROS 22.4)

州知事選挙に僅差で勝利することが、平均余命を5〜10年延ばす。この驚くべき主張をした研究は、勝利マージンのゼロのカットオフで寿命にジャンプがあるように見える、ビン化されたデータプロットを提示しました。

しかし、生の、ビン化されていないデータを見ると、それはノイズの多い、平坦な点の雲のように見え、明らかな不連続はありません。柔軟な非線形平滑化(loess)を用いてデータを再検討すると、全体のデータに当てはめた単一の曲線は本質的に平坦です。そして、最も重要なことに、選挙時の年齢という強力な予測因子をモデルに含めると、すでに疑わしい不連続効果は完全に消えてしまいます。

この物語は、データ探索と頑健な分析のケーススタディです。ビン化された平均がいかに誤解を招くか、柔軟な平滑化をどのように使用してパターンを探るか、そして強力な共変量を調整することが、見かけ上の効果をいかに消し去ることができるかを示しています。

アメリカの政治に関する話から、国際開発に関する話へと移ります。

国際開発におけるランダム化比較試験 (ROS 26.1)

国際開発におけるエビデンスの「ゴールドスタンダード」として、ランダム化比較試験(RCT)が台頭してきました。しかし、歴史を振り返ると、一つの謎が浮かび上がります。もしRCTが技術的にそれほど優れているのであれば、なぜ1960年代と70年代の「第一波」は定着せず、2000年代に成功した「第二波」が続いたのでしょうか?

LeãoとEyalの研究によれば、その答えは技術的なメリットだけにあるのではありません。第二波の成功は、その担い手たちがランダム化に対する政治的抵抗を克服し、決定的に、開発援助と学術経済学との間に強力な結びつきを築くことができたからなのです。

実践における統計手法に関する重要な教訓は、特定の統計手法の採用と卓越性は、その技術的特性だけの問題ではないということです。それはまた、その支持者たちが連合を築き、制度的抵抗を克服し、その手法を学術的および政治的威信を持つ分野に結びつける能力によって形作られる、社会的および政治的なプロセスでもあるのです。

開発プログラムの評価の課題に関する話から、民主主義の評価の課題に関する話へと移ります。

ノースカロライナは北朝鮮より非民主的か? (ROS 26.2)

「ノースカロライナ州の2016年の選挙は、キューバや北朝鮮よりも非民主的だった」。選挙完全性プロジェクト(EIP)からのこの挑発的な主張は、広く報道されました。しかし、その根拠となった指標の方法論を詳しく見てみると、深刻な欠陥が浮かび上がります。

EIP指数は、「専門家」への調査に基づいていますが、その結果、北朝鮮は「選挙手続き」や「メディア報道」といった項目で100点中50点以上という、全く無意味な評価を受けていました。問題の根源は、アンカリングとキャリブレーションの欠如にありました。専門家たちは、北朝鮮を他の国と比較可能な絶対的な尺度ではなく、その国に対する極めて低い期待値と比較して評価していた可能性が高いのです。これらのキャリブレーションされていないスコアを用いて国々をランク付けすることは、重大な統計的誤りです。

この物語が教える教訓は、測定は難しいということです。一連の主観的なスコアを単純に平均しても、スコア自体が共通の、明確に定義された尺度上にない場合、有効な指標は作成されません。これは、根底にある測定の妥当性を批判的に吟味することなく指標を作成し、解釈することの危険性についての厳しい警告です。


この教訓集を通じて、私たちは統計学が単なる数字の操作ではないことを再確認しました。それは、世界を深く理解するためのレンズであり、データというテキストに隠された物語を読み解くための言語です。Wikipediaの実験から北朝鮮の選挙評価まで、それぞれの物語は、仮定を疑い、文脈を理解し、そして何よりも批判的に思考するという「統計的思考法」の重要性を教えてくれました。統計は、真実と誤解の両方の物語を語ることができます。この旅を通して、私たちはデータに耳を傾け、その声が語る真の物語を注意深く見極めるための、より鋭敏な目と耳を手に入れたのです。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment