ソース: https://users.aalto.fi/~ave/ROS.pdf
エグゼクティブサマリー
本ブリーフィング資料は、書籍『Regression and Other Stories』の第15章で解説されている一般化線形モデル(GLM)の主要な概念を要約するものです。特に、計数データ(カウントデータ)を扱う際のポアソン回帰と負の二項分布回帰の比較に焦点を当てます。
最重要の結論として、ポアソン回帰は「平均と分散が等しい」という厳格な仮定を持つため、実世界のデータで頻繁に見られる過分散(分散が平均を上回る現象)をモデル化できず、適合度が著しく低くなるという重大な欠点を持ちます。これに対し、負の二項分布回帰は分散を調整するための追加パラメータ(φ)を持つことで過分散に柔軟に対応でき、より現実に即した精度の高いモデリングを可能にします。本文書で取り上げる「ゴキブリの駆除実験」の事例では、この違いが明確に示されており、負の二項分布回帰がポアソン回帰よりも優れた適合性を持つことが実証されています。
第15章では、線形回帰やロジスティック回帰の原理を拡張し、様々な種類のデータに対応するための枠組みである一般化線形モデル(Generalized Linear Models, GLM)が紹介されています。GLMの核となる要素は以下の3つです。
- 線形予測子: Xβの形式で、予測子と係数の線形結合を表します。
- リンク関数: 線形予測子と応答変数の期待値を結びつける関数(例:対数リンク、ロジットリンク)。
- 確率分布: 応答変数が従うと仮定される分布(例:正規分布、二項分布、ポアソン分布)。
この章で扱われる主要なモデルは以下の通りです。
- ポアソン回帰および負の二項分布回帰: 交通事故の発生件数や捕獲された生物の数など、計数データを対象とします。
- ロジスティック二項モデルおよびプロビットモデル: 二項データ(成功/失敗)を扱います。
- 順序ロジスティック回帰: 「非常に良い、良い、普通、悪い」といった順序のあるカテゴリカルデータを扱います。
- ロバスト回帰: 外れ値の影響を受けにくいモデル(例:スチューデントのt分布を使用)。
計数データ(カウントデータ)のモデリングで最も基本的な手法はポアソン回帰です。このモデルは、観測値yiが以下のポアソン分布に従うと仮定します。
yi ∼ Poisson(e^X_iβ)
しかし、このモデルには実用上、非常に大きな制約が存在します。
ポアソン分布の理論的な特性は、平均と分散が等しいことです。しかし、実世界の計数データでは、多くの場合、分散が平均を大幅に上回る「過分散(overdispersion)」 という現象が見られます(p. 266)。
ポアソン回帰を過分散のデータに適用すると、以下のような問題が生じます。
- モデルの不適合: モデルがデータの実際のばらつきを過小評価するため、データへの適合度が著しく低くなります。
- 誤った推論: 標準誤差を過小に推定し、係数の有意性を過大評価してしまう傾向があります。
この問題点は、本書で紹介されているゴキブリ駆除実験のデータ(p. 268-270)で明確に示されています。この研究では、各アパートで捕獲されたゴキブリの数をモデル化します。
ポアソン回帰をこのデータに適用した結果、事後予測チェック(モデルからの予測データと実データを比較する手法)により、「ポアソンモデルは著しい適合度の欠如を示した(The Poisson model shows strong lack of fit)」(p. 269, Figure 15.3a)ことが明らかになりました。モデルはデータの持つ大きなばらつきを全く捉えきれていませんでした。
ポアソン回帰の過分散問題を解決する強力な代替案が、負の二項分布回帰です。このモデルは、計数yiが以下の負の二項分布に従うと仮定します。
yi ∼ negative binomial(e^X_iβ, φ)
負の二項分布回帰の最大の利点は、分散を調整するための追加パラメータ φ(逆分散パラメータ)を持つことです。これにより、分散が平均と異なる関係を持つことを許容します。このモデルにおける分散は μ + μ²/φ となり、μ(平均)よりも大きくなることが可能です。
この柔軟性により、負の二項分布回帰は過分散を持つデータに対してはるかに優れた適合性を示します。事実、φ が無限大に近づく極限で、負の二項分布はポアソン分布に収束するため、ポアソン回帰は負の二項分布回帰の特殊なケースと見なすことができます(p. 267)。
ゴキブリのデータに負の二項分布回帰を適用したところ、モデルの適合度は大幅に改善されました(Figure 15.3b)。モデルからの予測データの分布は、ポアソンモデルと比較して実データの分布にはるかに近くなりました。これは、モデルがデータの過分散を適切に捉えることができたためです。
ただし、このモデルでさえ完璧ではなく、観測された最大値よりもはるかに大きなゴキブリ数を予測するという課題は残りましたが(p. 269)、ポアソン回帰の根本的な欠点を克服する上で、負の二項分布回帰がはるかに優れた選択肢であることが実証されました。
計数データモデルでは、観測期間や面積などの「曝露(exposure)」を考慮することが一般的です。例えば、ゴキブリの例では「罠を仕掛けた日数」が曝露にあたります。モデルでは、この曝露の対数を「オフセット」として線形予測子に含め、計数を率(rate)としてモデル化します。これは、実質的に曝露の対数log(ui)を係数1で固定した予測子としてモデルに加えることと等価です(p. 267)。
ポアソン回帰と負の二項分布回帰の主な違いを以下にまとめます。
| 特徴 | ポアソン回帰 | 負の二項分布回帰 |
|---|---|---|
| 対象データ | 計数データ | 計数データ |
| 平均と分散の関係 | 平均 = 分散(厳格な仮定) | 分散 ≥ 平均(柔軟な設定) |
| 主要パラメータ | λ = eXβ | μ = eXβ と φ(分散パラメータ) |
| 過分散への対応 | 不可。モデルの不適合を引き起こす。 | 可能。過分散をモデル化するために設計されている。 |
| 主な用途 | 平均と分散がほぼ等しい稀なケース。 | 過分散が疑われる、ほとんどの実世界の計数データ。 |
| モデル間の関係 | 負の二項分布の特殊なケース (φ → ∞)。 | ポアソン分布を一般化したモデル。 |