フィールドデータの解析覚書1

(私は統計や数学にとんと弱い研究者です。なので、ざくっとした理解をしてデータ解析をしています。忘れやすい自分への覚書ですので、あまり信用しないで参考程度にしてください。)

かつて野生動物学や生態学の分野では、フィールドでとったデータを解析すると、x-y相関を求めるか有意差(5%とか1%とか)を求めることが多かったです。有意差はカイ二乗検定(データが整数値の場合に使用)とかt検定(データの正規分布を仮定)、またはホイットニーのU検定(これはデータを小さい順とか順位に直して検定)などを利用しました。変数が多くなる場合はANOVA(変数の正規分布を仮定した分散分析)を用いるか、複数の変数を含めて差があるかないかを判断する(クラスカルワリスとか)方法がとられました。しかし、フィールドで得られるデータはだいたいバラつきが大きく、有意差5%というハードルで涙をのんだケースも多かったです。しかし、それは特定の統計モデルに対して、苦労して集めたフィールドデータをあてはめようとしたらあわなかったということです。その統計モデルが適当でなかったということは考えなかったのです。順位に直して検定する方法ではデータのバラつきは考えなくてよかったのですが、逆にせっかくとったデータに含まれている情報を無駄にしているともいえます。

しかし、数年前からより柔軟な解析方法が利用されるようになってきています。まずは一般化線形モデル(GLM)や一般化線形混合モデル(GLMM)です。前者は正規分布以外の分布(たとえば二項分布やベルヌーイ分布)を想定してフィールドデータ(観測データ)をあてはめ、考えられる統計モデルのうち良いモデルを選択するというものです。後者はさらに個体差などもモデルに組み込むことができます。たとえば個体差がランダムに生じるとか、個体差は正規分布に従うといったケースバイケースの柔軟な仮定をモデルにしてゆける便利さがあります。そしてモデルのあてはまりの良さをAICという値で評価して、複数のモデルからもっともよいものを選ぶという方法です。AICはほんとうによく見かけます。

さらに変数が増えて複雑なモデルが必要な場合、階層ベイズ推定が利用されます。ベイズ推定が私には長らくわかりませんでしたが、要は得られた結果から元の状態を推定するということです。フィールドでは「得られた結果」にいろいろな変数や単なる誤差が含まれています。たとえばライトセンサスによるシカの個体数調査なら、サンプリングをしたときの天候とか季節、調査コースが変数になり、誤差は調査者によるものとか、その日のシカの動きによるものとかが考えられます。ベイズ推定では、これらの変数や誤差をひっくるめて観測データができているという前提で解析します。そして、使える情報はなるべく使いたいという発想に立ちます。個体数なら前年の個体数はたぶん影響することでしょう。季節による差も出産期の前後なら、あとのほうが増えると予測が立ちます。それらを推定の柱として、あとはバラつきなどを加味して統計モデルをつくるのです。このとき、さきほどのGLMやGLMMなどをモデルの柱にすると柔軟にデータに対応できるということです。

詳しくは北大の久保さんのウェブサイトや御著書(下記)を参照ください。

KuboWeb (KUBO Takuya)

Amazon.co.jp: データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学): 久保 拓弥: 本

 

「パラメータ推定」という言葉が頻繁に出てきますが、これがベイズ推定のミソです。統計モデルをつくるときに変数にかかる係数とか想定した分布の形状を決める係数とか定数項とかがパラメータになります。観測データをもとにモデルをつくり、そのモデルから数千回とか数万回シミュレーション(MCMCとか)を行ってみたとき、それぞれのパラメータが推測できるということです。推測結果は2.5%,5%,95%,97.5%でのパラメータの推定値が示されます。たとえばある係数パラメータが2.5%や5%で負の値、95%や97.5%で正の値ということだと、その係数はあまり影響してないとわかります。逆にいずれも正の値だと推定にプラスの影響を与えていることがわかります。