現状のサンプルサイズ設計には出版バイアスと不確実性が含まれている

2018/01/21 20:12 に Saki Nakamura が投稿   [ 2018/01/21 20:23 に更新しました ]
Anderson, S. F., Kelley, K., & Maxwell, S. E. (2017). Sample-Size Planning for More Accurate Statistical Power: A Method Adjusting Sample Effect Sizes for Publication Bias and Uncertainty. Psychological Science, 28, 1547–1562. https://doi.org/10.1177/0956797617723724

近年の心理学研究では,再現性に関する問題の1つに「検定力の低さ」があり,これを受けて適切な検定力に達するようなサンプルサイズ設計が求められるようになってきている。サンプルサイズ設計にはいくつかの方法があるが,最もポピュラーなものは,先行研究に基づいて見積もった母集団の効果量を使う方法である。本研究は,この方法を用いることで生じる2つのバイアスを考慮した,新しいサンプルサイズの算出方法を紹介する。

先行研究の効果量を用いてサンプルサイズ設計をすることの問題点
1つ目は出版バイアスが考慮されていない点である。出版バイアスとは,ネガティブデータが肯定的な結果が出た研究に比べて公表されにくいというバイアスのことである。このバイアスが存在するため,先行研究をもとにサンプルサイズ設計すると,公表されていない部分が考慮されていないことになってしまう。2つ目は,サンプルの効果量そのものに不確実性が含まれている点である。そもそもサンプルの効果量は,母集団の効果量の推定値なので不確実性が含まれている。どのくらい不確実であるかを示すものが「信頼区間」になるが,サンプルサイズ設計の時には,信頼区間はお構いなしにある1点のみを用いている。

新しいサンプルサイズの設計方法
本研究では,Taylor & Muller (1996) による,サンプルの効果量の推定の際の出版バイアスと不確実性を調節した尤度ベースの手続きを用いて,上記2点の問題を考慮したサンプルサイズ設計を提案する。
これはサンプルサイズ設計をするのに,先行研究の効果量を用いるのではなく,先行研究のF値をもとにした非心パラメータ(λ)をいかに正確に推定するかによってアプローチを試みている。

Taylor & Muller (1996) のアプローチでは,出版するのに望ましい有意水準を考慮した,以下のような非心パラメータの尤度関数を用いる。

この尤度関数を用いることで,非心パラメータの値に対する尤度分布が生成される。尤度分布を得ることで,非心パラメータの推定値における任意のパーセンタイル点を選択できるようになり,これによって不確実性も考慮できる。任意のパーセンタイル点を50%tileにすると出版バイアスのみが考慮されている状態となり,それより低く設定することで,出版バイアスに加えて不確実性を考慮することができる。ちなみに,Taylor and Muller (1996) は,5%tile点を推奨している。

では,どのパーセンタイル点を選択するばよいのか?それに関しては,サンプルサイズ設計下のシミュレーションにおいて意図した検定力に届いた割合を示す指標の「保証 (assurance)」を参考にすればよい。これは,分位点を「1ー(望ましい保証度合)」によって設定するもので,50%tileだったら50%意図した検定力に達して,5%tileだったら95%が達することを意味する。

従来のサンプルサイズ設計との比較
以下に示したTable 1は,3×4のANOVAの例に従来通りの先行研究ベースのサンプルサイズ設計とTaylor & Muller (1996) のアプローチを用いたサンプルサイズ設計によるシミュレーション結果をまとめたものである。



検定力の平均(1段目)は,従来のアプローチでは母集団の効果量が何であれ,望ましい水準(.80)に達していない。新しいアプローチでは,母集団の効果量が大きい場合には,出版バイアスのみを考慮するだけでも.80に達しており,小さい場合は,最も厳しい基準(5%tile)の時には.80に達している。
各セルのnの中央値(2段目)は,母集団の効果量が大きい時には,従来の設計方法の場合とさほど変わりはないかが,小さい場合には従来の設計方法と比較して,約5倍以上のnが必要となっている。
最後の保証の程度(3段目)を見ると,従来のアプローチでは母集団の効果量が大きい時でも15.2%しか,小さい時には一度も検定力.80に達していないというシミュレーション結果になっている。新しいアプローチでも,100%とまではいかないものの,従来のアプローチと比較するとかなり改善されていることがわかる。

われわれの開発したRのパッケージで簡単に算出にできます!
Rパッケージ:BUCSS(詳細PDF
Rない人のためのWEBアプリ:https://designingexperiments.com/shiny-r-web-apps/

この方法の限界
1つ目は,保証の基準に正確な値があるわけではなく,私たちで決める必要がある点である。2つ目は,ある1つの先行研究をベースに算出していることである。これはメタ分析の結果や中央値を用いるなどで解消可能である。3つ目は,出版バイアスを単純にαp = .05でカットすれば良いというものではない。出版された論文には有意傾向のものもあるし,最近では,有意水準をもっと下げるべきだという流れもあり,一概に.05でカットすれば良いという話ではない。4つ目は各群のnが等しい場合しか使えない点である。しかし,各群のnが同じ時に検定力が一番高くなるから頑張って同じ数になるように調整すべきである。


結論
「根本的にp-hackingやQRPをなくすものではないけど,これによって動機づけは減るよね!」
Comments