汎大学ノート

ドイツ語/フランス語/法学/社会学/読書ノート

「はじめに」・第1章「統計的有意性入門」/『ダメな統計学』(2017)

ダメな統計学: 悲惨なほど完全なる手引書

ダメな統計学: 悲惨なほど完全なる手引書

 

はじめに(pp.1~6)

  • 現状:統計的データ分析の氾濫 ⇔ (学部課程での)貧弱な統計教育
  • ⇒ 研究者でも、専門分野の論文が読めない/悪意がなくとも、偏った結果を生み出す

第1章 統計的有意性入門(pp.7~17)

  • 「統計的有意差がある」…運によってたやすく生じることがある違いよりも大きな違いがある 
    → どのようにこの判断を下すか?:統計的有意性検定

 1.1 p値の力

  • p値 (p value)…真の効果あるいは違いがないという仮定のもとで(=運が実験における唯一の要因である)、実際に観測したものと同じくらいかさらに極端な違いを見せるデータが得られる確率 p.8
    =「驚きを測定するもの」
    〔※命題の真理性や、変数の効果量とはまた別の概念〕
  • p値の限界…どんな介入にせよ、「普通は何らかの実際の効果がある。このため、非常に小さく、しかも相対的に重要でない違いすら見つけられるほどの大量のデータを集めることで、常に統計的に有意なデータを得ることができる」pp.9-10

 1.1.1 超能力を持つ統計

  • p値の問題:実験計画が異なる場合、同一のデータでも異なったp値を生み出すことがある:「観測されなかったデータが異なるため」
  • 例)
    ①あてずっぽうで12問中9問正解する確率(二項分布)
    ②3問間違うまで無限に出題するコンピューターに対して12問まで出題された
    〔負の二項分布:正答率qで、n問正解するのに必要な不正解の回数の分布〕
    →データは同一でも、②のほうがp値が小さくなる

 1.1.2 ネイマン=ピアソン流の検定 pp.12-14

  • 統計的優位性検定の考えかたに関する2つの学派
    ・R・A・フィッシャー(1920年代):p値は、データがどれだけ驚くべきものかを知るための手軽で形式ばらない方法
    →p値は、実験者の事前の経験や特定分野の知識と合わせることで、新しいデータをどのように解釈するかを決めるときに有用
    ・イェジ・ネイマンとエゴン・ピアソン:2グループの比較のために異なる算出方法で得られたp値のうち、「最善」のものとは何か
  • 科学における「最善」:偽陽性 false positive(効果がないのにあると結論してしまう) と 偽陰性false negative(効果があるのにない…)
    →両者を0にすることはできなくとも、偽陽性があらかじめ定めた割合でしか起こらないように保証することができる(α=0.01, 偽陽性の割合を1%に抑える)
    →p < αであれば、「帰無仮説(効果が存在しないという仮説)を棄却される可能性がある」という結論を出すためにp値が使用される
    =p値の大小は、実験同士を比較する/仮説の真偽を測る/偽陽性率を出すためには用いられない
  • フィッシャーとネイマン=ピアソンの手法は概念的に異なっている
  • 「単一の実験には、偽陽性率というものが存在しない」

 1.2 信頼を区間に対していだけ

  •  p値は証拠の重みを評価するための唯一の方法ではない
  • 信頼区間(confidence interval)…点推定に推定の不確かさを加えたもの:
    信頼区間のうちおよそ95%が、測定しようとしているものの真の値を含む:
    p値と同じ問題に答えられる;より多くの情報をもたらす
    効果が有意にに0と異なっていることを調べたいなら、信頼区間に0を含んでいないことを示す
  • 推定の正確さ、差の重要性を文脈に応じて解釈できる