#統計 医療関係者達にはP値を積極的に誤用させる教育が長年されて来たように見えます。
多くの人にとってのデフォルトの知識は、P値を誤用することをまともな統計分析だと信じることである可能性が高く、どう解決したら良いのかさっぱりわからない大問題。
#統計 「A群」という言い方は曖昧であり、「A側のデータの数値の集まり」と「A側の母集団」のどちらの意味なのか分かりにくい。
常に「母集団A」と書いたり、「A群はA側の母集団を意味する」のような但し書きを入れるべきだと思います。
統計分析で興味があるのは未知の母集団の様子。続く
#統計 特殊な場合を除けば、等母分散からの逸脱について脆弱なStudentのt検定ではなく、Welchのt検定を使うべき。
2標本t検定達は、標本平均の差ではなく、母集団の平均(母平均)の差に関する検定法。任意の数値aについて「差=a」のP値が定義される。
#統計 対応のあるt検定は、例えば「ベースラインの値と投薬後の値の差の期待値μ_Δは0である」という帰無仮説に関する検定法です。
具体的な数値aに関する「μ_Δ=a」の形の仮説のP値も同時に定義されます。
#統計 Wilcoxonの順位和検定を「分布の位置」の違いに関する検定法だとみなすためには、
2つの母集団分布の累積分布関数F(x), G(y)についてある定数aでF(x)=G(y+a)を満たすものが存在する
という仮定を使います。しかし、この仮定の成立は現実では期待できないし、保証不可能な条件でしょう。続く
#統計 だから、たとえ教科書にそうだと書いてあったとしても、実践的には、Wilcoxonの順位和検定は「分布の位置」の違いに関する検定法では__ない__と教えるべきです。
Wilcoxonの順位和検定のP値は「2つの母集団分布はぴったり等しい」という仮定の下で計算されます。続く
#統計 だから、Wilcoxonの順位和検定は「2つの母集団分布はぴったり等しい」という超絶強い帰無仮説に関する検定法だとみなすことはできます。
実際、2つの母集団分布の母平均、母中央値、母分散、母歪度が等しくても母尖度が違うせいで有意差が出易くなったりします。続く
#統計 Wilcoconの順位和検定は2つの母集団の間に優劣をつけるための検定法としては、Studentのt検定と同様な感じで、脆弱な検定法になり、実践的にどのように安全に使えるのかよく分からない検定法になっています。続く
#統計 しかし現実には、Wilcoconの順位和検定(=Mann-WhitneyのU検定)は非常に安易に使われており、かなりの割合で誤用されているものと思われます。この点は過去の教育の負の遺産です。相当に酷いことになっている。
代わりに非常に頑健なBrunner-Munzel検定を使うべきです。
#統計 p.18, p.30
『統計的有意性とP値に関するASA声明』翻訳版での「矛盾する程度」は原文では"how incompatible"で、"how inconsistent"ではありません。
P値で矛盾は示せないので「矛盾する程度」と翻訳するのはやめた方が良いと私は思います。私は「相性の悪さの程度」という翻訳を提案。続く
#統計 P値は大きいほどcompatibleになる指標なので、原文も素直に"how compatible"とすれば分かり易かった。日本語では
P値はデータの数値と統計モデルと検定したい仮説の組み合わせの相性の良さの程度を示す指標の1つである
のように説明すればぴったりだと思います。
#統計 p.23
P値単体では矛盾を出す能力はありません。
データ外かつモデル外の知識や特別な状況を利用しないと、P値<αという条件によって、危険率を十分に制御した判断は不可能です。
この点を押さえないと、P値の誤用は決してなくならないでしょう。続く
#統計 例えば、「P値<α」という条件によって「薬は効かない」という帰無仮説を棄却して「薬は効く」と判定する状況を考えましょう。
このとき気になるのは、そのようにして「効く」と判定された薬達の中に実際には効かない薬がどの程度の割合で含まれてしまうかです。その割合が大きいなら危険。続く
#統計 例えば、仮にすでに相当に吟味した薬達だけをテストするならば、テストする薬達の半分は効き目があるとしてよいでしょう。
その場合に、有意水準5%、検出力80%の両側検定のいつもの設定で、「効く」と判定された薬達の中での実際には効かない薬の割合は3%程度に抑えられます。
しかし~続く
#統計 しかし、テストする薬達の5%しか効き目がない場合には、同設定で、「効く」と判定された薬達の中での実際には効かない薬の割合は37%に跳ね上がります。
このように、P値<αという条件による判定の実践的有効性は、テストする薬の中での効く薬の割合に大きく依存します。
#統計 P値<αという条件だけで単純に判断することは、科学の信頼を損なうために非常に有効な方法になります。絶対にやめなければいけない。続く
#統計 現実社会での薬の承認制度は第1,2,3相の多段階治験をすべてクリアさせる非常に厳しい試練を課しています。
最終の第3相治験に入る前までにテストしている薬達のうち半分以上が効く薬ならば、第3相の主要評価項目の成否を「P値<α」という条件で判断しても安全性はかなり高くなる。