@genkuroki: #統計 how compatibleとcompatibili...

@genkuroki
28 views May 05, 2025
1
#統計 how compatibleとcompatibility intervalの翻訳問題

現在の案

* how compatible → 相性の良さ

* compatibility interval (ある閾値によってデータの値と相性が良いとみなされたパラメータの値全体の区間) → 好相性区間

以前は「良相性区間」と呼んだりしたが、「好相性区間」の方が自然。
2
#統計 他の専門用語とぶつからないように、専門用語として使われている可能性が低い日常的な言葉である「相性」を使っている。今後意見が変わる可能性もある。

compatibilityを「互換性」と訳すのはP値の意味的に変。

統計学で「適合」はfitという意味なので「適合性」もまずそう。
3
#統計 「親和性」は「生体親和性→biocompatibility」のような例があるので避けた。

「整合性」は意味的には問題なさそうだが、微妙に強過ぎるニュアンス(カチッと整合しているというようなニュアンス)があるので避けた。
4
#統計 P値について「P値は、特定の統計モデルの下でのデータの値とモデルのパラメータの値に関する検定仮説の相性の良さ(compatibility)の指標の1つである」と日本語で言うことに躊躇する必要はない。続く
5
#統計 しかし「信頼区間」を「特定の統計モデルと閾値の下で、データの値と相性が良い(好相性)とみなされたモデルのパラメータの値全体のなす区間」という意味で「好相性区間」のように呼ぶことには、個人的にかなり躊躇してしまいます。

既存の用語を置き換える試みはかなり怖い。
6
#統計 Grokさんの助けを借りて作った「P値はデータの値とモデル+検定仮説の相性の良さの指標の1つである」のイラスト。

こういうのを見れば、P値を相性の良さ(compatibility)として解釈することも定着し易くなったりしないかな。
Thread image
7
#統計 P値が低そうな(すなわち女の子と男の子の相性が悪そうな)イラストをGrokで生成しようとしたがあんまりうまく行かない。
Thread image
Thread image
8
へたに喧嘩させてしまうと余計に相性が良いように(P値が大きいように)見えてしまう。
9
#統計 "Under a specified statistical model, a P-value indicates how compatible a testing hypothesis concerning a parameter value of that model is with the observed data value." のようなP値の説明の自然な翻訳では、how compatibleを「どの程度適合するか」とするのが自然です。続く
10
#統計 続き。しかし統計学の文脈では「適合」はfitの訳語としてよく使われているので、別の区別できる言い方が好ましいです。

最も安易な案は、how compatibleを「どの程度互換性があるか」のように翻訳すること。

しかしその文脈で「互換」をcompatibleの訳語として使うことは避けたいと思う。続く
11
#統計 「互換」は字面的には「互いに交換できること」を意味しています。しかし実際にはその意味を超えて、ソフトAが○○でも動くことを「ソフトAは〇〇互換」と言ったりします。

「適合」「親和的」「相性が良い」のような意味を持つcompatibleがなぜか「互換」と訳されるようになってしまった。続く
12
#統計 P値の説明の文脈で欲しいcompatibleの翻訳語は「適合している」に近い意味の別の言い方です。

P値に類似の概念として尤度(ゆうど)がある。

尤度はモデルのすべてのパラメータの値の設定の仕方が観察データの値にどの程度適合(fit)しているかを表しています。続く
13
#統計 確率分布モデルのデータの値へのフィッティング(適合)は尤度(ゆうど)最大化またはその変種が標準的です。

「適合」という言葉を使うと特にP値の話をしていることが伝わり難くなり、英語との一対一対応が大幅に崩れるという欠点があります。続く
14
#統計 「適合的」の代わりに「親和的」「相性が良い」のような候補が考えられます。

「どれだけ親和的か」と「どれだけ相性が良いか」の比較になるのですが、私は統計学用語の権威的なお堅い響きが好きではないので「相性の良さ」の方を現時点では採用しているわけです。(意見を変える可能性がある)
15
#統計 多分、諸々の事情を考慮できない"AI"達は、P値の説明でのcompatibilityを安易に「互換性」と翻訳しがちなので警戒したい所です。

「互換性」だと「ソフトが動くか動かないか」のようなかっちりした二値的ニュアンスが強く、連続的な程度としてのP値のニュアンスを伝え切れないと思います。
16
#統計 P値はデータの値とモデル+検定仮説の相性の良さ(compatibility)を表しています。

相性が悪い場合にP値は小さくなります。

(イラストは、二人の距離が近いせいで、「相性が悪い」というより、本当は仲が良いのだが一時的に喧嘩しているように見えてしまっている。まあ、いいか!テキトー)
Thread image
17
#統計 この文脈でモデルは「データの値の生成のされ方をパラメータ付き確率分布でモデル化したもの+諸々の仮定」を意味しており、検定仮説という用語は「帰無仮説」から「ゼロ仮説」というニュアンスを取り除いたものという意味で使っています。
18
#統計 P値が小さいときに、その主な原因を検定仮説(帰無仮説)の疑わしさに求めることは最も頻繁に見るP値の誤用。

小さなP値は「データの値」ちゃんと「モデル+検定仮説」ちゃんの相性が悪いことを意味しているにすぎないので、データの取得法やモデルの設定が悪いことが問題なのかもしれません。
Thread image
19
#統計 小さなP値が得られたときには

* データの取得法の側に問題があった
* P値の計算に使ったモデルが妥当でなかった
* 検定仮説(帰無仮説)が間違っていた

という可能性だけではなく、

* 単に仲が悪そうな所を偶然見てしまっただけ😊

という可能性も疑う必要があります。
Thread image
20
#統計 所謂「Pハッキング」の不正行為は、「P値が小さくなる場合をしつこく探して小さくなった場合についてのみ報告する行為」なので、

 しつこく仲が悪そうな場面を探して、
 仲が悪いと言いふれまわる行為

にたとえられます。本当は仲が悪くない可能性が高まる。
Thread image
21
#統計 こういう「日本的」なイラストでP値について説明できるのは、compatibilityを「相性の良さ」と翻訳したから。

「互換性」だとこういう感じのかわいい話にはし難い。
Thread image
Thread image
22
#統計 早速意見を変えたくなって来た。

「好相性」は「こうあいしょう」と発音して欲しいのですが、各種のAIさん達は訓読みと音読みを混ぜないというルールを厳密に適用して「こうそうせい」のように読みたがる。

面倒なので、compatibility intervalは「相性が良い区間」で良いかなと思い始めた。
23
#統計 関連音声概要(約7分)

compatibility interval (= confidence interval の言い換え)は「データの値と相性が良いとみなされるモデルのパラメータの値の範囲の区間」という意味なので

 「(データの値と)相性が良い区間」

と言えば良いと思い、採用してみました。音声で聴くとそう悪くない。
24
#統計 現時点でのP値の説明の仕方の翻訳案

compatibility → 相性の良さ
compatibility interval → (データの値と)相性が良い区間
compatibility graph → 相性グラフ

変更点「好相性区間」→「相性が良い区間」

権威的な響きがどんどん無くなって行く😊
25
#統計 「効果がない」「差がない」という意味のnullhypothesisをゼロ仮説と翻訳する流儀は、佐藤俊哉先生の『統計よりも重要なことを学ぶ』で学びました。

その流儀の下で、ゼロ仮説以外の帰無仮説はtest hypothesis (検定仮説)と呼ぶと良いです。
26
#統計 P値に関する解説の決定版とみなされるAmrhein-Greenland 2022 journals.sagepub.com/doi/epub/10.11… の音声概要(NotebookLMで作成)

notebooklm.google.com/notebook/d2508…
Thread image
Thread image
27
#統計 Amrhein-Greenland 2022の音声概要(NotebookLMに指示を出して作成)


29
#統計 Rafi-Greenland 2020はAmrhein-Greenland 2022のロングバージョンのような論文です。

NotebookLMに指示を出して、compatibilityを「互換性」と不適切に翻訳しないようにして作った音声概要

30
#統計 かわいい方が良さそうなので作り直した。

P値の概念に関する解説の決定版の Amrhein-Greenland 2022の音声概要(NotebookLMに指示を出して作成)

これを聴けば、P値と信頼区間=データの値と相性が良いパラメータの値の区間について理解できる。
Actions
Visual Editor
Update Thread
What You Can Do
  • Download as PDF
  • Save to Notion
  • Export as Markdown
  • Visual Editor
Create Free Account

Includes 7-day Premium trial