いろいろつれづれ

当面は統計検定2級の統計学入門・統計学基礎的な内容を記載しよかなと思ってます。

母比率の区間推定~あれ?母比率の定義を忘れとる!復習じゃ!~【備忘録】

ーーーーーーーー

主要内容

ーーーーーーーー

 

昔、統計検定2級に受かりましたが、「自分、統計検定2級です」と堂々と言えないくらいにいろいろ忘れとる感じです(汗)。統計学入門的な内容をいろいろ復習しながら、備忘録として記事にしていきたいと思います。

以下に、参考にした書籍を4つ紹介しておきますね。

〖2021/2/19 追記;紹介書籍をもう一つ追記しておきます〗

 

↓↓↓

 

紹介書籍

紹介書籍①:

【リンク】⇒Amazon/通販/商品紹介ページ;東京大学教養学部統計学教室(編)(1991年) 『統計学 基礎統計学Ⅰ』 一般財団法人東京大学出版会

 

紹介書籍②:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一 (2011年) 『入門 統計学 -検定から多変量解析・実験計画法まで-』 株式会社オーム社

 

紹介書籍③:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一・丸山敦史(共著)/ジーグレイプ(制作)(2017年) 『統計学図鑑』 株式会社オーム社

 

紹介書籍④:

【リンク】⇒Amazon/通販/商品紹介ページ;涌井良幸・涌井貞美(2015年) 『まなびのずかん 統計学の図鑑』 技術評論社

 

〖2021/2/19 追記;紹介書籍をもう一つ追記しておきます

紹介書籍⑤:

【リンク】⇒Amazon/通販/商品紹介ページ;日本統計学会(編)(2015年) 『改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎』 東京図書株式会社

 

↓↓↓

今回の自分の復習内容は、

母比率の区間推定

です。数式を復習します。検定試験の時に数式を覚えておいて解いた、という記憶があります。ただ、「母比率」って、そもそも何だったっけ?というのもあるので、そこらへんも含めて復習しますです。

記号・数式の表記ルールは、別途まとめている記事のリンクを貼っておきたいと思います。

 ↓ 

 

www.my-iroiro-my-tsurezure.jp

 

ではまず、

 

「母比率」の定義

 

から行きたいと思います。前述の各紹介書籍での表現を見てみました。

紹介書籍①によると、「母集団の比率」です。

紹介書籍②によると、「母集団において、ある事象が起こる確率」です。

紹介書籍③には(私が見つけられてないだけかもしれませんが)特に記載はないです。ただ、「標本比率」については記載があり、「ある性質を持つ要素の数を標本の全要素数で割った値」というような感じです。この表現を母集団に当てはめて自分で変換してみると、「ある性質を持つ要素の数を母集団の全要素数で割った値」ということになるんだろうなあ、というところです。この予測は次の紹介書籍④での表現を見ると、当たってそうだなあ、と思います。

紹介書籍④によると、「母集団の中でのある事象の割合」みたいな表現です。また、「ある事象の数を母集団の大きさで割った値」みたいな表現です。こちらでは「標本比率」についても記載があり、「ある事象の数を標本の大きさで割った値」というような表現ですので、先ほどの紹介書籍③での自分の予測は当たってそうです。

 

書籍によって、「母比率」と「標本比率」を表す記号が違っています。

「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain に対して「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain (ピーハット)や f:id:one_of_ippanpeople:20210217084459p:plain (ピーバー)だったり、「母比率」 f:id:one_of_ippanpeople:20210217084536p:plain (大文字のアール、ラージアール)に対して「標本比率」 f:id:one_of_ippanpeople:20210217084609p:plain (小文字のアール、スモールアール)だったりします。

とりあえずこの記事では、「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain に対して「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain (ピーハット)を用いたいと思います。


では、

 

母比率や標本比率の従う分布

 

についてです。前述のどの紹介書籍でも、標本の大きさ・標本サイズであるnが大きいとき、正規分布に基づいて計算しています。nが大きいときというのは、書籍によってn>30だったりn≧100だったりです。

 

母比率や標本比率の従う分布に関しては紹介書籍①がとても参考になりました。

 

まず、前述の正規分布の話を一旦置いておいて、母比率 f:id:one_of_ippanpeople:20210217090718p:plain は二項分布(binomial distribution)に従うのだそうです。

二項分布について簡単にいうと、n回繰り返すベルヌーイ試行において、「求める結果」が出る回数が二項分布の確率変数 f:id:one_of_ippanpeople:20210218000246p:plain をとる分布なのだそうです。ということは、とびとびの値をとるということであり、つまりは確率変数 f:id:one_of_ippanpeople:20210218000246p:plain  は離散型(discrete type)。ということは、二項分布は「散型の確率分布」(p. d. of discrete type ; probability distribution)。

ベルヌーイ試行(Bernoulli trials)について簡単に言うと、二項試行ともいうらしく、とある試行の結果が「求める結果」と「求めない結果」という2種類しかない試行の事だそうです。n回のベルヌーイ試行において、毎回の試行は前回の試行の影響を受けない、つまり毎回の試行は独立であり、毎回の試行で「求める結果」の出るの確率 は f:id:one_of_ippanpeople:20210217090718p:plain であり、「求めない結果」の確率は f:id:one_of_ippanpeople:20210218001626p:plain だそうです。n回繰り返すベルヌーイ試行、つまり二項分布は f:id:one_of_ippanpeople:20210217091121p:plain で表しますが、f:id:one_of_ippanpeople:20210218002005p:plain を特にベルヌーイ分布(Bernoulli distribution)というのだそうです。

二項分布について、確率変数 f:id:one_of_ippanpeople:20210218000246p:plain の確率関数は、
 

f:id:one_of_ippanpeople:20210218005134p:plain, f:id:one_of_ippanpeople:20210218005440p:plain (f:id:one_of_ippanpeople:20210218005546p:plain)

 

ここにおいて、f:id:one_of_ippanpeople:20210218011321p:plain は二項係数というのだそう。二項分布の確率関数は二項定理より、

 

f:id:one_of_ippanpeople:20210218010414p:plain (ただし、f:id:one_of_ippanpeople:20210218010506p:plain)

 

と、全確率が1。(なので確率分布だと分かります。)

二項分布の確率変数 f:id:one_of_ippanpeople:20210218000246p:plain の期待値(平均)は f:id:one_of_ippanpeople:20210217091554p:plain であり、分散は f:id:one_of_ippanpeople:20210217091619p:plain です。

そして、nが大きいとき、という話が出てきます。nが大きいとき、中心極限定理により、離散型確率分布である f:id:one_of_ippanpeople:20210217091121p:plain は、連続型確率分布である正規分布に近似することができる、となるそうです。

中心極限定理(Central limit theorem)の概略を示すと、「和 f:id:one_of_ippanpeople:20210218012640p:plain の確率分布の形は、母集団分布が何であっても、nが大きいときには正規分布に近似できる」というものです。母集団分布の平均(母平均)を f:id:one_of_ippanpeople:20210218012916p:plain 、分散(母分散)を f:id:one_of_ippanpeople:20210218013031p:plain とすると、母集団分布が何であっても、標本の大きさnが大きいとき、「求める結果」が出る回数の和 f:id:one_of_ippanpeople:20210218013447p:plain について、

 

f:id:one_of_ippanpeople:20210218013650p:plain は、正規分布 f:id:one_of_ippanpeople:20210218013932p:plain に従うと考えて良いそうです。

 

因みに、母集団分布の平均(母平均)を f:id:one_of_ippanpeople:20210218012916p:plain 、分散(母分散)を f:id:one_of_ippanpeople:20210218013031p:plain とすると、母集団分布が何であっても、標本の大きさnが大きいとき、確率変数 f:id:one_of_ippanpeople:20210218000246p:plain の平均 f:id:one_of_ippanpeople:20210218014151p:plain について、

f:id:one_of_ippanpeople:20210218014521p:plain は、正規分布 f:id:one_of_ippanpeople:20210218014543p:plain に従うと考えて良いそうです。

 

ここにきて、やっと正規分布の話になりましたね。(ふう(;´・ω・)。ちょっと一息。)

\(゜ロ\)(/ロ゜)/ \(゜ロ\)(/ロ゜)/ \(゜ロ\)(/ロ゜)/

\(^o^)/

二項分布(n回のベルヌーイ試行)における「求める結果」の回数 f:id:one_of_ippanpeople:20210218020238p:plain は、ベルヌーイ試行 f:id:one_of_ippanpeople:20210218002005p:plain に従う確率変数 f:id:one_of_ippanpeople:20210218020211p:plain の和となるので、

 

f:id:one_of_ippanpeople:20210218020338p:plain

 

となります。中心極限定理により、これは標本の大きさnが大きいとき正規分布に従うと考えて良いので、二項分布(n回のベルヌーイ試行)における「求める結果」の回数 f:id:one_of_ippanpeople:20210218020238p:plain  についての正規分布の標準化変数 f:id:one_of_ippanpeople:20210218030449p:plain は、二項分布の確率変数 f:id:one_of_ippanpeople:20210218000246p:plain の期待値(平均)は f:id:one_of_ippanpeople:20210217091554p:plain であり、分散は f:id:one_of_ippanpeople:20210217091619p:plain より、

 

f:id:one_of_ippanpeople:20210218030622p:plain

 

となり、これは標本の大きさnが大きいとき標準正規分布 f:id:one_of_ippanpeople:20210218021450p:plain に近似できます。ここで、n中の f:id:one_of_ippanpeople:20210218020238p:plain  の比率は相対頻度(相対度数)ともいえるし、確率変数  f:id:one_of_ippanpeople:20210218020211p:plain  の平均  f:id:one_of_ippanpeople:20210218014151p:plain にであるともいえるみたいです。これが「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain であり、

 

f:id:one_of_ippanpeople:20210218023107p:plain

 

ということみたいです。よって、二項分布(n回のベルヌーイ試行)における「求める結果」の回数 f:id:one_of_ippanpeople:20210218020238p:plain  についての正規分布の標準化変数 f:id:one_of_ippanpeople:20210218030541p:plain を変形すると、

 

f:id:one_of_ippanpeople:20210218030641p:plain

 

となります。

 

 

ようし!やっと、

 

母比率の区間推定

 

の数式についてになります。

標本の大きさnが大きいとき、「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain  に関する標準化変数 f:id:one_of_ippanpeople:20210218030558p:plain は「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain を用いて

 

f:id:one_of_ippanpeople:20210218030703p:plain

 

となります。この標準化変数  f:id:one_of_ippanpeople:20210218030558p:plain は標準正規分布 f:id:one_of_ippanpeople:20210218021450p:plain に近似的に従うので、

 

f:id:one_of_ippanpeople:20210218030719p:plain

f:id:one_of_ippanpeople:20210218030835p:plain

f:id:one_of_ippanpeople:20210218031050p:plain

f:id:one_of_ippanpeople:20210218031220p:plain

f:id:one_of_ippanpeople:20210218031300p:plain

 

大数の法則(たいすうのほうそく)という「大きな標本で観測された標本平均は母集団の真の平均である母平均とみなしてよい」という法則ですが、この法則により、「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain は「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の一致推定量となるので、nが大きいときは「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain はほとんど「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain に等しいと考えられます。よって、

 

f:id:one_of_ippanpeople:20210218031511p:plain

よって、母比率 f:id:one_of_ippanpeople:20210217084354p:plain  の信頼係数1-αの信頼区間は近似的に、

f:id:one_of_ippanpeople:20210220163624p:plain

 

(下のように書くこともあります)

f:id:one_of_ippanpeople:20210220163642p:plain

 

αとZ値を具体的数値にした例を以下に示します。

 

95%信頼区間ならα=0.5なので  。よって、

f:id:one_of_ippanpeople:20210220163716p:plain

 

90%信頼区間ならα=0.1なので  。よって、

f:id:one_of_ippanpeople:20210220163733p:plain

 

以上の方法は、標本の大きさnが大きいときの「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の区間推定です。これはWaldというアメリカの統計学者の方が考案したものだそうです。

標本の大きさnが小さいときの「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の区間推定については、AgrestiとCoullという統計学者が考案した数式があるそうで、前述の紹介書籍②及び③にちょっとだけ記載がありましたが、割愛させていただきますね。  

 

〖2021/2/19 追記;本記事では、「求める結果」が出る回数である確率変数 f:id:one_of_ippanpeople:20210219224717p:plain は二項分布に従い、nが大きいときには中心極限定理により、確率変数の平均  f:id:one_of_ippanpeople:20210218014151p:plain に当たる「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain である

 f:id:one_of_ippanpeople:20210218023107p:plain 

を用いた標準化変数 f:id:one_of_ippanpeople:20210218030541p:plain である

 f:id:one_of_ippanpeople:20210218030703p:plain

が近似的に正規分布に従い、「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の区間推定の数式をそこから導く記事を記載しました。

紹介書籍⑤では、「(要約):有限母集団において、母集団の大きさNが小さいときの非復元抽出の場合、「求める結果」が出る回数である確率変数 f:id:one_of_ippanpeople:20210219224717p:plain は超幾何分布に従う。Nがある程度大きければ、「求める結果」が出る回数である確率変数 f:id:one_of_ippanpeople:20210219224717p:plain は二項分布に従う。」とあります。そしてそこから標本の大きさnが大きいときに、中心極限定理により・・・と本記事の内容の話と同様に「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の区間推定の数式の事が記載されていました。さらに、有限母集団と無限母集団の違いについて少し記載されていました~。おお~!\(^^)/〗

 

↓↓↓

 

区間推定の数式はなんとく覚えてましたが、これを導く過程については記事を書くことによって理解できたような気がします。わ~い!

(*^-^*)

では~!

(^O^)/

本ブログ中で商品の紹介をする場合は広告として記載することにしました