いろいろつれづれ

当面は統計検定2級の統計学入門・統計学基礎的な内容を記載しよかなと思ってます。

「母分散未知の小標本」⇒「母平均の差」の区間推定~自分の復習のために~【備忘録】

昔、統計検定2級に合格したのですが、もう忘れかけてるので復習をしています。備忘録として記事にしますね。

 

復習に用いた書籍3冊を以下にご紹介します。

↓↓↓

  

紹介書籍①:

【リンク】⇒Amazon/通販/商品紹介ページ;東京大学教養学部統計学教室(編)(1991年) 『統計学 基礎統計学Ⅰ』 一般財団法人東京大学出版会

  

紹介書籍②:

【リンク】⇒Amazon/通販/商品紹介ページ;日本統計学会(編)(2015年) 『改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎』 東京図書株式会社

 

紹介書籍③:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一 (2011年) 『入門 統計学 -検定から多変量解析・実験計画法まで-』 株式会社オーム社

  

↓↓↓

今回の復習内容は、

 

「母分散未知の小標本」での「母平均の差」の区間推定

※今回は、独立な2つの標本、つまり、対応のない2つの標本、対応のない2群についての話です。

 

 です。

記号・数式の表記ルールは、別途まとめている記事のリンクをを貼っておきたいと思います。

 

www.my-iroiro-my-tsurezure.jp

 

それでは、数式をまとめたいと思います。統計検定の試験の時には、数式を覚えて解いた、という記憶があります。

「母分散未知の小標本」の「母分散が未知」というのはまず良いとして、「小標本」というのは、標本の大きさ・標本サイズであるnが小さいときということです。具体的数値としては、書籍によってn<30だったり、n<100だったりします。

 

 

正規分布に従う2つの母集団それぞれから抽出したと考え、独立な2つの標本、つまり、対応のない2つの標本、対応のない2群を次のように表現しておきます。

 

独立な2つの標本、対応のない2つの標本、対応のない2群


 

それぞれの標本についての標本分布については以下のように表現しておきます。

 

標本分布としての正規分布1

 

標本分布としての正規分布2

 

(参考に過去の記事2つのリンクを貼っておきます)

 

www.my-iroiro-my-tsurezure.jp

 

 

www.my-iroiro-my-tsurezure.jp

 

 

続きを記載します。

「母分散未知の小標本」であり、かつ「独立な2つの標本」(つまり「対応のない2つの標本」、「対応のない2群」)のときは、さらに2つの場合を想定します。

「母分散は未知」とはいえ「母分散が等しいと分かっている場合」と「母分散が等しくないと分かっている場合(母分散が等しいと仮定できない場合)」の2つに分かれます後者では「ウェルチの近似法(Welchの近似法)」を用います。

 

[母分散が等しいと分かっている場合]

母分散が等しいとき、 f:id:one_of_ippanpeople:20210227062149p:plain と「共通の母分散」を f:id:one_of_ippanpeople:20210227062345p:plain とし、共通の母分散に対する推定値を f:id:one_of_ippanpeople:20210227064636p:plain とする。第1の標本、第2の標本それぞれで不偏分散を求めることができ、それぞれを f:id:one_of_ippanpeople:20210227064703p:plain 、 f:id:one_of_ippanpeople:20210227064723p:plain とすると、

 

f:id:one_of_ippanpeople:20210227190013p:plain  、  f:id:one_of_ippanpeople:20210227190946p:plain

 

である。共通の母分散 f:id:one_of_ippanpeople:20210227062345p:plain は、2つの標本を合併した分散で推定する。共通の母分散  f:id:one_of_ippanpeople:20210227062345p:plain の推定値 f:id:one_of_ippanpeople:20210227064636p:plain は、

 

f:id:one_of_ippanpeople:20210227191114p:plain

 

であり、これも不偏推定量である。これを、「合併した分散」、「併合した分散」、「プールした分散」、「こみにした分散」、「合併された分散」、「併合された分散」、「プールされた分散」、「こみにされた分散」などの言い方で呼ぶ。英語では、「pooled estimator」や「pooled variance」と呼ぶ。第1の標本の不偏分散 f:id:one_of_ippanpeople:20210227064703p:plain 、第2の標本の不偏分散 f:id:one_of_ippanpeople:20210227064723p:plain は、

 

f:id:one_of_ippanpeople:20210227190013p:plain  より、  f:id:one_of_ippanpeople:20210227191024p:plain

 

f:id:one_of_ippanpeople:20210227190946p:plain  より、  f:id:one_of_ippanpeople:20210227191302p:plain

 

 なので、

 

f:id:one_of_ippanpeople:20210227191114p:plain  より、  f:id:one_of_ippanpeople:20210227191336p:plain

 

となる。これは、2つの標本のそれぞれの自由度を重みとしたときの、2つの標本の不偏分散の加重平均でもある。

 

f:id:one_of_ippanpeople:20210227193058p:plain

 

ここで、

平均の差の分布

 

t分布に従う

よって、

 

  より、

 

(下のように書いたりもします)

 

より、

 

となります。

 

「母分散未知の小標本」であり、かつ「独立な2つの標本」(つまり「対応のない2つの標本」、「対応のない2群」)のときは、さらに2つの場合を想定します。一方の場合についてここまで記載しました。さあ、次は、もう一つの場合についてです。

 

[母分散が等しくないと分かっている場合(母分散が等しいと仮定できない場合)]

 母分散は等くなく、  である。第1の標本、第2の標本それぞれで不偏分散をそれぞれを f:id:one_of_ippanpeople:20210227064703p:plain 、 f:id:one_of_ippanpeople:20210227064723p:plain とすると、

 

f:id:one_of_ippanpeople:20210227190013p:plain  、  f:id:one_of_ippanpeople:20210227190946p:plain

 

である。ここで、

平均の差の分布

 

ウェルチの近似法(Welchの近似法)

 

よって、

(式の変形の過程は割愛します)

 

(下のように書いたりもします)

 

[補足]

 今回の記事の2つの場合のどちらを使うかの判断についてですが、2つの母分散が等しいかどうかを「母分散の比の検定(等分散の検定)」を行い、その結果によって判断することになります。

 この検定では、帰無仮説が棄却されると「等分散でなく、等分散である確率は有意水準α以下である」となり、帰無仮説が棄却されないと「等分散でないとははっきり言えない」となります。

 「等分散でないとははっきり言えない」というのは、つまり「必ずしも等分散であるとは言えない」ということですが、「母分散の比の検定(等分散の検定)」で棄却されない程度の違いであれば許容される、という考えなのだそうです。

 まとめますと、「母分散の比の検定(等分散の検定)」で帰無仮説が棄却されなかったときは「等分散である」とみなして「母分散が等しいと分かっている場合」を選択し、「母分散の比の検定(等分散の検定)」で帰無仮説が棄却されたときは「等分散でない」として「母分散が等しくないと分かっている場合(母分散が等しいと仮定できない場合)」を選択します。

 

↓↓↓

ふう。f(^^;)

記事にまとめることができました~!

\(^^)/

ではでは~!

\(^o^)/

「母分散既知」or「母分散未知の大標本」⇒「母平均の差」の区間推定~自分の復習のために~【備忘録】

昔、統計検定2級に合格しましたが、内容をだいぶ忘れかけてるので復習中です。備忘録として記事にします。

 

復習に用いた書籍を3つ、下にご紹介しておきますね。

↓↓↓

 

紹介書籍①:

【リンク】⇒Amazon/通販/商品紹介ページ;日本統計学会(編)(2015年) 『改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎』 東京図書株式会社

 

紹介書籍②:

【リンク】⇒Amazon/通販/商品紹介ページ;東京大学教養学部統計学教室(編)(1991年) 『統計学 基礎統計学Ⅰ』 一般財団法人東京大学出版会

  

紹介書籍③:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一 (2011年) 『入門 統計学 -検定から多変量解析・実験計画法まで-』 株式会社オーム社

  

↓↓↓

 

 今回の復習内容は、

 

「母分散既知」or「母分散未知の大標本」での

「母平均の差」の区間推定

※今回は、独立な2つの標本、つまり、対応のない2つの標本、対応のない2群についての話です。

 

です。数式を復習します。検定試験の時に数式を覚えておいて解いた、という記憶があります。

記号・数式の表記ルールは、別途まとめている記事のリンクを貼っておきたいと思います。

 www.my-iroiro-my-tsurezure.jp

 

これから数式をまとめますが、ひとまず 母分散既知の場合の数式を示します。 母分散が既知のときは正規分布に基づいて計算します。

 

標本の大きさ・標本サイズであるnが大きいとき、つまり大標本のときは、近似的に正規分布に基づいて計算することができます。nが大きいときというのは、書籍によってn≧30だったりn≧100だったりです。

 

正規分布に従う2つの母集団それぞれから抽出したと考え、独立な2つの標本、つまり、対応のない2つの標本、対応のない2群を次のように表現しておきます。

 

独立な2つの標本、対応のない2つの標本、対応のない2群


 

それぞれの標本についての標本分布については以下のように表現しておきます。

 

標本分布としての正規分布1

 

標本分布としての正規分布2

 

(参考に過去の記事のリンクを貼っておきます)

 

www.my-iroiro-my-tsurezure.jp

 

 

続きを記載します。

平均の差の分布

 

なので、

 

(下のように書いたりもします)

 

 

αとZ値を具体的数値にした例を以下に示します。

  

95%信頼区間ならα=0.5なので  。よって、

 

90%信頼区間ならα=0.1なので  。よって、

 

 ↓↓↓

記事にすることによって復習になったとともに、以前はなんとなくの理解だったところがあったんだなあ、と思ったところがありました。

f(^^;)

では~♪

(^O^)/

標本としての正規分布・標準正規分布と、標本分布としての正規分布・標準正規分布~頭が整理できたですじゃ!~【備忘録】

昔、統計検定2級に合格したんですが、だいぶ忘れてます。統計学入門的な内容から勉強し直してます。

自分、正規分布に従うのは確率変数なのか標本平均なのか、ちょっと頭がごちゃごちゃしていましたが、複数の書籍のお陰により、この度、頭がスッキリとしました~!

\(^o^)/

備忘録として記載しておきたいと思います!

(^^)(^^)(^^)

 

解決に当たってお世話になった書籍を2つご紹介しますね~!

 ↓↓↓

 

紹介書籍①:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一 (2011年) 『入門 統計学 -検定から多変量解析・実験計画法まで-』 株式会社オーム社

 

紹介書籍②:

【リンク】⇒Amazon/通販/商品紹介ページ;日本統計学会(編)(2015年) 『改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎』 東京図書株式会社

 

↓↓↓

 

頭がスッキリした内容をまとめる前に、記号・数式の表記ルールについて別途まとめている記事のリンクを貼っておきますね。

↓ www.my-iroiro-my-tsurezure.jp

 

さて、自分が頭がスッキリした内容をざっくりと表題にすると、

 

標本としての正規分布・標準正規分布と、標本分布としての正規分布・標準正規分布がある!

 

ということです。

 

標本としての正規分布・標準正規分布

 

を下にまとめます。とある標本については、以下のようになります。

 

標本分布としての正規分布・標本正規分布



 

標本としての正規分布

 

標本としての標準正規分布

 

因みに、

「母集団」・・・調べたい対象のこと

「母平均」・・・「母集団」の平均

「母分散」・・・「母集団」の分散

「母標準偏差・・・「母集団」の標準偏差

「標本」・・・「母集団」を調べるためにランダムに取り出した検査対象・調査対象のこと

です。

 

次に、

 

標本分布としての正規分布・標準正規分布

 

を下にまとめます。「標本分布としての正規分布・標準正規分布」とは、つまり、「複数ある標本それぞれの標本平均が分布している分布としての正規分布・標準正規分布」ということです。

 

標本


標本

 

【↓↓↓下の内容は教科書で確認できてない私の予想や疑問です。確認でき次第、記事を更新します】 

 

上述の内容は、「母分散が既知の場合」ですが、「母分散が未知で標本の大きさnが大きい場合」と「母分散が未知で標本の大きさnが小さい場合」ではちょっと異なります。

 

「母分散が未知で標本の大きさnが大きい場合」の「標本数の分ある標本平均の分布の分散」は「標本誤差分散」 f:id:one_of_ippanpeople:20210220101728p:plain といい、標本の大きさnの「標本分散」が f:id:one_of_ippanpeople:20210220101504p:plain とすると、

f:id:one_of_ippanpeople:20210220102056p:plain

となる。標本平均 f:id:one_of_ippanpeople:20210220102307p:plain は正規分布 f:id:one_of_ippanpeople:20210220102505p:plain に従い、そのほかは上述の「母分散が既知の場合」の内容に準ずるのだと思います。

 

「母分散が未知で標本の大きさnが小さい場合」の「標本数の分ある標本平均の分布の分散」は「不偏誤差分散」 f:id:one_of_ippanpeople:20210220101728p:plain といい、標本の大きさnの「標本分散」を f:id:one_of_ippanpeople:20210220101504p:plain 、「不偏分散」を f:id:one_of_ippanpeople:20210220142053p:plain とすると、

f:id:one_of_ippanpeople:20210220142853p:plain

となる。標本平均 f:id:one_of_ippanpeople:20210220102307p:plain は正規分布 f:id:one_of_ippanpeople:20210220142922p:plain に従う?それとも、t分布に従うの?ここはまだ確認できていません。

 

【↑↑↑ここまでの内容は書籍で確認できてない私の予想や疑問です。確認でき次第、記事を更新します】

  標本分布としての正規分布

 

標本分布としての標本正規分布

  

因みに、

「標本サイズ」・・・とある「標本」の大きさ(いわゆるn数)

「標本平均」・・・とある「標本」の平均(検査・調査における観測値。「標本サイズ」が大きい「標本」の平均は「母平均」の推定値となりうる。)

「標本分散」・・・とある「標本」の分散(検査・調査における観測値。「標本サイズ」が大きい「標本」の分散は「母分散」の推定値となりうる。)

「標本標準偏差・・・とある「標本」の標準偏差(検査・調査における観測値。「標本サイズ」が大きい「標本」の標準偏差は「母標準偏差」の推定値となりうる。)

「不偏平均」・・・「標本サイズ」が小さい「標本」の平均。小さい「標本サイズ」の「標本」から「母平均」を推定した値。だが、平均は「標本サイズ」のばらつきには左右されないので、実質として「標本平均」=「不偏平均」。

「不偏分散」・・・「標本サイズ」が小さい「標本」の分散。小さい「標本サイズ」の「標本」から「母分散」を推定した値。

「不偏標準偏差・・・「標本サイズ」が小さい「標本」の標準偏差。小さい「標本サイズ」の「標本」から「母標準偏差」を推定した値。

標本誤差・・・「標本平均」から「母平均」を推定するときなど、「標本」データを使って「母集団」の統計量を推定するときに発生する誤差

「標本数」・・・「標本」の数

「標本分布」・・・「標本」の全ての関数、又は「標本」の一部の関数として与えられる統計量や、その統計量を用いたものが従う確率分布。カイ二乗分布、t分布、F分布は標本分布。

「標本平均の平均」・・・これは実質的に「標本平均」と同じ値をとなる

「標本誤差分散」・・・「(複数ある)標本平均の分布の分散(n≧30という風に標本サイズが大きい場合の概念)」

「母誤差分散」・・・「(複数ある)標本平均の分散(母分散が既に分かっている場合の概念)」

「誤差分散」・・・「標本誤差分散」や「母誤差分散」のこと。

「標本標準誤差・・・「(複数ある)標本平均の分布の標準偏差(n≧30という風に標本サイズが大きい場合の概念)」

「母標準誤差・・・「(複数ある)標本平均の標準偏差(母分散が既に分かっている場合の概念)」

標準誤差・・・「標本標準誤差」や「母標準誤差」のこと。「標本誤差」の大きさを表すもの

「不偏誤差分散」・・・「(n<30という風に)標本サイズが小さい場合の誤差分散」

「不偏標準誤差・・・「(n<30という風に)標本サイズが小さい場合の標準誤差

という感じです。

 

↓↓↓

私の頭の中がスッキリと整理できたので記事にしてみたのですが、それが伝わる表現となっていますでしょうか?

(・.・;)

書籍で確認できてない青字のところは、確認でき次第、更新したいと思います。

(*^-^*)

あ~、スッキリした!

\(^o^)/

母分散の区間推定~うむ、忘れとる。復習じゃ!~【備忘録】

昔、統計検定2級に受かったのですが、内容をだいぶ忘れてるので、統計学入門的な内容を復習しながら、備忘録として記事にしています。

もしよかったらお立ち寄りください。

 

復習に使った書籍を3つ紹介しておきますね。

↓↓↓

 

紹介書籍①:

【リンク】⇒Amazon/通販/商品紹介ページ;東京大学教養学部統計学教室(編)(1991年) 『統計学 基礎統計学Ⅰ』 一般財団法人東京大学出版会

 

 紹介書籍②:

【リンク】⇒Amazon/通販/商品紹介ページ;日本統計学会(編)(2015年) 『改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎』 東京図書株式会社

 

紹介書籍③:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一・丸山敦史(共著)/ジーグレイプ(制作)(2017年) 『統計学図鑑』 株式会社オーム社

 

↓↓↓

 

今日の復習内容は、

母分散の区間推定

です。数式を復習します。検定試験のときには数式を覚えておいて解いた、という記憶があります。

記号・数式の表記ルールは、別途まとめている記事のリンクを貼っておきたいと思います。

 ↓ www.my-iroiro-my-tsurezure.jp [PR] 今ならPro利用で独自ドメイン無料  

 

では、数式を以下にまとめます。

 

母分散  は、標本分散 f:id:one_of_ippanpeople:20210219234016p:plain や不偏分散 f:id:one_of_ippanpeople:20210219234448p:plain に比例した統計量が自由度 f:id:one_of_ippanpeople:20210219234554p:plain の f:id:one_of_ippanpeople:20210219234749p:plain (カイ二乗分布;chi-square distribution)である f:id:one_of_ippanpeople:20210219235118p:plain に従います。f:id:one_of_ippanpeople:20210219234749p:plain での確率 f:id:one_of_ippanpeople:20210220000646p:plain は上側確率を指しているのだそうです。不偏分散 f:id:one_of_ippanpeople:20210219234448p:plain に比例した統計量とは、

 

f:id:one_of_ippanpeople:20210220005000p:plain

 

です。なので、

 

f:id:one_of_ippanpeople:20210220002113p:plain

f:id:one_of_ippanpeople:20210220002128p:plain

よって、母分散  の信頼係数 f:id:one_of_ippanpeople:20210220002342p:plain の信頼区間

f:id:one_of_ippanpeople:20210220002507p:plain

 

(下のように書くこともあります)

f:id:one_of_ippanpeople:20210220003026p:plain

 

補足事項:

f:id:one_of_ippanpeople:20210219234749p:plain は左右非対称の分布。一方、正規分布やt分布は左右対称の分布。区間推定するときに両側信頼区間(two-sided confidence interval)を推定する場合は、確率  f:id:one_of_ippanpeople:20210220000646p:plain を分布の両裾へ配分するときは f:id:one_of_ippanpeople:20210220003700p:plain ずつ配分します。正規分布やt分布などの左右対称の分布では、同じ信頼係数の信頼区間の中では信頼区間の幅(長さ)はこの配分法で最小となります。しかし、f:id:one_of_ippanpeople:20210219234749p:plain は左右非対称の分布では最小とならないそうです。左右非対称の分布で区間幅(区間の長さ)が最小の区間を求める場合は反復計算が必要となるそうです。

 

↓↓↓

よし!母分散の区間推定についても思い出したぞ!わ~い!

\(^^)/

では~!

('ω')ノ

母比率の区間推定~あれ?母比率の定義を忘れとる!復習じゃ!~【備忘録】

昔、統計検定2級に受かりましたが、「自分、統計検定2級です」と堂々と言えないくらいにいろいろ忘れとる感じです(汗)。統計学入門的な内容をいろいろ復習しながら、備忘録として記事にしていきたいと思います。

以下に、参考にした書籍を4つ紹介しておきますね。

〖2021/2/19 追記;紹介書籍をもう一つ追記しておきます〗

 

↓↓↓

 

紹介書籍①:

【リンク】⇒Amazon/通販/商品紹介ページ;東京大学教養学部統計学教室(編)(1991年) 『統計学 基礎統計学Ⅰ』 一般財団法人東京大学出版会

 

紹介書籍②:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一 (2011年) 『入門 統計学 -検定から多変量解析・実験計画法まで-』 株式会社オーム社

 

紹介書籍③:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一・丸山敦史(共著)/ジーグレイプ(制作)(2017年) 『統計学図鑑』 株式会社オーム社

 

紹介書籍④:

【リンク】⇒Amazon/通販/商品紹介ページ;涌井良幸・涌井貞美(2015年) 『まなびのずかん 統計学の図鑑』 技術評論社

 

〖2021/2/19 追記;紹介書籍をもう一つ追記しておきます

紹介書籍⑤:

【リンク】⇒Amazon/通販/商品紹介ページ;日本統計学会(編)(2015年) 『改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎』 東京図書株式会社

 

↓↓↓

今回の自分の復習内容は、

母比率の区間推定

です。数式を復習します。検定試験の時に数式を覚えておいて解いた、という記憶があります。ただ、「母比率」って、そもそも何だったっけ?というのもあるので、そこらへんも含めて復習しますです。

記号・数式の表記ルールは、別途まとめている記事のリンクを貼っておきたいと思います。

 ↓ 

 

www.my-iroiro-my-tsurezure.jp

 

ではまず、

 

「母比率」の定義

 

から行きたいと思います。前述の各紹介書籍での表現を見てみました。

紹介書籍①によると、「母集団の比率」です。

紹介書籍②によると、「母集団において、ある事象が起こる確率」です。

紹介書籍③には(私が見つけられてないだけかもしれませんが)特に記載はないです。ただ、「標本比率」については記載があり、「ある性質を持つ要素の数を標本の全要素数で割った値」というような感じです。この表現を母集団に当てはめて自分で変換してみると、「ある性質を持つ要素の数を母集団の全要素数で割った値」ということになるんだろうなあ、というところです。この予測は次の紹介書籍④での表現を見ると、当たってそうだなあ、と思います。

紹介書籍④によると、「母集団の中でのある事象の割合」みたいな表現です。また、「ある事象の数を母集団の大きさで割った値」みたいな表現です。こちらでは「標本比率」についても記載があり、「ある事象の数を標本の大きさで割った値」というような表現ですので、先ほどの紹介書籍③での自分の予測は当たってそうです。

 

書籍によって、「母比率」と「標本比率」を表す記号が違っています。

「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain に対して「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain (ピーハット)や f:id:one_of_ippanpeople:20210217084459p:plain (ピーバー)だったり、「母比率」 f:id:one_of_ippanpeople:20210217084536p:plain (大文字のアール、ラージアール)に対して「標本比率」 f:id:one_of_ippanpeople:20210217084609p:plain (小文字のアール、スモールアール)だったりします。

とりあえずこの記事では、「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain に対して「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain (ピーハット)を用いたいと思います。


では、

 

母比率や標本比率の従う分布

 

についてです。前述のどの紹介書籍でも、標本の大きさ・標本サイズであるnが大きいとき、正規分布に基づいて計算しています。nが大きいときというのは、書籍によってn>30だったりn≧100だったりです。

 

母比率や標本比率の従う分布に関しては紹介書籍①がとても参考になりました。

 

まず、前述の正規分布の話を一旦置いておいて、母比率 f:id:one_of_ippanpeople:20210217090718p:plain は二項分布(binomial distribution)に従うのだそうです。

二項分布について簡単にいうと、n回繰り返すベルヌーイ試行において、「求める結果」が出る回数が二項分布の確率変数 f:id:one_of_ippanpeople:20210218000246p:plain をとる分布なのだそうです。ということは、とびとびの値をとるということであり、つまりは確率変数 f:id:one_of_ippanpeople:20210218000246p:plain  は離散型(discrete type)。ということは、二項分布は「散型の確率分布」(p. d. of discrete type ; probability distribution)。

ベルヌーイ試行(Bernoulli trials)について簡単に言うと、二項試行ともいうらしく、とある試行の結果が「求める結果」と「求めない結果」という2種類しかない試行の事だそうです。n回のベルヌーイ試行において、毎回の試行は前回の試行の影響を受けない、つまり毎回の試行は独立であり、毎回の試行で「求める結果」の出るの確率 は f:id:one_of_ippanpeople:20210217090718p:plain であり、「求めない結果」の確率は f:id:one_of_ippanpeople:20210218001626p:plain だそうです。n回繰り返すベルヌーイ試行、つまり二項分布は f:id:one_of_ippanpeople:20210217091121p:plain で表しますが、f:id:one_of_ippanpeople:20210218002005p:plain を特にベルヌーイ分布(Bernoulli distribution)というのだそうです。

二項分布について、確率変数 f:id:one_of_ippanpeople:20210218000246p:plain の確率関数は、
 

f:id:one_of_ippanpeople:20210218005134p:plain, f:id:one_of_ippanpeople:20210218005440p:plain (f:id:one_of_ippanpeople:20210218005546p:plain)

 

ここにおいて、f:id:one_of_ippanpeople:20210218011321p:plain は二項係数というのだそう。二項分布の確率関数は二項定理より、

 

f:id:one_of_ippanpeople:20210218010414p:plain (ただし、f:id:one_of_ippanpeople:20210218010506p:plain)

 

と、全確率が1。(なので確率分布だと分かります。)

二項分布の確率変数 f:id:one_of_ippanpeople:20210218000246p:plain の期待値(平均)は f:id:one_of_ippanpeople:20210217091554p:plain であり、分散は f:id:one_of_ippanpeople:20210217091619p:plain です。

そして、nが大きいとき、という話が出てきます。nが大きいとき、中心極限定理により、離散型確率分布である f:id:one_of_ippanpeople:20210217091121p:plain は、連続型確率分布である正規分布に近似することができる、となるそうです。

中心極限定理(Central limit theorem)の概略を示すと、「和 f:id:one_of_ippanpeople:20210218012640p:plain の確率分布の形は、母集団分布が何であっても、nが大きいときには正規分布に近似できる」というものです。母集団分布の平均(母平均)を f:id:one_of_ippanpeople:20210218012916p:plain 、分散(母分散)を f:id:one_of_ippanpeople:20210218013031p:plain とすると、母集団分布が何であっても、標本の大きさnが大きいとき、「求める結果」が出る回数の和 f:id:one_of_ippanpeople:20210218013447p:plain について、

 

f:id:one_of_ippanpeople:20210218013650p:plain は、正規分布 f:id:one_of_ippanpeople:20210218013932p:plain に従うと考えて良いそうです。

 

因みに、母集団分布の平均(母平均)を f:id:one_of_ippanpeople:20210218012916p:plain 、分散(母分散)を f:id:one_of_ippanpeople:20210218013031p:plain とすると、母集団分布が何であっても、標本の大きさnが大きいとき、確率変数 f:id:one_of_ippanpeople:20210218000246p:plain の平均 f:id:one_of_ippanpeople:20210218014151p:plain について、

f:id:one_of_ippanpeople:20210218014521p:plain は、正規分布 f:id:one_of_ippanpeople:20210218014543p:plain に従うと考えて良いそうです。

 

ここにきて、やっと正規分布の話になりましたね。(ふう(;´・ω・)。ちょっと一息。)

\(゜ロ\)(/ロ゜)/ \(゜ロ\)(/ロ゜)/ \(゜ロ\)(/ロ゜)/

\(^o^)/

二項分布(n回のベルヌーイ試行)における「求める結果」の回数 f:id:one_of_ippanpeople:20210218020238p:plain は、ベルヌーイ試行 f:id:one_of_ippanpeople:20210218002005p:plain に従う確率変数 f:id:one_of_ippanpeople:20210218020211p:plain の和となるので、

 

f:id:one_of_ippanpeople:20210218020338p:plain

 

となります。中心極限定理により、これは標本の大きさnが大きいとき正規分布に従うと考えて良いので、二項分布(n回のベルヌーイ試行)における「求める結果」の回数 f:id:one_of_ippanpeople:20210218020238p:plain  についての正規分布の標準化変数 f:id:one_of_ippanpeople:20210218030449p:plain は、二項分布の確率変数 f:id:one_of_ippanpeople:20210218000246p:plain の期待値(平均)は f:id:one_of_ippanpeople:20210217091554p:plain であり、分散は f:id:one_of_ippanpeople:20210217091619p:plain より、

 

f:id:one_of_ippanpeople:20210218030622p:plain

 

となり、これは標本の大きさnが大きいとき標準正規分布 f:id:one_of_ippanpeople:20210218021450p:plain に近似できます。ここで、n中の f:id:one_of_ippanpeople:20210218020238p:plain  の比率は相対頻度(相対度数)ともいえるし、確率変数  f:id:one_of_ippanpeople:20210218020211p:plain  の平均  f:id:one_of_ippanpeople:20210218014151p:plain にであるともいえるみたいです。これが「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain であり、

 

f:id:one_of_ippanpeople:20210218023107p:plain

 

ということみたいです。よって、二項分布(n回のベルヌーイ試行)における「求める結果」の回数 f:id:one_of_ippanpeople:20210218020238p:plain  についての正規分布の標準化変数 f:id:one_of_ippanpeople:20210218030541p:plain を変形すると、

 

f:id:one_of_ippanpeople:20210218030641p:plain

 

となります。

 

 

ようし!やっと、

 

母比率の区間推定

 

の数式についてになります。

標本の大きさnが大きいとき、「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain  に関する標準化変数 f:id:one_of_ippanpeople:20210218030558p:plain は「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain を用いて

 

f:id:one_of_ippanpeople:20210218030703p:plain

 

となります。この標準化変数  f:id:one_of_ippanpeople:20210218030558p:plain は標準正規分布 f:id:one_of_ippanpeople:20210218021450p:plain に近似的に従うので、

 

f:id:one_of_ippanpeople:20210218030719p:plain

f:id:one_of_ippanpeople:20210218030835p:plain

f:id:one_of_ippanpeople:20210218031050p:plain

f:id:one_of_ippanpeople:20210218031220p:plain

f:id:one_of_ippanpeople:20210218031300p:plain

 

大数の法則(たいすうのほうそく)という「大きな標本で観測された標本平均は母集団の真の平均である母平均とみなしてよい」という法則ですが、この法則により、「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain は「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の一致推定量となるので、nが大きいときは「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain はほとんど「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain に等しいと考えられます。よって、

 

f:id:one_of_ippanpeople:20210218031511p:plain

よって、母比率 f:id:one_of_ippanpeople:20210217084354p:plain  の信頼係数1-αの信頼区間は近似的に、

f:id:one_of_ippanpeople:20210220163624p:plain

 

(下のように書くこともあります)

f:id:one_of_ippanpeople:20210220163642p:plain

 

αとZ値を具体的数値にした例を以下に示します。

 

95%信頼区間ならα=0.5なので  。よって、

f:id:one_of_ippanpeople:20210220163716p:plain

 

90%信頼区間ならα=0.1なので  。よって、

f:id:one_of_ippanpeople:20210220163733p:plain

 

以上の方法は、標本の大きさnが大きいときの「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の区間推定です。これはWaldというアメリカの統計学者の方が考案したものだそうです。

標本の大きさnが小さいときの「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の区間推定については、AgrestiとCoullという統計学者が考案した数式があるそうで、前述の紹介書籍②及び③にちょっとだけ記載がありましたが、割愛させていただきますね。  

 

〖2021/2/19 追記;本記事では、「求める結果」が出る回数である確率変数 f:id:one_of_ippanpeople:20210219224717p:plain は二項分布に従い、nが大きいときには中心極限定理により、確率変数の平均  f:id:one_of_ippanpeople:20210218014151p:plain に当たる「標本比率」 f:id:one_of_ippanpeople:20210217084427p:plain である

 f:id:one_of_ippanpeople:20210218023107p:plain 

を用いた標準化変数 f:id:one_of_ippanpeople:20210218030541p:plain である

 f:id:one_of_ippanpeople:20210218030703p:plain

が近似的に正規分布に従い、「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の区間推定の数式をそこから導く記事を記載しました。

紹介書籍⑤では、「(要約):有限母集団において、母集団の大きさNが小さいときの非復元抽出の場合、「求める結果」が出る回数である確率変数 f:id:one_of_ippanpeople:20210219224717p:plain は超幾何分布に従う。Nがある程度大きければ、「求める結果」が出る回数である確率変数 f:id:one_of_ippanpeople:20210219224717p:plain は二項分布に従う。」とあります。そしてそこから標本の大きさnが大きいときに、中心極限定理により・・・と本記事の内容の話と同様に「母比率」 f:id:one_of_ippanpeople:20210217084354p:plain の区間推定の数式の事が記載されていました。さらに、有限母集団と無限母集団の違いについて少し記載されていました~。おお~!\(^^)/〗

 

↓↓↓

 

区間推定の数式はなんとく覚えてましたが、これを導く過程については記事を書くことによって理解できたような気がします。わ~い!

(*^-^*)

では~!

(^O^)/

「母分散未知の小標本」⇒母平均の区間推定~自分の復習のために~【備忘録】

昔、統計検定2級に合格しましたが、あれからずいぶん時間が経ってしまって忘れがちです(汗)。統計学入門的内容の復習として、また、備忘録として記事にしたいと思います!

参考とした書籍を2つ下にご紹介しておきます。

↓↓↓

 

紹介書籍①:

【リンク】⇒Amazon/通販/商品紹介ページ;東京大学教養学部統計学教室(編)(1991年) 『統計学 基礎統計学Ⅰ』 一般財団法人東京大学出版会

 

紹介書籍②:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一 (2011年) 『入門 統計学 -検定から多変量解析・実験計画法まで-』 株式会社オーム社

 

↓↓↓

今日の復習内容は、

 

「母分散未知の小標本」での母平均の区間推定

 

です。数式を復習します。検定試験の時に数式を覚えておいて解いた、という記憶があります。

記号・数式の表記ルールは、別途まとめている記事のリンクを貼っておきたいと思います。

 ↓ 

 

www.my-iroiro-my-tsurezure.jp

 

 標本の大きさ・標本サイズであるnが小さいとき、つまり小標本のときというのは、書籍によって≦30だったりn<100だったりです。

 

では数式を以下にまとめます。

 

母分散 f:id:one_of_ippanpeople:20210216045422p:plain が未知で小標本の時は、標本分散 f:id:one_of_ippanpeople:20210216045608p:plain を不偏分散とするので、

f:id:one_of_ippanpeople:20210216051247p:plain

この時、スチューデントのt統計量である

f:id:one_of_ippanpeople:20210216051259p:plain

は、自由度(n-1)のt分布である f:id:one_of_ippanpeople:20210216050817p:plain に従う。よって、

f:id:one_of_ippanpeople:20210216053402p:plain

f:id:one_of_ippanpeople:20210216053415p:plain

f:id:one_of_ippanpeople:20210216053428p:plain

f:id:one_of_ippanpeople:20210216053440p:plain

よって、母平均μの信頼係数1-αの信頼区間は、

f:id:one_of_ippanpeople:20210216053535p:plain

 

(下のように書くこともあります)

f:id:one_of_ippanpeople:20210216053633p:plain

 

母分散 f:id:one_of_ippanpeople:20210216045422p:plain が未知の時は、標本分散 f:id:one_of_ippanpeople:20210216045608p:plain を不偏分散と f:id:one_of_ippanpeople:20210216054447p:plain を用いるけど、nが大きいとき時は、

f:id:one_of_ippanpeople:20210216054807p:plain

としてもよい。

 

↓↓↓

フムフム。そうだったなあ、という感想です。

(´・ω・)

では~!

('◇')ゞ

( ↑ 余談ですが、敬礼は本当は右手でするものらしいですね。あんま良くわからないけど、細かいことは気にせずに使っている顔文字ですf(^^;))

「母分散既知」or「母分散未知の大標本」⇒母平均の区間推定~自分、復習しとかなくては(汗)~【備忘録】

統計検定2級に合格はしましたけど、あれからずいぶん時間が経ってしまって忘れがちなのです(汗)。統計学入門的内容を復習がてら備忘録として記事にしたいと思います!

参考とした書籍2つを下にご紹介しておきます。

↓↓↓

 

紹介書籍①:

【リンク】⇒Amazon/通販/商品紹介ページ;東京大学教養学部統計学教室(編)(1991年) 『統計学 基礎統計学Ⅰ』 一般財団法人東京大学出版会

 

紹介書籍②:

【リンク】⇒Amazon/通販/商品紹介ページ;栗原伸一 (2011年) 『入門 統計学 -検定から多変量解析・実験計画法まで-』 株式会社オーム社

 

↓↓↓

今日の復習内容は、

 

「母分散既知」or「母分散未知の大標本」での

母平均の区間推定

 

です。数式を復習します。検定試験の時に数式を覚えておいて解いた、という記憶があります。

記号・数式の表記ルールは、別途まとめている記事のリンクを貼っておきたいと思います。

 ↓ 

www.my-iroiro-my-tsurezure.jp

 

 母分散が既知のときは正規分布に基づいて計算します。

標本の大きさ・標本サイズであるnが大きいとき、つまり大標本のときは、近似的に正規分布に基づいて計算することができます。nが大きいときというのは、書籍によってn>30だったりn≧100だったりです。

 

 では、数式を以下にまとめます。

 標本平均 標本平均 は正規分布  に従う。

標準化すると、


Z値は標準正規分布  に従う。よって、

 

f:id:one_of_ippanpeople:20210216053114p:plain

f:id:one_of_ippanpeople:20210216053127p:plain

f:id:one_of_ippanpeople:20210216053140p:plain

よって、母平均μの信頼係数1-αの信頼区間は、

f:id:one_of_ippanpeople:20210216053156p:plain

 

(下のように書くこともあります)

f:id:one_of_ippanpeople:20210216053222p:plain

 

  αとZ値を具体的数値にした例を以下に示します。

 

95%信頼区間ならα=0.5なので  。よって、

 

90%信頼区間ならα=0.1なので  。よって、

 

↓↓↓

 こんな感じだったなあ、と思い出しました。自分にとってはまとめて良かったです!

(*^^)v

 では~!

(*^-^*) 

記号・数式の表記ルール~自分の復習のためにまとめます~【備忘録】

昔、統計検定2級に合格したんですが、だいぶ忘れてます。統計学入門的な内容から勉強し直してます。

備忘録として、記号・数式の表記ルールをまとめておこうと思います。

こちらの記事は、気が付いたものを随時加筆訂正していこうと思います。

 

参考とした書籍を下にご紹介しておきます。

↓↓↓

 

紹介書籍①:

【リンク】⇒Amazon/通販/商品紹介ページ;東京大学教養学部統計学教室(編)(1991年) 『統計学 基礎統計学Ⅰ』 一般財団法人東京大学出版会

 

紹介書籍②:

【リンク】⇒Amazon/通販/商品紹介ページ;日本統計学会(編)(2015年) 『改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎』 東京図書株式会社

 

↓↓↓

 

確率変数 標本 標本平均

 

(確率変数とは、事象において取りうる各値に対し、それぞれ確率が与えられている変数のこと。)

 

  

正規分布と分布に従う記号



↓↓↓

では~!

(*^-^*)

 

 

本ブログ中で商品の紹介をする場合は広告として記載することにしました