カイ2乗分布について

35
カイ2乗分布について 西尾泰和 1 13118日金曜日

Upload: nishio

Post on 28-Jun-2015

1.006 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: カイ2乗分布について

カイ2乗分布について西尾泰和

113年11月8日金曜日

Page 2: カイ2乗分布について

• Pearson(1900) “X. On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of arisen from Random Sampling”

• Fisher(1924) “ON A DISTRIBUTION YIELDING THE ERROR FUNCTION OF SEVERAL WELL KNOWN STATISTICS”

• PSU(2013): https://onlinecourses.science.psu.edu/stat414/node/154

• MIT(2008): http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-436j-fundamentals-of-probability-fall-2008/lecture-notes/MIT6_436JF08_lec14.pdf

 

参考文献

  

213年11月8日金曜日

Page 3: カイ2乗分布について

• カイ2乗分布の「自由度」とか「正規分布の2乗の和がカイ2乗分布になる」とかがスッキリしないので論文を読んでみよう

• Fisher(1924)を紹介

• Pearson(1900)を紹介

• 「正規分布の2乗の和がカイ2乗分布」を証明する

 

今日の流れ

  

313年11月8日金曜日

Page 4: カイ2乗分布について

• まずFisher(1924)の内容:

• 最近明らかになった事実の多くがchisq, z, tというsingle family of distributionに関係している*

• これらの分布の関係について整理してみよう

 

 

Fisher(1924), * chisqはカイ2乗のこと、入力しにくいので置き換えた 

413年11月8日金曜日

Page 5: カイ2乗分布について

• error functionを実験誤差と関連付けて考えがち

• だけどそれって• 複数の観測値の組み合わせ• 間接的にしかerror functionと関連してない

• 複数の観測から得られた統計値

 

 

Fisher(1924) p.494 

513年11月8日金曜日

Page 6: カイ2乗分布について

• 多くの統計量はデータが多くなれば正規分布に近づく傾向がある。しかしいくつかの重要な統計量は正規分布に近づかない

• それ以外でも通常入手可能な小さいサンプル数ではfar from normalだ

 

 

Fisher(1924) p.494 

613年11月8日金曜日

Page 7: カイ2乗分布について

• その状況で有意性の検定をするのはinadequateでありmay be very misleading

• test of significanceだけじゃなくtest of goodnes of fitが大事!

 

 

Fisher(1924) p.494 

713年11月8日金曜日

Page 8: カイ2乗分布について

• 1900年 ピアソンがカイ2乗 test of goodness を考案

• このchisqの分布は正規分布ではない

• mの具体的な値とは無関係

• n’つまりクラスの個数がパラメータになる(2以上)

• 数表は2~で作られた

 

 

Fisher(1924) p.495 

813年11月8日金曜日

Page 9: カイ2乗分布について

• Pearsonは小さい値の項を無視した

• しかし実際にはこの項はdo not tend to zero

• not small at all

• 結果として、Pearson以降の25年間に作られた検定の大部分は修正が必要だ

• 「な、なんだってー!」

 

 

Fisher(1924) p.495 

913年11月8日金曜日

Page 10: カイ2乗分布について

• ラッキーなことにPearsonの式は再利用できる

• ただし、n’を読み替える: 「自由度+1」に。not as the number of frequency classes,but as one more than the number of degree of freedom

• r行c列の分割表ならn’ = cr ! (n’ - 1) = (c - 1)(r - 1)

 

 

Fisher(1924) p.495 

1013年11月8日金曜日

Page 11: カイ2乗分布について

•n = n’ - 1 をパラメータに使うほうが便利

• 表が2からじゃなくて1から始まるようになるし

• n個の標準正規分布からのサンプルを2乗して足したものがchisq(n)に従うし

• chisq(n)の平均がnになるし。

 

 

Fisher(1924) p.495 

1113年11月8日金曜日

Page 12: カイ2乗分布について

• ここまでがFisher(1924)の主張

• 本当は「Pearsonは間違っている」と指摘した論文を読みたかったが、どれかわからなかった

• ここからPearson(1900)の話

 

 

  

1213年11月8日金曜日

Page 13: カイ2乗分布について

• この論文の目的: investigate a criterion of the

probability on any theory of an observed system of errors, and to apply it to the determination of goodness of fit in the case of frequency curves.

 

 

Pearson(1900) 

1313年11月8日金曜日

Page 14: カイ2乗分布について

 

 

Pearson(1900) 

1413年11月8日金曜日

Page 15: カイ2乗分布について

 

 

Pearson(1900) 

1513年11月8日金曜日

Page 16: カイ2乗分布について

 

 

Pearson(1900) 

確率を求めたい

極座標に変換して

部分ごとに積分すると…

1613年11月8日金曜日

Page 17: カイ2乗分布について

 

 

Pearson(1900) 

1713年11月8日金曜日

Page 18: カイ2乗分布について

 

 

Pearson(1900) 

結論nが奇数のとき

nが偶数のとき

nが適度に大きければどちらでも大差ない

1813年11月8日金曜日

Page 19: カイ2乗分布について

• よくわからないし、間違っているらしいし深追いは避けておこう…

 

 

  

1913年11月8日金曜日

Page 20: カイ2乗分布について

• 懸案の「正規分布に従う確率変数Xを2乗すると それはカイ2乗分布に従う」を証明しよう

 

 

  

2013年11月8日金曜日

Page 21: カイ2乗分布について

•X~N(0, 1)のときX^2~chisq(1)を示したい

•流れ:•N(0, 1)のPDFからX^2のCDFを求める

•微分してX^2のPDFを求める•chisq(1)であることを確認する

 

 

PSU(2013) 

2113年11月8日金曜日

Page 22: カイ2乗分布について

 

 

  

2213年11月8日金曜日

Page 23: カイ2乗分布について

•一般の場合を証明したい•Z^2~chisq(k)でX^2~chisq(1)であるときZ^2+X^2~chisq(k+1)を証明すればよい

 

 

  

2313年11月8日金曜日

Page 24: カイ2乗分布について

 

 

積分の方法がわからない… 

2413年11月8日金曜日

Page 25: カイ2乗分布について

 

 

http://ja.wikipedia.org/wiki/%E8%B6%85%E5%B9%BE%E4%BD%95%E7%B4%9A%E6%95%B0

超幾何関数が出てきた!→この方針はやめよう

2513年11月8日金曜日

Page 26: カイ2乗分布について

•以下の3点を仮定すれば簡単に証明できる•1: Moment Generating Function(MGF)が決まれば確率分布は一意に決まる

•2: 独立した確率分布の和のMGFは、それぞれのMGFの積

•3: chisq(k)のMGFは(1 - 2t)^(-k/2)

 

 

  

2613年11月8日金曜日

Page 27: カイ2乗分布について

•chisq(k)のMGFは(1 - 2t) ^ (-k/2)

•chisq(1)のMGFは(1 - 2t) ^ (-1/2)

•chisq(1)に従う確率変数をk個足すとMGFは(1 - 2t) ^ (-1/2)をk回掛けたもの、つまり(1 - 2t) ^ (-k/2)になる

•これはchisq(k)のMGFである

 

 

  

2713年11月8日金曜日

Page 28: カイ2乗分布について

• MGFの定義

ラプラス変換との関連性…

 

 

MIT(2008) 

2813年11月8日金曜日

Page 29: カイ2乗分布について

 

補足(光成さんの指摘)

MIT(2008) 

これがMoment Generating Functionと呼ばれる理由

2913年11月8日金曜日

Page 30: カイ2乗分布について

• Inversion theorem(先ほどの1に相当)

 

 

MIT(2008) 

Its proof is omitted... 僕もomitします!

3013年11月8日金曜日

Page 31: カイ2乗分布について

•「 2: 独立した確率分布の和のMGFは、それぞれのMGFの積」を証明する

 

 

MIT(2008) 

3113年11月8日金曜日

Page 32: カイ2乗分布について

 

 

  

3213年11月8日金曜日

Page 33: カイ2乗分布について

•「3: chisq(k)のMGFは(1 - 2t)^(-k/2)」を証明する

 

 

  

3313年11月8日金曜日

Page 34: カイ2乗分布について

 

 

  

3413年11月8日金曜日

Page 35: カイ2乗分布について

•まとめ•証明できた。

 

 

  

3513年11月8日金曜日