mantiq contents - 確率統計学mantiq.fish-u.ac.jp/ak/st/st.pdf · 2020. 4. 21. · 1.2.2...

確率統計学2021年

1

第1章基本的な統計処理

1.1 統計における基本的な概念

1.1.1 統計データとその表現

統計で扱うデータを一般にどう表現するかを示しておく。

統計で扱うデータは、例えばある集団の個々の身長値、体重値などである。

身長体重

1 168 75

2 170 65

3 156 50...

......

こういったデータを一般化した書き方として以下では

x y

1 x1 y1

2 x2 y2

3 x3 y3...

......

といった書き方をする。xのようにいろいろなデータ値をとる変数を統計変量と呼ぶ。こういった

データは数値の集まりであるので量的データを呼ぶことにしよう。

統計で扱うデータの中には、数値で表されないものもある。例えば以下のようなアンケートデー

タである。(問１は男女の別を、問２はメールの使用の有無を問うものである。)

問１問２

男女使用少し不使用

1 1 0 1 0 0

2 1 0 0 1 0

3 0 1 0 0 1...

......

......

...

こうしたデータは質的データとでも呼び得るものである。以下では主に量的データを扱う。

統計データを表現するにはデータ値の範囲をいくつかに分けて各範囲にいくつのデータがあるか

を示すとどの範囲にどのぐらいのデータが分布しているのかが分かりやすい。このようにデータを

集計したものを頻度分布表といい、各データ範囲を階級という。また頻度分布表を棒グラフなどに

グラフ表示したものをヒストグラムという。

2

度数分布表を作成する際には、データの散らばり方を上手く表すように階級の幅 h（通常は一定）

と階級の個数 kを決める必要がある。一般に、k =

⌈maxxi −minxi

h

⌉という関係があるので、h

か kのどちらかを決めればよいことになる。これには決まった方法はないが、次のようなものを目

安とするとよい。データの総数を nとする。k = ⌈log2 n+ 1⌉h = 3.5s

n13

s:標準偏差（後述）

h =IQR(xi)

n13

IQR:四分位範囲（後述）

1.1.2 基本的な統計量

量的データに対する基本的な概念を導入する。

代表値

様々に散らばっているデータを一つの値を使って表現するものが代表値である。平均値が使用さ

れることが多いが、中央値（メディアン）や最頻値（モード）なども使用されることがある。

平均値には、一般的に使われる算術平均 (average,mean)

x =1

n

n∑i=1

xi

以外にも、幾何平均 n

√√√√ n∏i=1

xi や調和平均n

n∑i=1

1

xi

などがある。

中央値は、データを大きさの順に並べたとき、データ総数 nが奇数のときは (n + 1)/2番目の

値、nが偶数のときは n/2番目と n/2 + 1番目の値の平均の値である。

最頻値は度数分布表を作成したときの最大度数階級の代表値（中央値など）である。

例 1.1.1 データが、

1 2 2 3 4 6

のとき、平均は1 + 2 + 2 + 3 + 4 + 6

6= 3、中央値は

2 + 3

2= 2.5、最頻値は 2となる。

ちらばり（散布）度

データのちらばり度合いを表す指標として、範囲（最大値、最小値）、分散・標準偏差、四分位

偏差などがある。順に見ていくこととしよう。

まず、データの存在する範囲を求めることがちらばっている状態の把握の第一段階であろう。デー

タの中の最大の値をmaxi

xi、最小値をmini

xi と表すこととする。

次に、各データが平均からどれだけ離れているかを集めたもの

s2x =1

n

n∑i=1

(xi − x)2

を xの分散 (variance)という。２乗していることが重要で、そのまま差の総和をとると 0になって

しまう。（要確認）２乗する代わりに絶対値とした

3

1

n

n∑i=1

|xi − x|

を平均偏差と呼ぶ。

平均値との離れ具合 (常に正)の平均だから、データ全体の散らばり具合を示す指標となるので

ある。

sx =

√√√√ 1

n

n∑i=1

(xi − x)2

を xの標準偏差という。標準偏差は分散のルートをとったものであるから、分散が平均からの距離

の２乗をしている分を相殺してデータの元のスケールに戻したもであると言える。

標準偏差は以下のような性格づけもできる。

定理 1.1.1 (チェビシュフの不等式) λ > 1なる任意の λに対し、

|xi − x| ≥ λsx

なる xi の個数は nλ2 以下である。

この不等式の意味は、平均値から λsx以上離れるデータは高々 nλ2 であるというのである。だか

ら標準偏差が小さい程データが平均値の周りに集まっていることになる。

(証明) |xi − x| > λsx なる xi の個数をmとすると、

ns2x =

n∑i=1

(xi − x)2 ≥∑

|xi−x|≥λsx

(xi − x)2 ≥ mλ2s2x

より明らかである。

練習問題 1.1.1 x, yを統計変量、a, bを定数とするとき、y = ax+bとおくと、y = ax+b, s2y =

a2s2x となることを示せ。

解 y = ax+ bを示す。

y =1

n

n∑i=1

axi + b

=1

n

n∑i=1

axi +1

n

n∑i=1

b

= ax+ b

s2y = a2s2x を示す。

s2y =1

n

n∑i=1

(yi − y)2

=1

n

n∑i=1

(axi + b− ax− b)2

=1

n

n∑i=1

a2(xi − x)2

= a2s2x

4

データを大きさの順に並べたときに順位がちょうど真ん中の点がメディアンであったが、メディア

ンの値より小さい値だけを考えてそれらのデータの中央値を第１四分位点 (Q1)、またメディアンの

値より大きい値の中の中央値を第３四分位点 (Q3)という。四分位範囲 (IQR: Interquartile Range)

は、Q3－ Q1 で表され、四分位偏差はその半分Q3－ Q1

2 のことをいう。極端に大きかったり小さ

かったりする値（外れ値）をデータから除外して考えることがあるが、その目安として四分位範囲

の 1.5倍、つまり [Q1－ 1.5 ∗ IQR,Q3 + 1.5 ∗ IQR]の範囲にないものを外れ値とするのである。

この目安は標準的なものではなく分布によって考慮する必要がある。

標準得点と偏差値

xの平均を x、標準偏差を sx とするとき

z =x− x

s

を xの標準化という。単位が分母分子でキャンセルされ、

z = 0, sz = 1

となる。

SS = 10z + 50

を偏差値という。

SS = 50, SSS = 10

となる。これら z, SSはデータ全体の中での各データの相対的な位置を示すもので、異なるデータ

間での相対位置の比較が可能となる。

1.2 相関関係：対になった２変量の関係

1.2.1 散布図と２変量の相関

集団の個々人の身長と体重のようにペアとなる２変量を座標平面上の点として表した図を散布図

という。

２変量のデータを表す点が一直線上に集まる程２変量の相関が強いという。ただし、どちらかの

変量の分散がゼロの場合を除く。

1. ２変量には正の相関がある場合 (例：身長と体重)

2. ２変量には負の相関がある場合 (例：入荷量と価格)

3. ２変量には相関はない場合

これらの関係を量的に表す統計量を定義する。

5

1.2.2 共分散

sxy =1

n

n∑i=1

(xi − x)(yi − y)

を x, yの共分散 (covariance)という。pi = (xi − x)(yi − y)とおくとき、

1. ２変量の片方が大きいとき (小さい)他方も大きい (小さい)傾向が強い程、多くの piは大き

い正の値。下図は平均値 (x, y)を中心に散布図座標系を見た図であるが、下図でいうと、A

が pi が最も大きい正の値になる部分で、Bが少し大きい正の値となる部分である。

(x,y)x

y

B

B

B

A

AB

2. 片方が大きい (小さい)とき片方は小さい (大きい)傾向が強い程、多くの piは絶対値の大き

い負の値。下図でいうと、Aが piが最も絶対値の大きい負の値になる部分で、Bが少し絶対

値の大きい負の値となる部分である。

(x,y)x

y

B

B

B

A

AB

3. 上２つの場合が混在しているとき、上２つの pi が混在している

共分散は pi の平均であるから、

1. ２変量に正の相関が強い程、sxy は大きい正の値

2. ２変量に負の相関が強い程、sxy は絶対値の大きい負の値

3. ２変量の相関が弱い程、sxy は０に近い値

6

しかし、共分散はデータのスケールに依存する。共分散がどのぐらい大きいと正の相関が高いのか

を一般的に判断することはできない。例えば、共分散が５といってもどのぐらい強い正の相関かは

わからない。また、共分散はデータ点が集まる直線の傾きの絶対値が１に近い程大きくなるので、

単に直線に集まる傾向 (相関)を忠実に表現しているとはいえない。

1.2.3 相関係数

r =sxysxsy

を x, yの相関係数 (correlation coefficient)という。これは共分散を２変量の標準偏差で割り、２変

量に固有のスケールの影響を取り去ったものといえる。実際つぎがいえる。

|r| ≤ 1

また、|r| = 1のときは、すべてのデータ点は直線上に並ぶ。

証明：まず共分散は各データの平均値からの差だけが問題だから、データ全体を平行移動しても変

わらない。よって平均は０とする。またデータ数は３とする（一般の場合も同様）。そこで、

x a b c

y d e f

として、x = y = 0としても相関係数は変わらないからこう仮定する。

r2 =(ad+ be+ cf)2

(a2 + b2 + c2)(d2 + e2 + f2)≤ 1

をいえばよい。この不等式を整理すると、

(ae− bd)2 + (bf − ce)2 + (cd− af)2 ≥ 0

となるから、成立している。また、この不等式が等式として成り立つときは、

d

a=

e

b=

f

c

で、このときはデータ点はすべて (原点を通る)直線上に並ぶ。ここで、a = 0であれば、

d = 0 or b = c = 0

であるので、(a, d)が原点か、データ点が y軸上に並ぶかである。

”相関”という言葉は統計と離れて一般的にも解釈し得るが一般的な”相互に関係がある”という

意味に取り違えてはならない。２変量の間になんらかの強い関係があっても相関が高いとは限らな

い。たとえば散布図に放物線が当てはまりそうな場合は相関係数はむしろ０に近くなるであろう

(あるいは正の相関の部分と負の相関の部分に分けられる)。相関関係はあくまで２変量の直線的な

関係の度合 (散布図に直線が当てはまりそうな度合)を測るものである。

次節の最小２乗直線によって相関における直線的関係の意味がいよいよはっきりするであろう。

7

1.3 最小２乗法

1.3.1 最小２乗曲線

ここでいう曲線とは、直線もその特別な場合として含むものとする。

ある変量 x, yのデータ (x1, y1), . . . , (xn, yn)に対し、yの xへの従属関係をある数式 y = f(x)で

近似的に表したいとする。このとき xを説明変量、yを目的変量という。数式 f(x)は以下の方法

（最小２乗法）で決定することができる。

1. 数式の形 f(x)を決める：例　 f(x) = a+ bx, f(x) = axb, f(x) = a+ bx+ cx2 など

2. 数式のパラメータ（b0, . . . , bp、上の例では a, bあるいは a, b, c）を決めるために以下の基準

を設ける。

基準：以下の値 S を最小にするようなパラメータを選ぶ：

S =

n∑i=1

(yi − f(xi))2

Sを偏差２乗和という。Sの図形的な意味は、データの各点から y = f(x)のグラフまでの y

軸方向にはかった距離の 2乗の和である。よってこれが最小ならばある意味で y = f(x)が最

もデータにフィットする曲線といえるわけである。下図は y = f(x)が直線の場合を図示した

ものである。

x

y

y=f(x)

3. 上の基準でパラメータ b0, . . . , bp を求めるには、

∂S

∂bi= 0 (i = 0, . . . , p)

の方程式を解くなどの方法がある。この方程式の解はパラメータの関数 Sが極値をとる候補

点である。一般にこれらの点において実際に極小値をとるか、また極小値が最小値を与える

かを調べるのは難しい問題である。以下の線形の場合の説明を参照のこと。

f(x)が一次式（上の例の最初の形）のときは、求められた数式を単回帰式という。f(x)が指数

関数のときを指数回帰、その他の非線形式 (非１次式のこと)のときをまとめて非線形回帰ともい

う。「回帰 (regression)」という言葉の由来は、父親の身長と息子の身長の間には直線的関係がある

ほかに、「身長の高い父親を持つ息子たちの身長は親程高くなく、身長の低い父親を持つ息子たち

の身長は親程低くないという傾向」があったことから、「息子たちの身長が平均に回帰する」とい

う意味で用いられたことによる。

8

同じ１次式を考えるのでも説明変量が複数個の場合も考えられる。すなわち変量 (x1, . . . , xp, y)

のデータ (x11, . . . , xp1, y1), . . . , (xn1, . . . , xpn, yn)があって、yの x1, . . . , xnへの従属関係を１次式

y = b0 + b1x1 + · · ·+ bpxp で近似する場合である。上と同様に

S =

n∑i=1

yi − (b0 + b1x1i + . . .+ bpxpi)

を最小にする係数 b0, b1, . . . , bp を求めるために、

∂S

∂bi= 0 (i = 0, . . . , p) (1)

を考えることができる。

この (1)を満たす b0, . . . , bpからなる b0 + b1x1 + · · ·+ bpxpを重回帰式という。p = 1の場合が

単回帰である。

f(x1, . . . , xp)が１次式の場合は最も式として扱いやすい。実際上の (1)の方程式はパラメータ

b0, . . . , bpに関する連立一次方程式 (正規方程式という)に帰着することが示され、正規方程式は解

を持ちこの解は偏差 2乗和の最小値を実際に与えることも示される。「重回帰分析、正規方程式と

その解」の項で重回帰の場合を証明している。

「重回帰分析、正規方程式とその解」の項の方法で求めた単回帰式は、以下のようになる。

y − y = rsysx

(x− x)

この式で表される回帰直線こそが、x, yの相関 (直線的な関係)を表すものである (「R２乗値 (決

定係数)の項」を参照)。

1.3.2 R２乗値（決定係数）

次の式は、回帰式による推定誤差（２項目の分子）がデータの全変動（２項目の分母）に占める

割合いの低さを表すものである。

R2 = 1−

n∑i=1

(yi − f(xi))2

n∑i=1

(yi − y)2

これをもって、近似曲線 y = f(x)のデータに対する当てはまりの良さを表すことができる。これ

を決定係数と呼ぶ。

f が一次式の場合、上の式は、 {n∑

i=1

(xi − x)(yi − y)

}2

n∑i=1

(xi − x)2n∑

i=1

(yi − y)2

と変形され相関係数の２乗に等しいことが示されるので、決定係数を R2乗値とも呼ぶ。

上の変形を示すには、前の節で挙げた回帰直線の式

y − y = rsysx

(x− x)

9

を決定係数の式に代入して展開すればよい (演習とする)。

単回帰の場合、決定係数が大きい程回帰直線の当てはまりがよく相関が高い。すなわち回帰直線

こそが、x, yの相関 (直線的な関係)を表すものである。

とくに、相関係数が±1であるときにデータ点は一直線上にあることは前に見たが、このとき２

乗誤差は 0であるからデータ点はすべて回帰直線上にのっている。つまり相関最大のときの直線関

係は回帰直線そのものなのである。

例 1.3.1 カタクチデータ分析（BW = f(SL)）のR２乗値：0.978（線形回帰）、0.982（累乗回帰）

どちらの R２乗値も高いので、他に情報がなければより単純な線形回帰式を選ぶことも考えら

れるが BWと SLの関係の場合、BW = aSLbの式が適切である理由がある（後方補外が原点と交

わること、SLと BWの次元の違い）。このように、モデルの選択は統計分析だけでは決まらない

こともある。

重回帰の場合も R２乗値（重決定係数）は上と同様に

R2 = 1−

n∑i=1

(yi − f(x1i, . . . , xpi))2

n∑i=1

(yi − y)2

で定義され、その平方根は重相関係数と呼ばれる。重相関係数は、説明変量 yのデータ値 yi と推

定値 f(x1, . . . , xp)の相関係数に等しい。

重回帰については、後に詳述する。

10

第2章確率分布

2.1 離散型確率分布

2.1.1 試行と確率

サイコロを投げる、コインを投げるなどの試行に対し、試行の結果である事象の各々に０から

１までの値を与えたものを確率という。与えられた値を「その事象の（起こる）確率」という。通

常、事象はアルファベット大文字などで表し、その確率を P (A)のように表す。

例 2.1.1 サイコロ投げ

サイコロを投げる試行に対しては、「1の目が出る」、...、「6の目が出る」などの事象が考えら

れる。その各々の確率としては 1/6ずつとすれば各事象の起こりやすさは同じということになる。

確率の値が大きい事象ほど、「起きやすい」事象であるといえる。特に、確率値が１の事象は「必

ず起きる事象」であり、確率値が０の事象は「決して起こりえない事象」であるといえる。

事象 Aと事象 Bが同時には起こりえないとき、事象 Aと事象 Bは排反であるという。事象 A

が起ころうが起こるまいが、事象 Bの起こる確率に影響がないとき、事象 Aと事象 Bは互いに独

立であるという。

• 加法法則：事象 Aと事象 Bは排反なら、P (Aか B が起こる ) = P (A) + P (B)

ちなみに一般の加法法則は、P (AかBが起こる ) = P (A) +P (B)−P (A,Bが共に起こる )

• 乗法法則：事象 Aと事象 Bは互いに独立なら、P (Aと B が共に起こる) = P (A)P (B)

(というかこれが独立性の定義)

ちなみに一般の乗法法則は、P (A,B が起こる ) = P (A)P (B|A)。ここで、P (B|A)は Aが

起こったときの B の起こる確率で条件付き確率である。

例 2.1.2 コイン投げ

事象として、Aを「表が出る事象」、B を「裏が出る事象」とする。A, B は排反であり、かつ

どちらかがかならず起こるから、

P (A) + P (B) = P (A or B) = 1

である。よって、コインの裏表の出方に差がないとすれば、

P (A) =1

2, P (B) =

1

2

ということになる。

11

例 2.1.3 ベルヌーイ試行と２項確率

コイン投げのように２つの事象 A,B からなる試行があってそれぞれの事象の確率を pと 1 − p

とする。この試行を何回か（n回とする）独立に繰り返す試行をベルヌーイ試行という。独立性と

乗法法則から、ベルヌーイ試行（の結果である事象）の確率は、その試行で Aの起きた回数を k

とすると、pk(1 − p)n−k である。「Aが k回起きる」という事象を A(k)と書くと、この事象が

起きるベルヌーイ試行は n回の中から Aが起こる k回を選ぶ場合の数すなわち、(n

k

)=

n!

k!(n− k)!

存在し（この数はいわゆる２項係数とも呼ばれるものである）互いに排反である。よって加法法則

により、

P (A(k)) =

(n

k

)pk(1− p)n−k

これを２項確率という。

2.1.2 確率変数とその分布

さいころの目の値をX と書くと、１から６の各自然数 kに対し P (X = k)なる確率値が存在す

る。このように、確率が与えられている一連の事象の各々に対してある値が対応しているとき、こ

れらの値をとる変数を確率変数といい、確率変数の値とその確率の対応を確率分布という。

確率変数の値が有限とおりであるか、無限とおりあっても自然数などのようにとびとびの値であ

るとき、すなわち取り得る値を

x1, x2, x3, . . .

と書けるとき、その確率変数は離散型確率変数であるという。以後「連続型確率変数」を導入する

までは、確率変数は離散型であるとする。

確率変数X,Y の取り得る任意の値 xi, yj に対し、事象X = xi, Y = yj が独立であるとき確率

変数X,Y は独立であるという。

例 2.1.4 ２項分布

１個のコイン投げにおいて、裏・表が出る確率をそれぞれ決めておく。X を表が出たら１、裏が

出たら０とすると、X は確率変数である。また、n個のコイン投げ（ベルヌーイ試行）において、

表が出たコインの数を Y とすると、Y, Z = Yn は共に確率変数である。Y は上の例の２項確率を

分布とする確率変数で、２項確率変数といい、その分布を２項分布といい、B(n, p)で表す。

X1, . . . , Xn を上のX と同じ分布を持つ互いに独立な確率変数とすると、

Y = X1 + · · ·+Xn, Z =X1 + · · ·+Xn

n

が成り立つ。

確率変数X に対し、X の取り得る値を x1, x2 . . .としたとき、

E(X) =∑i

xiP (X = xi)

をX の期待値（平均値）という。

12

確率変数X に対し、

V (X) = E((X − E(X))2)

をX の分散という。また、確率変数X,Y に対し、

C(X,Y ) = E((X − E(X))(Y − E(Y )))

をX,Y の共分散という。

例 2.1.5 期待値の解釈をするために、今、n通りの値 v1, . . . , vn からなるデータがあり各値 vi の

度数は fiとし、データ総数をN =n∑

i=1

fiとおく。このデータから１つを抜き出す試行を考え、取

り出した値を X とすると、これは、確率分布 P (X = vi) =fiN に従う確率変数と考えられる。こ

のX の期待値を計算すると、

E(X) =

n∑i=1

vifiN

となって、統計的な平均値と一致する。

補題 2.1.0.1 統計データの平均と分散と同様に、確率変数X に対し次が成立する。

E(aX + b) = aE(X) + b, V (aX + b) = a2V (X)

また、確率変数X,Y に対し次が成立する。

E(X + Y ) = E(X) + E(Y )

(証明) 最後だけ示す。あとは簡単なので演習とする。pij = P (X = xi, Y = yj)とおく。

E(X + Y ) =∑i,j

(xi + yj)pij

=∑i,j

xipij +∑i,j

yjpi,j

=∑i

xi

∑j

pij

+∑j

yj

(∑i

pi,j

)

=∑i

xiP (X = xi) +∑j

yjP (Y = yj)

= E(X) + E(Y )

定理 2.1.1

E(a1X1 + · · ·+ anXn + b) = a1E(X1) + · · ·+ anE(Xn) + b

(証明) 上の補題を繰り返し用いれば明らか。

13

補題 2.1.1.1 確率変数X,Y に対し、

V (X + Y ) = V (X) + V (Y ) + 2C(X,Y ), C(X + Y, Z) = C(X,Y ) + C(Y, Z)

が成立する。また、

C(X,Y ) = E(XY )− E(X)E(Y )

がいえる。これを用いると、X,Y が独立なら E(XY ) = E(X)E(Y )がいえるので、

C(X,Y ) = 0

(証明)

V (X + Y ) = E({X + Y − E(X + Y )}2)

= E({(X − E(X)) + (Y − E(Y ))}2)

= E((X − E(X))2) + 2E((X − E(X))(Y − E(Y ))) + E((Y − E(Y ))2)

= V (X) + V (Y ) + 2C(X,Y )

C(X,Y ) = E((X − E(X))(Y − E(Y )))

= E(XY −XE(Y )− Y E(X) + E(X)E(Y ))

= E(XY )− E(X)E(Y )− E(X)E(Y ) + E(X)E(Y )

= E(XY )− E(X)E(Y )

X,Y が独立なら、x, yの各値 xi, yj に対し、P (X = xi) = pi, P (Y = yj) = qj とおけば、

E(XY ) =∑i,j

xiyjpiqj

=∑i

xipi∑j

yjqj

= E(X)E(Y )

定理 2.1.2

V

(n∑

i=1

aiXi + b

)=

n∑i=1

a2iV (Xi) + 2∑i<j

aiajC(Xi, Xj)

とくに、X1, . . . , Xn が互いに独立なら、

V

(n∑

i=1

aiXi + b

)=

n∑i=1

a2iV (Xi)

(証明) 後半は前半と前補題より明らか。前半も前補題と前々補題を繰り返し用いることにより示

すことができる。

例 2.1.6 上の Y、Z について、

E(Y ) = np V (Y ) = np(1− p), E(Z) = p V (Z) =p(1− p)

n

　

14

例 2.1.7 ポアソン分布

µを正の定数として、

P (X = x) = e−µµx

x!, x = 0, 1, 2, . . .

で与えられる離散型確率分布をポアソン分布という。

指数関数のマクローリン展開∞∑x=0

µx

x!= eµ

より、上が確率分布を与えることは明らかである。

ポアソン分布は取り得る値が無限である離散分布の例である。

X を上のポアソン分布に従う確率変数とすると、E(X) = µ, V (X) = µである。

(証明) E(X) = µは読者に任せる。

E(X(X − 1)) =

∞∑x=2

x(x− 1)e−µµx

x!= e−µµ2

∞∑x=2

µx−2

(x− 2)!= µ2

E(X2) = E(X(X − 1)) + E(X) = µ2 + µ

V (X) = E(X2)− E(X)2 = µ2 + µ− µ2 = µ

また、ポアソン分布は２項分布 B(n, p)において np = µ一定とし n → ∞とした極限の分布であると考えられる。なぜなら、

P (X = x) = nCxpx(1− p)n−x =

n!

x!(n− x)!

(µn

)x (1− µ

n

)n−x

=µx

x!

(1− 1

n

)· · ·(1− x− 1

n

){(1− µ

n

)−nµ

}−µ(1− xn )

→ µx

x!e−µ (n → ∞)

したがって、単独試行の確率 (p)は非常に小さく試行の回数 (n)が非常に大きい２項分布は近似

的に µ = npを期待値とするポアソン分布とみなせる。

よって、たとえば事故死の確率は非常に小さくても一つの都市での年間事故死数X を考えると、

X はポアソン分布に従う。

2.1.3 確率変数の標本と大数の法則

ある確率変数 X と同じ分布に従い、互いに独立な n個の確率変数 X1, . . . , Xn の実現値を（サ

イズが nの）X の（独立）標本という。標本の平均値を X と書き、標本平均という。これは確率

変数X から導出された確率変数である。X の標本分散も同様に定義する。

コイン投げで表が出たら１裏が出たら０をとる確率変数X を考える。コイン１個のときのX の

分布は０、１均等のはずである。コイン２個のときそれぞれにX と同じ分布を持つ独立なX1, X2

を考えて、その平均値 X = X1+X2

2 の分布を考えると、X = 0.5の分布が一番高いはずである。な

ぜなら、X = 0.5となるのは (X1, X2) = (1, 0), (0, 1)の２通りあるのに対し、X = 0, 1となるの

はそれぞれ (X1, X2) = (0, 0)、X = (1, 1)の１通りずつしかないからである。さらにコインの数を

増やすとこの平均値の分布は 0.5を中心に末広がりの様相を見せ、中央への集中度を高めていく。

15

この様子は (x+ y)n の展開における２項係数の変化を見るか、コンピュータで２項分布のグラフ

をいろいろ描いてみるととよくわかるだろう。

次は確率変数の期待値を平均値と呼ぶ理由になっていると同時に、確率を統計分析に使う拠り所

でもある。

定理 2.1.3 (大数の法則) 確率変数X の分散を有限とするとき、X の標本平均 X は標本のサイズ

が十分大きければ、X の期待値 E(X)の近くに分布する。

（証明）これは、確率変数についても統計変量に関するチェビシェフの不等式が同様に示せるので

そこから出てくるが、直接示せば以下のようになる。

ϵ > 0, V (X) < K とする。上に述べた定理より V (X) < Kn , E(X) = E(X)であるから、

K

n> V (X) ≥

∑|x−E(X)|≥ϵ

(x− E(X))2P (X = x)

≥ ϵ2∑

|x−E(X)|≥ϵ

P (X = x)

= ϵ2P (|X − E(X)| ≥ ϵ)

よって、

P (|X − E(X)| ≥ ϵ) ≤ K

nϵ2

大数の法則は、大雑把にいえば、「標本を多くとるほど、結果は理論値に近くなる」ということ

を期待値と平均値の関係として述べているといえる。つぎはこのことの具体的な説明である。

確率および確率分布の統計的意味

1. ある試行における事象Aの確率が pであるなら、試行を（独立に）十分多くくり返したとき

（n回）、Aの起きる割合いは pの近くに分布する。

(証明) Aの起きたとき１、そうでないとき０という確率変数をX とすると、X の期待値は

1 · p+ 0 · (1− p) = pであり、X の標本平均は Aの起きる割合であるからである。（十分多

くくり返したとき Aの起きた割合が pとほど遠いことは可能性としてはあるが、ほとんど

ない。）

2. ある確率変数の標本をとるとき、その標本が十分大きければ、そのヒストグラムは確率分布

のグラフの形に近くなる。

（証明）確率変数 X とある kに対し、X = kとなる事象を Aとすれば、(１)より X の大

標本中の Aの起きた割合は Aの起こる確率に近くなる。

（注）直接以下のように示してもよい。

X(k) =

{1 X = k

0 X = k

なる確率変数を定義し、その標本をX1(k), · · · , Xn(k)とすると、X = kの度数は

Sn,k =

n∑i=1

Xi(k)

である。Sn,k

nは、X(k)の標本平均なので大数の法則より n大のとき P (X = k)に近い。ま

た、度数自身は nP (X = k)に近い。

16

2.2 連続型確率分布と中心極限定理

2.2.1 連続型確率分布

例 2.2.1 一様乱数

区間 [a, b]の値を一つ取り出す試行を考える。どの値を取り出す確からしさも同じとするとき、

取り出した数を一様乱数という。一様乱数はある数式を用いて疑似的に生成することができるが、

それを疑似一様乱数といい、各種の確率シミュレーションの基礎になるものである。

確率事象に伴う数としては、さいころの目のような離散的な値をとるものの他に、身長値や一様

乱数などのように連続的な値をとると考えた方が自然なものがある。そこで連続型の確率変数と分

布を定義する。

連続型の確率変数 X のとりうる値は実数である。X がある値をとる確率を定めようとすると、

たとえば一様乱数の場合ならどの値をとる確率も同じ一定値にすべきであろうが、そうすると確率

の総和は 1ではなく無限になる。そこで、連続値をとる確率変数に対しては、確率密度関数 p(x)

なるものを与えた上で、確率は次の形で考える：

P (a ≤ X ≤ b) =

∫ b

a

p(x)dx (∗)

ただし、p(x)は∫∞−∞ p(x)dx = 1なるものとする。

連続型の確率変数とは、確率密度関数が存在して分布が (∗)の形で与えられるものである。

注意. 分布を分布関数 F (x) = P (X ≤ x)によって定まるものとすれば、離散型と連続型の分布を

統一的に論じることができる。

期待値 E(X)は、

E(X) =

∫ ∞

−∞xp(x)dx

と定める。

V (X), C(X,Y )も離散型分布のときと同じように期待値を使って定義される。

V (X) = E((X − E(X))2)

C(X,Y ) = E((X − E(X))(Y − E(Y )))

例 2.2.2 一様分布

上の一様乱数の従う分布としては、確率密度関数を

p(x) = 1 (x ∈ [0, 1]), p(x) = 0 (x /∈ [0, 1])

ととればよい。期待値と分散は以下のようになる。

E(X) =

∫ 1

0

xdx =1

2V (X) =

∫ 1

0

(x− 1

2

)2

dx =1

12

例 2.2.3 正規分布

確率密度関数

p(x) =1√2πσ

e−(x−µ)2

2σ2

17

なる確率密度関数を持つ連続分布を、平均値 µ標準偏差 σ の正規分布といい、N(µ, σ2)で表す。

X をN(µ, σ2)に従う確率変数とすると、実際 µはX の期待値 σ2 はX の分散である。

(証明の概略) まず以下の広義積分を認めておく (被積分関数は不定積分を計算できないのでこの広

義積分の方法には別の方法を使う必要がある。重積分を使う方法などがあるので解析のテキストを

参照のこと。)。 ∫ ∞

−∞e−x2

dx =√π

すると、

E(X) =

∫ ∞

−∞xe−

(x−µ)2

2σ2 dx

は、z =x− µ

σとおいて置換積分をして上の積分を使えば E(X) = µと求まる。

V (X) =

∫ ∞

−∞(x− µ)2e−

(x−µ)2

2σ2 dx

も同じ置換積分をすれば、

V (X) =1√2π

∫ ∞

−∞σ2z2e−

z2

2 dz

となるが右辺の被積分関数を −z(−ze−z2

2 )と見て部分積分すれば、上の積分を使って V (X) = σ2

が出る。詳細は読者にお任せする。

微分法による簡単な議論によって、N(µ, σ2)の密度関数 p(x)のグラフは x = µに関し対称で

x = µで極大な末広がりなグラフであり、また x = µ − σ, x = µ + σはこのグラフの変曲点であ

ることがわかる。

正規分布は多くの統計データが従う分布であるといわれている。たとえば、身長/体長や測定誤

差/実験誤差などである。実際正規分布は誤差が従う分布としてガウスによって発見された (よっ

て正規分布をガウス分布ともいう)。

X,Y が連続型確率変数で、X,Y の任意の区間 [a, b], [c, d]に対して、ある２変数関数 f(x, y)が

あって、

P (a ≤ X ≤ b, c ≤ Y ≤ d) =

∫ d

c

∫ b

a

f(x, y)dxdy

となるとき、f(x, y)を２次元確率変数 (X,Y )の同時密度関数という。

P (a ≤ X ≤ b, −∞ < Y < ∞) =

∫ b

a

∫ ∞

−∞f(x, y)dydx

P (−∞ < X < ∞, c ≤ X ≤ d) =

∫ d

c

∫ ∞

−∞f(x, y)dxdy

より、 ∫ ∞

−∞f(x, y)dy,

∫ ∞

−∞f(x, y)dx

はそれぞれ、X,Y の密度関数である。

確率変数 X,Y の任意の区間 [a, b], [c, d]に対し、事象 a ≤ x ≤ b, c ≤ y ≤ dが独立であるとき

確率変数X,Y は独立であるという。

連続型確率分布の場合の乗法法則はつぎのようにもいえる。

18

• p(x), q(y)をそれぞれ X,Y の密度関数、f(x, y)を X,Y の同時密度関数とする。X,Y が独

立なら、f(x, y) = p(x)q(y)が成立する。

(証明)

P (a ≤ X ≤ b, c ≤ Y ≤ d) = P (a ≤ X ≤ b)P (c ≤ Y ≤ d)

=

∫ b

a

p(x)dx

∫ d

c

q(y)dy

=

∫ d

c

∫ b

a

p(x)q(y)dxdy

定理 2.2.1 連続型確率変数 X,Y の確率密度関数を p(x), q(y)、(X,Y )の同時密度関数を f(x, y)

とすれば、

E(φ(X,Y )) =

∫ ∞

−∞

∫ ∞

−∞φ(x, y)f(x, y)dxdy

(証明) Z = φ(X,Y )の確率密度関数を r(z)とする。φ(X,Y ) ≥ 0として、

E(Z) =

∫ ∞

0

tr(t)dt

=

∫ ∞

0

∫ t

0

r(t)dzdt

=

∫ ∞

0

∫ ∞

z

r(t)dtdz

ここで最後の等式は、{(t, z) : 0 ≤ t < ∞, 0 ≤ z ≤ t} = {(t, z) : 0 ≤ z < ∞, z ≤ t < ∞}であることによる。さらに、

E(Z) =

∫ ∞

0

∫ ∞

z

r(t)dtdz

=

∫ ∞

0

P (Z > z)dz

=

∫ ∞

0

∫ ∫{(x,y): φ(x,y)>z}

f(x, y)dxdydz

=

∫ ∞

−∞

∫ ∞

−∞

∫ φ(x,y)

0

f(x, y)dzdxdy

=

∫ ∞

−∞

∫ ∞

−∞φ(x, y)f(x, y)dxdy

ここで最後から２番目の等式は、{(x, y, z) : 0 ≤ z < ∞, φ(x, y) > z} = {(x, y, z) : −∞ ≤x, y < ∞, 0 ≤ z < φ(x, y)}であることによる。

離散型分布のときと同様に以下の補題と定理が成立する。

補題 2.2.1.1 統計データの平均と分散と同様に、確率変数X に対し次が成立する。

E(aX + b) = aE(X) + b, V (aX + b) = a2V (X)

また、確率変数X,Y に対し次が成立する。

E(X + Y ) = E(X) + E(Y )

19

(証明) 最後だけ示す。あとは簡単なので演習とする。X, Y の同時密度関数を f(x, y)とおく。

E(X + Y ) =

∫ ∞

−∞

∫ ∞

−∞(x+ y)f(x, y)dxdy

=

∫ ∞

−∞

∫ ∞

−∞xf(x, y)dxdy +

∫ ∞

−∞

∫ ∞

−∞yf(x, y)dxdy

=

∫ ∞

−∞x

(∫ ∞

−∞f(x, y)dy

)dx+

∫ ∞

−∞y

(∫ ∞

−∞f(x, y)dx

)dy

= E(X) + E(Y )

定理 2.2.2

E(a1X1 + · · ·+ anXn + b) = a1E(X1) + · · ·+ anE(Xn) + b

補題 2.2.2.1 確率変数X,Y に対し、

V (X + Y ) = V (X) + V (Y ) + 2C(X,Y ), C(X + Y, Z) = C(X,Y ) + C(Y, Z)

が成立する。また、

C(X,Y ) = E(XY )− E(X)E(Y )

がいえる。これを用いると、X,Y が独立なら E(XY ) = E(X)E(Y )がいえるので、

C(X,Y ) = 0

(証明) 最初の２つは離散型と全く同じ証明。

X,Y が独立なら、X,Y の確率密度関数を p(x), q(y)、同時密度関数を f(x, y)とすれば、

E(XY ) =

∫ ∞

−∞

∫ ∞

−∞xyf(x, y)dxdy

=

∫ ∞

−∞

∫ ∞

−∞xyp(x)q(y)dxdy

=

∫ ∞

−∞yq(y)

∫ ∞

−∞xp(x)dxdy

=

∫ ∞

−∞xp(x)dx

∫ ∞

−∞yq(y)dy

= E(X)E(Y )

定理 2.2.3

V (

n∑i=1

aiXi + b) =

n∑i=1

a2iV (Xi) + 2∑i<j

aiajC(Xi)C(Xj)

とくに、X1, . . . , Xn が互いに独立なら、

V (

n∑i=1

aiXi + b) =

n∑i=1

a2iV (Xi)

20

(証明) 離散型と同じ証明。

離散分布のときと同様にして、「大数の法則」が成立することも示される。

中心極限定理

大数の法則は標本平均は標本のサイズが大きいほど期待値の近くに分布することを主張するが、

次の定理はさらにその分布の形を特定するものである。

定理 2.2.4 (中心極限定理) 確率変数X の平均を µ、分散を σ2とするとき、標本のサイズ nが十

分大きければ、X の標本平均 X の分布は、正規分布 N(µ, σ2

n )で近似される。また、X の標本和

X1 + · · ·+Xn の分布は、正規分布N(nµ, nσ2)で近似される。

前に述べたように正規分布をすると見られるデータは多いが、中心極限定理はさらに理論的に正

規分布の適用範囲を広めるものであるといえる。

例 2.2.4 ２項分布の正規近似

Xを事象Aが起きたとき 1、起きなかったとき 0をとる確率変数とすると、Xのサイズnの標本和

Y は２項分布B(n, p)に従う。よって、B(n, p)はnが大きいとき中心極限定理よりN(np, np(1−p))

で近似される。

同様にX の標本平均の分布はN(p, p(1−p)n )で近似される。

2.2.2 正規標本論

標本分布にもとづく統計分析においては、標本平均以外の統計量の分布を知りたいことがある。

統計量の分布を知る典型的な方法は、中心極限定理などで正規分布をしていると仮定できる統計

量X の標本 (正規標本)の関数として表される統計量の分布について成立する定理を使う方法であ

る。以下にこの方法で良く使われる分布といくつかの定理を述べる。

定義 2.2.1 χ2(カイ２乗)分布

自然数 nに対してつぎのような密度関数を持つ連続分布を自由度 nの χ2 分布という。

fn(χ2) =

1

2n2 Γ(n

2 )(χ2)

n2 −1e−

12χ

2

(χ2 > 0)

0 (χ2 ≤ 0)

ここに、Γはガンマ関数である。

Γ(p) =

∫ ∞

0

xp−1e−xdx, (p > 0)

定理 2.2.5 Z を正規分布N(0, 1)に従う確率変数とすれば、Z2 は自由度 1の χ2 乗分布に従う。

(証明) 略。

21

定理 2.2.6 X1, . . . , Xnを正規分布N(µ, σ2)に従う独立な確率変数とすれば、1

σ2

n∑i=1

(Xi − µ)2は

自由度 nの χ2 乗分布に従う。

(証明) 略。

定理 2.2.7 X1, . . . , Xn を正規分布 N(µ, σ2)に従う独立な確率変数とすれば、1

σ2

n∑i=1

(Xi − X)2

は自由度 n− 1の χ2 乗分布に従う。

(証明) 略。

定義 2.2.2 t分布

自然数 nに対し密度関数がつぎで与えられる分布を自由度 nの t分布という。

fn(t) =1

√nB(n2 ,

12

) (1 + t2

n

)n+12

ここで B(p, q)は以下で与えられるベータ関数である。

B(p, q) =

∫ 1

0

xp−1(1− x)q−1dx, (p > 0, q > 0)

t分布の密度関数のグラフは左右対称である。

定理 2.2.8 Z が正規分布N(0, 1)に従い、χ2 がこれと独立に自由度 nの χ2 分布に従うならば、

t =Z√χ2

n

は、自由度 nの t分布に従う。

(証明) 略。

定理 2.2.9 X1, . . . , Xn が正規分布N(µ, σ2)に従う独立な確率変数で、

U2 =1

n− 1

n∑i=1

(Xi − X)2

とするとき、

t =X − µ√

U2

n

は、自由度 n− 1の t分布に従う。U2 を不偏分散という (推定の節を参照)。

22

定義 2.2.3 F 分布

自然数m, nに対し密度関数がつぎで与えられる分布を自由度 (m,n)の F 分布という。

f(m,n)(F ) =

m

m2 n

n2

B(m2 , n

2 )F

m2

−1

(mF+n)m+n

2

(F > 0)

0 (F ≤ 0)

ここで B(p, q)は上述のベータ関数である。

定理 2.2.10 χ21, χ

22 がそれぞれ自由度m,nの χ2 分布に従う独立な確率変数ならば、

F =χ21

mχ22

n

は、自由度 (m,n)の F 分布に従う。

(証明) 略。

23

第3章統計的推測 - 推定と検定

3.1 標本による母集団の推測

確率変数の（独立）標本を定義したが、一般に統計において標本（サンプル）とは、あるデータ

の集まり（母集団）から取り出した一部のデータX1, . . . , Xnのことをいう。標本（サンプル）の

名のとおり母集団全体を推し量る意図をもって取り出された全体の一部である。ここで、実際に取

り出した標本の各データXi の値が確率的に決まると考えると、各Xi は確率変数になる。

さらに、各Xiの分布が同一であり、各々のデータを互いの値に依存せずに取り出したとすれば、

この標本はある確率変数の（独立）標本になるわけである。実際に標本を抽出するときに注意すべ

きことは、母集団の各データを等確率で抽出（無作為抽出）するようにすべきことである。そうし

ないと、標本の各データがある確率分布の実現値とはいえなくなる。

さて的確に採取された標本は母集団の傾向をある程度反映しているはずであるから、標本から母

集団の性質を推し量ることができるかもしれない。この推量を統計的な根拠のもとに行うのが統計

的推測と総称される方法で、推定と検定がある。統計的な根拠としては、標本が実現する確率変数

の分布を具体的に仮定する方法があり、この統計的推測法をパラメトリック法という。

標本が実現する確率変数の分布を具体的に仮定しない統計的推測法をノンパラメトリック法と

いう。

例 3.1.1 母集団の例として、

1. 日本人成人男子の身長

2. ある実験における実験値

をあげる。

1の場合の標本とは、日本人成人男子を何人か選んで身長値をとったものである。母集団の身長

値全体はある分布をしており、選ばれる身長値はそれに従った確率変数であると考えられる。

2の場合はまず実験値には誤差があるものとして同じ実験を繰り返す毎に違う実験値が得られる

可能性があることを前提として、取り得る実験値のすべて (重複を含めて)を母集団と見る。誤差

が確率的に決まると考えれば実験値は確率変数である。2の場合の標本とは、実験を繰り返して何

個かの実験値を得ることである。

3.2 点推定

3.2.1 不偏推定値

母集団に関するある値 (母数という)を知りたいときに母集団からとった標本に関する値をもっ

て母数を推測することを点推定という。

24

今知りたい母数が母集団の平均値であるときこれを母平均と呼び、これを母集団からの標本の平

均である標本平均で推定することを考える。このとき母平均 µと標本平均 X の間には一般に次の

関係がある (次定理参照)。

E(X) = µ

このように、母数を平均値とするような推定値を不偏推定値という。

定理 3.2.1 1. 標本平均は母平均の不偏推定値である。

2. 標本の分散 (標本分散)は母集団の分散 (母分散)の不偏推定値ではなく、母分散の不偏推定

値は、

U2 =1

n− 1

n∑i=1

(Xi − X)2

これを不偏分散という。

(証明) 母平均を µ、母分散を σ2 とする。平均については、

E(X) =1

nE(X1 + · · ·+Xn) = E(X) = µ

分散については、

n∑i=1

(Xi − µ)2 =

n∑i=1

(Xi − X + X − µ)2

=

n∑i=1

(Xi − X)2 + 2(X − µ)

n∑i=1

(Xi − X) + n(X − µ)2

=

n∑i=1

(Xi − X)2 + n(X − µ)2

両辺の期待値をとれば、

n∑i=1

E((Xi − µ)2) = E(

n∑i=1

(Xi − X)2) + nE((X − µ)2)

であるから、E(X) = µ, V (X) = σ2

n であるから、

nσ2 = E(

n∑i=1

(Xi − X)2) + nσ2

n

したがって

E(1

n− 1

n∑i=1

(Xi − X)2) = σ2

3.2.2 最尤推定値

3.3 区間推定

今知りたい母数を β とする。αを 0.05などの小さい数として、

a < β < b

25

なる確率が 100(1− α)％であるような区間 [a, b]を求めることを区間推定という。α = 0.05なら、

100(1− α) = 95％である。100(1− α)％を信頼係数といい、区間 [a, b]を 100(1− α)％信頼区間

という。a, bは通常 β に関するある標本統計量 Z の値と Z の確率分布から求められる。信頼区間

の意味は標本をいくつもとって信頼区間をいく通りも求めれば、そのうち 100(1− α)％の区間は

真の値 β を含んでいるというものである。

3.3.1 母平均の区間推定

正規分布を使う方法 (正規母集団か大標本で母分散既知の場合)

大きさ nの標本X1, . . . , Xn の標本平均を X とする。

母平均を µ、母分散を σ2 とする。

母集団が正規分布 N(µ, σ2)に従う (正規母集団)なら、正規分布の再生性より、標本平均 X は

N(µ, σ2/n)に従う。また、標本の大きさが十分大きければ (n > 100)、中心極限定理より、Xi の

分布にかかわらず標本平均 X は近似的にやはりN(µ, σ2/n)に従うとしてよい。

すると、X − µはN(0, σ2/n)に従う。σ2は既知としているから表計算などの関数でこの分布に

関し、

P (X − µ > z(α)) = α/2

なる z(α)を計算できる。正規分布の左右対称性から

P (X − µ < −z(α)) = α/2

でもあるから、

P (−z(α) ≤ X − µ ≤ z(α)) = 1− α

すなわち、

P (X − z(α) ≤ µ ≤ X + z(α)) = 1− α

よって、[X − z(α), X + z(α)]が求める 100(1− α)%信頼区間である。

(注) 標準正規分布と呼ばれる N(0, 1)での近似もできる。これができると、N(0, 1)に対してのみ

z(α)の値を計算した表 (標準正規分布表)が用意してあればよい。計算機がまだあまり発達してい

なかった頃は、標準正規分布表に頼らざるを得なかった。しかし今日では任意のN(µ, σ2)に対し

て z(α)が計算できる。

t分布を使う方法 (正規母集団で母分散未知の場合)

母集団が正規分布 N(µ, σ2)に従う (正規母集団)について、大きさ nの標本X1, . . . , Xn の標本

平均を X とし、不偏分散の平方根を U とする。すると、

t =X − µ

U√n

は自由度 n− 1の t分布とよばれる分布に従うことが知られている (前述の t分布に関する定理を

参照)。表計算などの関数で

P (|t| > tn−1(α)) = α

26

なる tn−1(α)を計算できるので、信頼係数 100(1− α)%の µの信頼区間が

X − tn−1(α)U√n

≤ µ ≤ X +tn−1(α)U√

n

と定まる。

F = t2 が自由度 (1, n− 1)の F 分布に従うことを使うこともできる。

3.3.2 母比率の区間推定

正規分布を使う方法 (大標本の場合)

ここで推定すべき母数は、母集団の中である条件を満たすもの占める割合 (比率)であるので母

比率と呼ぶ。母比率は平均値とみなすことができるので平均値の区間推定法を適用することもでき

る。しかし、標本比率は分散が大きくなる傾向があること、よって一般の平均値には成立しない比

率のみの特性を生かしたより効率的な方法を使う意味があるのでここで別に取り上げる。

母比率を p、信頼係数を 1− αとする。いま標本中の条件を満たすものの比率 (標本比率)を Z、

標本の大きさを nとする。

nZ は２項分布に従うことが分かっているが、パラメータ pは未知である。推定においては従っ

て２項分布をそのまま使うわけにはいかず、正規分布での近似や F 分布での表現を使う。しかし

後述の検定においては pを仮定するので２項分布が直接使える場合もある。Z − pの漸近分布は中

心極限定理より正規分布N(0,p(1− p)

n)であるが、この分布に関し、

P (Z − p < −z(α)) = P (z(α) < Z − p) =α

2

なる z(α)(これを両側 100α％点と呼ぶ)を計算できれば、

−z(α) < Z − p < z(α)すなわち、Z − z(α) < p < Z + z(α)

となる確率は 100(1−α)％であることになる。つまり、[Z − z(α), Z + z(α)]が 100(1−α)％信頼

区間である。

ところが、ここで正規分布N(0,p(1− p)

n)の分散は推定すべき pを含んでいるので z(α)は計算

できない。そこで、以下に示す理由で pの代わりに Z を使ってこの区間推定を行う。

(証明)σ =

√p(1− p)

nとおく。

Z − p

σの漸近分布である標準正規分布N(0, 1)による pの信頼区間

は、Z − z0(α)σ < p < Z + z0(α)σ、ここで z0(α)は P (Z − p < −z0(α)) =α2 なる数である。この

不等式は pの範囲を示してはいるが σ は未知であるのでこのままでは役にたたない。そこで次の

ようにして近似的な信頼区間の導出を行う。Z − z0(α)σ < p < Z + z0(α)σを pについて整理する

と、pの２次不等式 (n+ zo(α)2)p2 − (z0(α)

2 + 2npZ)p+ nZ2 < 0が得られ、これを解くと

z2 + 2nZ −√

(z0(α)2 + 2nZ)2 − 4(n+ z0(α)2)nZ2

2(n+ z0(α)2)

< p <

z2 + 2nZ +√

(z0(α)2 + 2nZ)2 − 4(n+ z0(α)2)nZ2

2(n+ z0(α)2)

となるが、nが大きいことから、上の２次不等式の左辺を

(n+ zo(α)2)p2 − (z0(α)

2 + 2npZ)p+ nZ2 = n(p2 − 2pZ + Z2) + z0(α)2p(1− p)

≈ n(p2 − 2pZ + Z2) + z0(α)2Z(1− Z)

27

と見て解けば、

Z − z0(α)

√Z(1− Z)

n< p < Z + z0(α)

√Z(1− Z)

n

となる。z0(α)

√Z(1− Z)

nは、N(0,

Z(1− Z)

n)の両側 α点 z(α)と等しいから、求める近似的な

信頼区間は、

Z − z(α) < p < Z + z(α)

である。これは、Z−pの分布の本来の正規近似であるN(0,p(1− p)

n)の代わりにN(0,

Z(1− Z)

n)

を使って信頼区間を出せばよいことを示している。

(注) 次節で述べるように一般にX の平均値の推定では、X の母分散が未知の場合は t分布を使う

方法を使うが、母比率 (母平均の一種)では母平均 pと母分散 p(1− p)の関係が分かっているので

上記のような便法が使えるのである。

F分布を使う方法 (小標本の場合)

nZ は２項分布 B(n, p)に従うことから、xを nZ の標本値とすると、

P (nZ ≥ x) = P (F > f)

が成立することが知られている。ここに、F は自由度 (2(n− x+ 1), 2x)の F分布をする確率変数

で、f =x(1− p)

(n− x+ 1)pである。

そこで、表計算の関数などで、P (F > f1) = α/2なる f1 を求め、f1 =x(1− p)

(n− x+ 1)pを pにつ

いて解いた値を p1 とする。

p1 =2x

2(n− x+ 1)f1 + 2x

すると、B(n, p1)に従うなら P (nZ ≥ x) = α/2である。

同様に、

P (nZ ≤ x) = P (F > f ′)

が成立することが知られている。ここに、F は自由度 (2(x+ 1), 2(n− x))の F分布をする確率変

数で、f ′ =(n− x)p

(x+ 1)(1− p)である。

そこで、表計算の関数などで、P (F > f2) = α/2なる f2を求め、f2 =(n− x)p

(x+ 1)(1− p)を pにつ

いて解いた値を p2 とする。

p2 =2(x+ 1)f2

2(x+ 1)f2 + 2(n− x)

すると、B(n, p2)に従うなら P (nZ ≤ x) = α/2である。

これらより、pの信頼係数 100(1− α)%での信頼区間は、[p1, p2]である。

3.3.3 母分散の区間推定

正規母集団から取った大きさ nの標本に対して、標本分散を S2とおけば、X2 =nS2

σ2が自由度

n− 1のカイ二乗分布に従うことを利用する。

28

求めたい 100(1-α)%信頼区間は次のようになる。

nS2

χ2n−1(

α2 )

< σ2 <nS2

χ2n−1(1− α

2 )

3.4 検定

意志決定とはある行為をするかしないかを決めることである。検定は部分的な事実データを用い

て統計的な根拠のもとで意志決定を行う方法である。

まず簡単な例で検定の方法を説明する。

例 3.4.1 いんちきサイコロの裁定

ある賭博においてサイコロを４回振って勝負をしたら、４回とも１が出たとする。サイコロが正

常ではないような気もするが、あり得ない話でもない。これをどう判断するか。

まずつぎのように仮定してみる。

仮説：「公平なサイコロである」

この仮定は「否定される (無に帰す)ときに積極的な結論を導く」と言うもので「帰無仮説」と呼

ばれる。この帰無仮説のもとでは

１の出る確率 16 = 0.166666667

４回とも１が出る確率(16

)4= 0.000771605

と計算される。帰無仮説のもとでは、４回とも１が出る確率は非常に小さい。つまり、ほとんど起

こり得ない事象であるといえる。

もし、「帰無仮説」のもとでは４回とも１が出ることはありえない、すなわち確率が０であるこ

とが示されるなら、これは実際に起きたことと矛盾するから、「帰無仮説」は否定される。これは

背理法である。そして、帰無仮説は背理法の仮説であったということになる。

実際は４回とも１が出ることは公平なサイコロでもあり得る。しかしその確率はほとんど０に等

しい。よってこのときも帰無仮説を否定して、「サイコロは公平であるとはいえない」と結論する。

これはあたかも統計的な背理法とでもいえる論法といえよう。

ただし統計的に否定はしながらも、帰無仮説が誤りでない可能性も確率的に約 0.07％あるとい

う意味で、帰無仮説は危険率 (または有意水準)0.08％で棄却されるという。

危険率が十分小さくなく棄却できないときは、帰無仮説は採択されるという。検定においては、

帰無仮説が棄却されたときのみ「積極的な主張」ができ、帰無仮説が採択されるときは「矛盾する

とはいえない」という「消極的な結論」でしかないことに注意しよう。

ここで強調しておきたい点は、意志決定においては「数値」が求められているのではなく、ある

事実が起こっているかいないかという２者択一の「判断」が迫られているということである。すな

わち、「ふんぎり」をつけなければならない、もしくは判断の正当化が必要なわけで、そういった

状況で検定がその判断基準として使われるのである。

29

3.4.1 母平均の検定

正規分布を使う方法 (正規母集団か大標本で母分散既知の場合)

ここでは同じ仮定のもとでの母平均の区間推定と同様の原理を使う。すなわち母平均を µとす

ると、仮定のもとに X − µは正規分布N(0, σ2/n

)に従う (正規母集団の場合、大標本であるとき

は近似的に従う)。

[両側検定]

最初にある定数 µ0 に関して µ = µ0 であるかないかの検定を考える。帰無仮説 H0 : µ = µ0 の

もとでは、X − µは正規分布N(0, σ2

n

)に従う。

表計算などの関数でN(0, σ2

n

)に関し、

P (t > z(α)) = α/2

なる z(α)を計算すれば、危険率 αでの棄却域は、

x− µ0 < −z(α), z(α) < x− µ0

である。すなわち、この範囲に X − µが落ちれば、X は µと違いすぎて非常に起こりにくいと判

断されるわけである。

[右片側検定]

つぎに、µ ≥ µ0であるという先見的知識がありこれを前提とするとき、µ > µ0であるかないか

の検定を考えてみよう。

帰無仮説は µ ≤ µ0 となるが µ ≥ µ0 の前提のもとでは H0 : µ = µ0 と同値である。この帰無仮

説のもとでは X − µは上と同じく正規分布N(0, σ2

)に従う。

そこで表計算などの関数でN(0, σ2

)に関し、今度は

P (t > z(2α)) = α

なる z(2α)を計算すれば、危険率 αでの棄却域は、

z(2α) < x− µ0

である。すなわち、この範囲に X − µが落ちれば、X は µより大きすぎて非常に起こりにくいと

判断されるわけである。

こうして H0 : µ = µ0 が棄却されたとしよう。つぎに µ1 < µ0 なる µ1 について帰無仮説

H0 : µ = µ1 を考える。µをより小さいと仮定すればその仮定のもとでは X はより µより大きい

と評価されることになるべきだろう。実際そうなることを確かめよう。

この仮定のもとでは X − µは正規分布N(µ1, σ

2)に従う。この分布は上のN

(µ0, σ

2)と分散が

同じで平均を左 (小さいほう)へ µ0 − µ1 平行移動したものである。よって

P (t > z(2α)) = α

なる z(2α)はH0 : µ = µ0のときより小さくなるはずである。よって棄却域はより広くなりより棄

却されやすくなる。

30

したがって、この検定法は「より小さいものとの比較になるほど標本値が大きいと判断される」

という意味で健全なものといえる。

左片側検定も同様にできる。

t分布を使う方法 (正規母集団で母分散未知の場合)

帰無仮説H0 : µ = µ0のもとでの両側検定について述べる。このときも、同じ仮定の元での母平

均の区間推定の原理が使える。

母集団が正規分布N(µ, σ2)に従うとき、大きさ nの標本X1, . . . , Xnの標本平均を X とし、不

偏分散の平方根を U とする。すると、

t =X − µ

U√n

は自由度 n− 1の t分布とよばれる分布に従う。

表計算などの関数でこの分布に関し、

P (t > tn−1(α)) = α/2

なる tn−1(α)を計算できるので、危険率 αでの棄却域は、

|t| > tn−1(α)

である。

正規分布を使う方法を参考に片側検定についてはどうすればよいか考えてみよ。

例 3.4.2 平均身長の主張の検定

ある地域の成人男子身長のサンプル平均が X であった。母平均は µとする。

全国の成人男子平均身長は µ0 であると知られているとする。またこの地域の 17歳男子身長の

平均が ν であると知られているとする。

以下のような３つの問題を考える。

1. X が µに近い値であるとき、µ = µ0 であるかないか?

2. X が µよりある程度大きな値であるとき、µ > µ0 であるかないか?

3. X が ν よりある程度小さな値であるとき、µ < ν であるかないか?

• (1のケース) このケースは両側検定である。

• (2のケース) この地域の成人男子身長が全国平均以上である先見的知識がありそれを前提と

すれば、このケースは右片側検定である。H0 : µ = µ0を立てて X が大きすぎないかを検定

する。前提により µ < µ0 は問題にしなくてよい。

また、この地域の成人男子身長が全国平均以上である先見的知識がないのであれば 1のケー

スと同じ両側検定が適当とも考えられる。この場合帰無仮説H0 : µ = µ0 が棄却されたとき

の結論は、文字通りには「差がある」であるが実際は片側検定より狭い棄却域で棄却できて

いるので「高いといえる」としてよいだろう。

31

• (3のケース) この地域の成人男子身長がこの地域の 17歳男子身長以下である先見的知識が

あるといえるから、このケースは左片側検定である。H0 : µ = ν を立てて X が小さすぎな

いか (だけ)を検定する。

与えられた状況に仮説の立て方を含めてどの方法を使うかは、現実に対しどの数学モデルを当て

はめるかということであり、あらかじめ決まっているものでもないし、一意的に決められるものと

も限らない。

3.4.2 母平均の差の検定

二つの正規母集団N(µ1, σ21), N(µ2, σ

22)の平均の関係を検定することを考えていこう。多くの場

合、二つの平均が一致するかどうかが一番の着目点であるので、仮説は次のようになる。

H0 : µ1 = µ2

H1 : µ1 = µ2

この場合も母分散に関する情報の有無で検定統計量が異なってくるので、幾つかの場合に分けて

考えることとする。

母分散既知の場合

二つの母分散 σ21 , σ

22 がわかっている場合、二つの母集団からそれぞれ独立にとった標本の標本

平均 X1, X2 は次の正規分布に従っていることになる。

X1 ∼ N(µ1,σ21

n1) X2 ∼ N(µ2,

σ22

n2)

正規分布に従う統計量の差もまた正規分布に従うので、二つの標本平均の差 X1 − X2 か、それ

を標準化した次の統計量を検定に利用すればよい。

Z =X1 − X2 − (µ1 − µ2)√

σ21

n1+

σ22

n2

母分散は未知で、σ21 = σ2

2 となる場合

実験対象を二つの群に分け、異なる影響を与えそれを観測する、といった実験を考える場合、母

集団の分散はわからなくとも、二つの群の分散は一致しているであろうと考えられる。このような

場合、共通の分散の不偏分散推定量として次のものを使う。

U2 =n1S

21 + n2S

22

n1 + n2 − 2

検定統計量としては次の統計量が自由度 n1 + n2 − 2の t分布に従うことを利用すればよい。

T =X1 − X2√

U2(

1n1

+ 1n2

)

32

対応する二つの母集団の場合

平均を比較したい二つの母集団から独立に標本をとることが難しい場合、例えば各個体に何らか

の影響を与え、その前後で変化があったかどうかを調べるような実験を行う場合である。このよう

ときは、組になるデータの差を考えこれが正規分布に従うことを利用すればよい。

分散が未知の場合は、データの差の二乗和 Sを使った次の統計量が自由度 n− 1の t分布に従う

ことを利用すればよい。

T =d− (µ1 − µ2)√

Sn(n−1)

例

ある製品の強度は材質に大きく依存しており、それを作ったときに使った材料の性質のばらつき

によって変動をしている。材料は安いものであり、この製品も安いものであるので、材料を厳選し

て、よいものだけで作ることは不可能である。そこで材料の変動によって起こる変動はやむを得な

いものとして是認することにして、製法に A,Bの二種類があるので A,Bのいずれの製法の方が平

均してみてよい製法であるかを知りたい。そこで日々入荷してくる材料を使って毎日 A,B二つの

製法で製品を作って以下のデータを得た。これを分析せよ。

1 2 3 4 5 6 7 8 9 10

A 260 250 193 325 245 320 127 236 295 284

B 213 218 151 281 212 237 168 212 222 257

サンプル数が大きい場合

母分散が未知の場合は通常 t検定が用いられるが、標本の大きさがある程度大きい場合は正規分

布に近似して二つの平均の関係を検定することができる。以下の統計量が近似的に標準正規分布に

従うことを利用する。

Z =X1 − X2 − (µ1 − µ2)√

S21

n1−1 +S22

n2−1

t分布の自由度が大きくなるにつれて標準正規分布に近づくことを利用しているわけだが、目安

となる自由度は 30くらいといわれている。近似の精度によってはそれ以上であることが要請され

る場合もあるであろう。

Welch(ウェルチ)の検定

2つの事象の平均値 µx, µy の差があるかないかを検定する方法としては、方法が依存する条件

により、

(1) 2事象の母分散既知の場合、

(2) 2事象の母分散未知で等しい場合、

(3) 2事象の母分散未知で等しいといえない場合、

33

に分けられる。Welch(ウェルチ)の検定とは、(3)の場合の方法である。

この方法は、以下の統計量が２つの事象の平均値が等しいという帰無仮説のもとで、近似的に自

由度 ν の t分布をすることを使うものである。

t =X1 − X2√

σ21

n1+

σ22

n2

ここで、σ21 , σ

22 はX1, X2の標本不偏分散、ν は自由度で以下の式から計算される ν に最近接の整

数である。

1

ν=

c2

n1 − 1+

(1− c)2

n2 − 1, c =

σ21

n1

σ21

n1+

σ22

n2

よって、この方法の両側検定法を述べれば、

|t| > tν(α)

が成立するとき、H0 : µ1 = µ2 を棄却し、これが成立しないときH0 を採択するものである。

3.4.3 母分散の検定

正規母集団の母分散に関する検定について簡単に触れておく。N(µ, σ2)に従う母集団に対して、

H0 : σ2 = σ20 という帰無仮説を検定する場合、X2 =

nS2

σ2∼ χ2

n−1であることを使えばよい。ここ

で、S2 は母集団から取った大きさ nの標本の標本分散である。

また、二つの正規母集団N(µ1, σ21), N(µ1, σ

21)に対して、H0 : σ2

1 = σ22 を検定する場合は、次の

ような統計量が F分布に従うことを利用すればよい。

F =

n1S21

σ21(n1 − 1)

n2S22

σ22(n2 − 1)

=σ22

σ21

· U21

U22

∼ Fn1−1,n2−1

ここで、U21 , U

22 は二つの母集団からの標本についての不偏分散推定量である。不偏分散の比を

とることから分散比の検定ということもある。この検定で二つの母分散が等しいことを確認し、前

出の二つの母平均についての検定を行えばよい。

3.4.4 母比率の検定

比率は平均値とみなすことができるが、区間推定のところでも述べた理由で検定に関しても比率

独自の検定法を述べる。

正規分布近似を使う方法 (大標本の場合、限定条件あり)

母比率を pとすると、帰無仮説 p = 0.01のもとでは、Z は中心極限定理により近似的に正規分

布N(0.01,0.01(1− 0.01)

n)に従うとしてよい (ここでは p=0.01と既知とするので推定のときのよ

うなさらなる近似の議論は不要である)。この分布について

P (Z < z(α)) = α

34

なる z(α)(これを左片側 100α％点と呼ぶ)を計算する。Z < z(α)であるなら、「標本比率 Z は小

さすぎて確率 α以下でしか起きない」といえる。よって、帰無仮説は αの危険率で棄却される。

Z ≥ z(α)の場合は αの危険率では棄却されない。

厳密に言うとこの方法には問題がある。帰無仮説がp = p1, (p1 > p0 = 0.01)の場合、N(p1,p1(1−p1)

n )

の分散は p1 ≤ 0.5なる限り、p = p0 = 0.01としたときより大きくなるので、α点はより大きくな

るとは必ずしもいえない。よって、p = p0 = 0.01が棄却されたから p = p1も棄却されるとはにわ

かには言いがたいのである。

この方法が厳密に正しいのはしたがって、

1. 帰無仮説がH0 : p = p0 とでき p = p1 = p0 のケースを考えなくてよい場合

2. 「左片側検定」のときで p0 ≥ 0.5の場合

3. 「右片側検定」のときで p0 ≤ 0.5の場合

であるといえる。最後のケースはインターネット利用率の検定を参照。不良品率が p0 未満である

主張がしたいなら、後述の F分布による方法を使う方がすっきりするであろう。

２項分布を使う方法，F分布を使う方法 (限定条件なし)

nZ は２項分布B(p, n)に従うことから、帰無仮説 p = p0のもとでは、B(p0, n)に従うことにな

る。この分布について、

P (nZ < z(α)) = α

なる z(α)が計算できれば上と同様に検定できる。この計算は任意の p0, nについて B(p0, n)の累

積確率 P (nZ < z)がいろいろな zについて計算できればよい。これは計算機上で表計算の関数な

どを利用することで十分可能である。また，二項分布を F 分布に変換する方法も同様である．

正規分布に近似する方法が厳密には適用しない場合の方法を述べよう。

例 3.4.3 不良品率の主張

工場として製品の不良品率は１％未満であると主張するかしないかを決めるには、製品の標本を

とりその標本の中での不良品率を調べることが考えられる。いま、ある標本の不良品率が１％未満

であったとしよう。しかしこれだけでは、製品全体での不良品率は１％未満であるとする決断には

直接結びつかない。不良品率が１％以上であっても標本の不良品率が１％未満になることはあり得

るからである。問題はどのぐらい「あり得る」かである。

そこでまず、「不良品率は１％以上である」という帰無仮説を設けて、この仮定のもとでの標本

不良品率の発現しやすさ (しにくさ)を確率的に調べることを考える。

どんな標本不良品率でもその発現確率は０ではないが、帰無仮説のもとでは、非常に確率的に発

現しにくいという結果が得られたとする。そういう標本不良品率が実際に発現したのであるから、

「確率的に非常に低い」とは考えにくい (矛盾するとまではいえないが)こととしてその結論を導い

た帰無仮説を棄却する、すなわち「不良品率は１％未満である」と結論するのである。

このとき帰無仮説に矛盾するのは、標本比率の実現値が「小さすぎてほとんど起こり得ない場

合」である。つまり分布 (密度)のグラフでいうと、左側に棄却域を想定しているので、左片側検

定である。

35

例 3.4.4 不良品率の主張２

いま、ある標本の不良品率が１％より大きかったとしよう。しかしこの場合でも不良品率の母数

が１％以下であることはあり得ることである。問題は標本比率が大きすぎて母比率が１％以下であ

るという仮定のもとではほとんど起こり得ないかどうかということである。ここでもし、ほとんど

起こり得ないというほど大きくはない、つまり統計的に仮定に矛盾しないという結果が出たなら、

「否定はされなかった」という意味で、消極的に仮定「母比率は１％以下」を認めることができる。

3.4.5 母比率の差の検定

ある処置をした群としない群とで、ある性質を持つ個体の比率を計測したとする。そのときその

比率の違いによって、施した処置の効果を検定することを考える。

ここでは具体的に、予防接種をした群としない群とで、風邪をひいたかどうかを以下のように調

べたとして、予防接種の効果のあるなしを検定する。

風邪ひいた風邪ひかなかった計

予防接種した a b n1 = a+ b

予防接種しなかった c d n2 = c+ d

計 a+ c b+ d n = a+ b+ c+ d

予防接種をして風邪ひいた比率 q1 = a/n1

予防接種をしないで風邪ひいた比率 q2 = c/n2

全体で風邪をひいた比率 q = (a+ c)/n

q1, q2, qそれぞれの母数を、p1, p2, pとする。

帰無仮説：p1 = p2(= p) （予防注射の効果はない）

帰無仮説のもとで、q1, q2の分布は平均 p、分散がそれぞれ n1p(1− p)、n2p(1− p)の２項分布

である。よって、q1, q2の分布は平均 p、分散がそれぞれp(1− p)

n1,p(1− p)

n2の正規分布で近似で

きるので、q1− q2は期待値は０、分散 v =

(1

n1+

1

n2

)p(1− p)の正規分布に従う（正規分布の

加法性または再生性）。ここで「比率の推定」での近似を思い出して、pの代わりに qを使う。

また、q1− q2√

vはN(0, 1)に従うが、このときこの２乗

(q1− q2)2

vはカイ２乗分布（自由度１）

という分布に従うことが知られている。(q1− q2)2

vを p = qの近似のもとにもとのデータから直接

計算できる形にすると、

(q1− q2)2

v=

n(ad− bc)2

(a+ b)(c+ d)(a+ c)(b+ d)

この統計値とカイ２乗分布のα点を比べて検定ができる。

3.4.6 適合度の検定

得られたデータがある確率分布に当てはまるかどうかの検定を行うのが適合度検定である。得ら

れたデータをいくつかのグループに分けその度数を fi、その平均値を µi、分布から求められる期待

値を ei とすると仮説は全てのグループについてH0 : µi = ei ということになる。H0 のもとでは、

36

X2 =

k∑i=1

(fi − ei)2

ei＝

k∑i=1

f2i

ei− n ≈ χ2

ν

となることを利用して検定を行う。ここで、ν = k− r− 1で、kはグループの総数、rは期待値

を出すために必要としたパラメータの数である。例えば、正規分布に当てはまるかどうかを検定

する際に、標本平均と標本分散を使って期待値を出した場合は r = 2ということになる。

例　あるさいころを何回か振って次のように目が出た。このさいころは公正なさいころといえ

るか。

1（２２回）、２（１２回）、３（９回）、４（１５回）、５（１３回）、６（１９回）

それぞれの目が出る確率は 16 という仮説を立てる。全部で９０回振っているのでそれぞれの目

が出る期待値は１５である。グループの数は６、使っているバラメータはない。検定統計量X2は

次のようになる。

X2 =(22− 15)2

15+

(12− 15)2

15+

(9− 15)2

15

+(15− 15)2

15+

(13− 15)2

15+

(19− 15)2

15

=114

15= 7.6

危険率を 0.05として、自由度５のカイ２乗分布の棄却域は {x2 > 11.07}であるから、これにあてはまらず帰無仮説は採択となる。このさいころは不公正のものとは言えない。

分割表の適合度検定

二つの性質 A,Bがいくつかのグループに分けられグループ Aiとグループ Bj に属するデータの

度数が fij であるとき、以下のような分割表と呼ばれる表のように集計できる。

B1 B2 · · · Bj · · · Bc 計　

A1 f11 f12 · · · f1j · · · f1c f1·

A2 f21 f22 · · · f2j · · · f2c f2·

· · ·Ai fi1 fi2 · · · fij · · · fic fi·

· · ·Ar fr1 fr2 · · · frj · · · frc fr·

計 f ·1 f·2 · · · f·j · · · f·c f··二つの性質が独立であるとき、Aiに属する確率 piとBj に属する確率ｑj を使って、AiかつBj

に属する確率は πij = pi · qj と表される。データの総数を n = f·· とすれば、各グループに属する

確率の推定値は

pi =fi·n, qj =

f·jn

である。よって期待度数は eij = npiqj =fi·f·j

n となる。前の適合度検定と同様に次のような検定

統計量を考えると近似的に自由度 ν のカイ２乗分布に従う。ここで ν = (r − 1)(c− 1)である。

X2 =

r∑i=1

c∑j=1

(fij − eij)2

eij=

r∑i=1

c∑j=1

f2ij

eij− n

上の式は以下のように変形すると計算が容易になる場合がある。

37

X2 = n

r∑i=1

c∑j=1

f2ij

fi·f·j− 1

各度数のうち、５未満のものがある場合は近似の精度が下がるのでグループを併合したり、デー

タの数を増やしたりする必要がある。

例　正月魚の地域性

地域によりお正月に食べる魚に違いあるかどうかを確かめるために水大生にアンケートを取った

ところ次のような結果が得られた。ここでは度数の小さい分類を省略し、魚はサケとブリ、地域は

近畿、中四国、九州だけで集計している。ブリサケ計

近畿 210 8 218

中四国 174 18 192

九州 200 15 215

計 584 41 625

前の計算式で検定統計量を計算するとX2 = 5.51となり、自由度 (3-1)(2-1)=2のカイ２乗分布

の 5%点が 5.99であるので帰無仮説は棄却されない。よって、地域性が見られるというほど偏りは

ない。

38

第4章多変量解析序説

4.0.1 一元配置分散分析

ここでは1、たとえば工場で製品のある成分の含有量は反応温度に左右されるかを実験で調べる

ことを考えよう。以下のような実験データ2が得られたとする。

50度 C 55度 C 60度 C 65度 C

77.4 78.3 79.2 78.9

78.2 78.2 79.3 78.8

78.1 78.4 79.1 78.1

77.8 77.3 78.2 78.1

77.9 79.1 79.3 78.9

一般にある統計量を左右すると思われる一要因 (因子という)についてその効果を見るべく、い

くつかの要因の値 (因子の水準という)についてそれぞれ何度か実験し統計量の実現値の平均値を

比べることを考える。

２つの母集団平均の差を検定する方法は「平均値の差の検定」の項で説明したが、ここでは３つ

以上の母集団平均の比較する方法を使う。この方法は分散の比に関する F 分布の検定を行うもの

で分散分析と呼ばれる。のちに重回帰分析における有意性検定にも用いられる方法である。

今因子 A(上の例なら温度)に対しその比較すべき水準が a個 (上の例なら４個)あるとし、第 i

水準でのくり返し実験数を ri、第 i水準の j 番目の実験値を yij とする。ここで想定する統計モデ

ルとして、

yij = µi + εij

を考える。ここで µi は第 i水準の母平均、εij は各々独立で N(0, σ2)に従う実験誤差である。こ

れを一元配置のモデルと呼ぶ。

さて帰無仮説：

H0 : µ1 = µ2 = · · · = µa

を検定しよう。∑

i ri = nとして µi の重みつき平均を

µ =∑

riµi/n

とおくと、∑

ri(µi − µ) = 0より、H0 は

µi = µ, i = 1, . . . , a

を意味する。ドット記法

yi· =∑j

yij , y·· =∑i

∑j

yij

1「自然科学の統計学」の第３章を参考にしている。2このデータを Excel にコピーするには、表の部分をブラウザの編集メニューでコピーして Excel の編集メニューの貼

り付けでシートにコピーすれば、Excel は HTML の表を Excel の表として表示する。

39

および

yi· = yi/ri, y·· = y··/n

を用いれば、一元配置モデルでの残差平方和は

Se =∑i

∑j

(yij − yi·)2

=∑i

∑j

(y2ij −∑i

yi·)2/ri

であり、Se/σ2 は自由度 νe = n − aのカイ２乗分布に従う。また仮説 H0 のもとで yij = µ + εij

よりH0 のもとでの残差平方和は、

ST =∑i

∑j

(yij − y··)2 =

∑i

∑j

y2ij − y2··/n

となる。仮説H0 を設けたことによる残差平方和の増加分は

SA = ST − Se

=∑i

y2i· − y2··/n =∑i

ri(yi· − y··)2

となる。SA は (Se と独立で)仮説H0 が正しければ自由度 νA = a− 1のカイ２乗分布に従う。し

たがって、仮説H0 のもとで、

F =SA/νASe/νe

が自由度 νA, νe の F 分布に従う。各平均値 µi の違いが大きいなら F は大きくなるので F 分布の

α点を fνA,νe(α)とすると、

F > fνA,νe(α)

のときH0 を棄却する。

4.1 重回帰分析

ある変量 x1, . . . , xp, yのデータ

(x11, . . . , xp1, y1), . . . , (x1n, . . . , xpn, yn)

に対し、このデータが表す yの x1, . . . , xpへの従属関係を１次式 y = b0+b1x1+ · · ·+bpxpで近似的

に表したいとする。このとき x1, . . . , xpを説明変量、yを目的変量という。１次式 f(x1, . . . , xp) =

b0 + b1x1 · · ·+ bpxp は以下の方法（最小２乗法）で決定することができる。

1. 目的変数と説明変数を選択する。

2. 数式のパラメータ b0, . . . , bp を決めるために以下の基準を設ける。

S =

n∑i=1

(yi − f(x1i, . . . , xpi))2

を最小にする。S を偏差２乗和という。

40

3. 上の基準でパラメータ b0, . . . , bp を求めるには、

∂S

∂bi= 0 (i = 0, . . . , p)

の連立方程式を解く。

ここで注意すべきは、一般に最小２乗法において上の連立方程式の解が存在するとしても、偏微

分が 0という条件は極値の必要条件に過ぎなく、(b0, . . . , bp)が上の連立方程式の解であるという

だけではこの解における S の最小性は保証されないことである。しかし以下に示すようにここで

の y = b0 + b1x1 + · · ·+ bpxpのあてはめに関しては上の方法から S を最小にする解を構成するこ

とが可能である。

4.1.1 正規方程式

前節の最小２乗法を実際に遂行してみる。偏差２乗和 Sを b0, . . . , bpの関数と考えれば、求める

(b0, . . . , bp)においては S は極小値をとるから、求める bk の条件は

∂S

∂ak=

n∑i=1

2(yi − b0 − b1x1i − · · · − bpxpi)(−xki) = 0, k = 0, . . . , p

となる。ただし、x0i = 1とする。これを整理すると、(n∑

i=1

xki

)b0 +

(n∑

i=1

xkix1i

)b1 + · · ·+

(n∑

i=1

xkixpi

)bp =

n∑i=1

xkiyi, k = 0, . . . , p

この b0, . . . , bpの連立１次方程式を、正規方程式という。求める bkはこの方程式を解くことによっ

て得られる。p = 1, p = 2の場合の正規方程式を書き下ろしてみると、

p = 1

nb0 +

(n∑

i=1

xi

)b1 =

n∑i=1

yi(n∑

i=1

xi

)b0 +

(n∑

i=1

xi2

)b1 =

n∑i=1

yixi

ns2x =∑

x2i − nx2, nsxy =

∑xiyi − nxy

であることに注意すれば、

b0 =

∑x2i

∑yi −

∑xi

∑xiyi

n∑

x2i (∑

xi)2

=ny∑

x2i − nx

∑xiyi + n2x2y − n2x2y

n2s2x

= rn2ys2x − n2xsxy

n2s2x

= y − xsxys2x

b1 =

∑x2i

∑yi −

∑xi

∑xiyi

n∑

x2i − (

∑xi)

2

=

∑(xi − x)(yi − y)∑

(xi − x)2

= rsysx

41

p = 2

nb0 +

(n∑

i=1

x1i

)b1 +

(n∑

i=1

x2i2

)b2 =

n∑i=1

yi(n∑

i=1

x1i

)b0 +

(n∑

i=1

x21i

)b1 +

(n∑

i=1

x1ix2i

)b2 =

n∑i=1

x1iyi(n∑

i=1

x2i

)b0 +

(n∑

i=1

x2ix1i

)b1 +

(n∑

i=1

x2i2

)b2 =

n∑i=1

x2iyi

こうして求めた一次式 y = f(x1, . . . , xp) = b0 + b1x1 + · · ·+ bpxpを重回帰式という。また、bk

を回帰係数という。

4.1.2 幾何学的考察による正規方程式の解の存在

正規方程式の解は一意でないかもしれないが常に存在する。以下にこれを示す。データ行列 X

を

X =

1 x11 · · · xp1

1 x12 · · · xp2

......

...

1 x1n · · · xpn

, y =

y1

y2...

yn

, a =

b0

b1...

bp

とおくと、一般次の正規方程式の係数行列は、

X ′X =

n∑

x1i

∑x2i · · ·

∑xpi∑

x1i

∑x1i

2∑

x1ix2i · · ·∑

x1ixpi∑x2i

∑x2ix1i

∑x2i

2...

......

. . .∑xpi

∑xpix1i · · ·

∑xpi

2

で、正規方程式はX ′Xb = X ′yと書ける。ここに ′ は行列の転置を表す。

X の列が張る線形空間を V = {Xb : b ∈ Rp}とおく。X に列に関する行列の基本操作を施す

ことで、V の基底を得ることができ、さらにこれをグラムシュミットの直交化法で正規直交基底に

することができる。よって u0, . . . , ur を V の正規直交基底とする (V の正規直交基底は実対称行列

X ′Xの固有ベクトルからも構成できるが省略する -「多変量解析の徹底研究」現代数学社を参照)。

目的変量ベクトル yの V への射影とは、y − uがすべての v ∈ V と直交するような u ∈ V のこ

ととする。このような uは u =r∑

i=0

(y, ui)ui として構成できる。一般に

|v + w|2 = (v + w, v + w)

= |v|2 + 2(v, w) + |w|2

であるから、v ∈ V に対し v − uと y − uが直交することより、

|y − v|2 = |v − u|2 + |y − u|2

ここで v = Xb, u = Xbと書けば、|y − v|2 = S(b), |y − u|2 = S(b)である。このことより、bが

S の最小値を与えることがわかる。

また、xj , j = 0, . . . , pをX の列ベクトルとすると、

(y −Xb, v) = 0, ∀v ∈ V

⇐⇒ (y −Xb, xj), ∀j

⇐⇒ X ′(y −Xb) = 0

42

であるから、Xbが yの V への射影であることは bが正規方程式を満たすことと同値である。

よって、正規方程式には解が存在し S の最小値を与えることがわかった。

X ′X の一般化逆行列 (X ′X)−とはX ′X(X ′X)−X ′X = X ′X なるもののことである。これは実

対称行列X ′Xの固有値から構成できる。正規方程式の解は (X ′X)−X ′yと表すことができる (「多

変量解析の徹底研究」現代数学社参照)。

4.1.3 重回帰式に関する推測

最小２乗解の推定値としての性質

最小２乗解に関する統計的推測をするために問題を以下のようにとらえる (仮定を設ける)。

1. 目的変量 yと説明変量 x1, . . . , xp の間には

yi = β0 + β1x1i + · · ·+ βpxpi + εi

の関係を想定したいが、実際には xk たちの値によって yの値は確定しない。

2. そこで目的変量 yと説明変量 x1, . . . , xp の間には説明変量の値の組 (x1i, . . . , xpi)ごとに

yi = β0 + β1x1i + · · ·+ βpxpi + εi

の関係があるとする。

3. εi = f(x1i, . . . , xpi)− yiは各々独立に正規分布N(0, σ2)に従うものとする (σは既知とはか

ぎらない)。

この仮定のもとに重回帰式

y = b0 + b1x1 + · · ·+ bpxp

における回帰係数 bk は確率変数となる。

bk を βk の最小２乗推定値という。

E(bk) = βk

が成立する。すなわち最小２乗推定値 bk は βk の不偏推定値である。

同じ一次式でも変量の一次式でなくパラメータ b0, . . . , bp の一次式を考える：

l0b0 + · · ·+ lpbp

ここで l0, . . . , lpは 1, x, . . . , xpでも 1, x1, . . . , xpでもよい。こういったモデル (現象を表す数式)を

線形モデルという。

正規方程式が解を持ち解が S の最小値を与えることは l0, . . . , lp が 1, x, . . . , xp の場合も重回帰

とほぼ同様に証明できる。

線形モデルのうち正規方程式の解、最小２乗解には次の統計的性質がある。

定理 4.1.1 (Gauss-Markovの定理の簡単な場合) l1b1+ · · ·+ lpbpの平均値が yに等しいものの

うちで、分散が最小になるのは最小２乗解 l1b1 + · · ·+ lpbp である。

43

重回帰式の有意性の検証 (1) - 分散分析による検定

ここで扱う F 分布による方法は、回帰係数のうち何個が 0であるという帰無仮説を検定するも

のである。したがって次節の t検定による単一の回帰係数が 0であるという帰無仮説を検定する方

法を代替できるものである。

ここでは、単純に回帰係数全部が 0という帰無仮説：

H0 : β1 = · · · = βp = 0

の検定を考える。もしこの仮定が真なら説明変量はすべて目的変量に影響を与えないことになる。

すなわち、

重回帰式が (全体として)有意であるかどうか

を検定することになる。

Se =

n∑i=1

(yi − yi)2, SR =

n∑i=1

(yi − ¯y)2

おく。全変動を

Syy =

n∑i=1

(yi − y)2

とおくと、

Se = Syy − SR

となっている。

一般に (帰無仮説 H0 がなくとも)、Se/σ2 は N(0, 1) に従う互いに独立な νe 個の確率変数の

2 乗和として表すことができることが知られている (「自然科学の統計学」p.56)。ここに νe =

n− rank(X)(X は n× (p+ 1)の説明変量のデータと１からなるいわゆる計画行列)であるが、こ

こでは計画行列の正則性を仮定して、

νe = n− p− 1

としておく。

よって χ2 に関する前述の定理より Se/σ2 は自由度 n− p− 1の χ2 分布に従うことがわかる。

一方、SR/σ2は帰無仮説H0の下でN(0, 1)に従う互いに独立な p個の確率変数の 2乗和として

表すことができることが知られている (「自然科学の統計学」p.56、「多変量解析の徹底研究」など)。

よって χ2 分布に関する前述の定理より SR/σ2 は自由度 pの χ2 分布に従うことがわかる。

したがって、F 分布に関する前述の定理より、帰無仮説H0 の下では、

F =

SR

p

Se

n−p−1

は、自由度 (p, n− p− 1)の F 分布に従う。

これにより、帰無仮説の検定ができる。F は推定による変動が推定誤差に相対的にどのぐらい大

きいかの指標であるから大きい程推定式は有効であることになる。いいかえると、全変動が推定に

よる変動 SR で多く説明できる程推定式は有効であるから、

F = 1/

(Syy/(n− p− 1)

SR/p− p

n− p− 1

)

44

が大きい程推定式は有効である。よって F 分布の α点を fνA,νe(α)とすると、

F > fνA,νe(α)

のときH0 を棄却する。

実は、Ve = Se/(n−p−1)は一般に (帰無仮説H0がなくとも)σ2の不偏推定値であり、VR = SR/p

も帰無仮説の下でなら σ2の不偏推定値であるので、上の F は不偏分散比であるとみなすことがで

きる。そこでこの検定を分散分析という。

重回帰式の有意性の検証 (2) - 重相関係数による方法

次の式は、回帰式による推定誤差（２項目の分子）がデータの全変動（２項目の分母）に占める

割合いの低さを表すものである。

R2 = 1−

n∑i=1

(yi − b0 − b1x1 − · · · − bpxp)2

n∑i=1

(yi − y)2

すでに述べたように、これは R２乗値（重決定係数）と呼ばれ、その平方根は重相関係数と呼

ばれる。重相関係数は、説明変量 yのデータ値 yi と推定値 b0 + b1x1i + . . .+ bpxpi の相関係数に

等しい。

さらにつぎがいえる。

定理 4.1.2 目的変量 yと最大の相関係数を持つ線形モデル b0 + b1l1 + · · ·+ bplp は重回帰式であ

り、そのときの最大相関係数は重相関係数である。(「多変量解析論」北川敏男著、共立出版、p.16

参照)

分散分析による F 検定を行って有意であるという結論を得ても、これは「重回帰式は何らの役

にも立たない」という帰無仮説が棄却されたということであるから、「何らの役にも立たない」と

はいえない、という意味にすぎなく、積極的に役に立つということではない。普通 F 値が相当に

大きくなければ実際に用いるには有効でないことが多い。

重相関係数は、分散分析による有意の結論を補助するために使うことができる。すなわち、重

相関係数が十分大きければ、回帰式は有効、そうでなければあまり有効ではないと判断するので

ある。

回帰係数の区間推定と有意性の検定

帰無仮説H0 : βk = 0の検定を考える。この仮説が真なら説明変量 xk は目的変量に影響を与え

ないことになるから、説明変量 xk あるいは βk の有意性を検定することになる。

定理 4.1.3

tk =bk − βk√akkVe

, k = 1, . . . , p

t0 =b0 − β0√√√√( 1

n +p∑

j=1

p∑k=1

xj xkajk

)Ve

45

なる統計量は、自由度 n− p− 1の t分布に従う。ここに、Ve は残差の不偏分散、すなわち

Ve =

n∑i=1

(yi − f(x1, . . . , xp))2

n− p− 1

であり、また ajk は、偏差積和行列

A = (ajk) =

(n∑

i=1

(xji − xj)(xki − xk)

)

の逆行列の (j, k)成分である。

(証明の概略) (「自然科学の統計学」p.60、「多変量解析の徹底研究」など)

これを利用して、回帰係数の区間推定と有意性 (bk = 0)の検定ができる。まず、

P (tk > tn−p−1(α)) = P (tk < −tn−p−1(α)) =α

2

となる tn−p−1(α)を求めておく。

すると、信頼係数 1− αの βk の信頼区間は[bk −

√akkVe, bk +

√akkVe

], k = 1, . . . , p b0 −

√√√√√ 1

n+

p∑j=1

p∑k=1

xj xkajk

Ve, b0 +

√√√√√ 1

n+

p∑j=1

p∑k=1

xj xkajk

Ve

, k = 0

である。

また、帰無仮説 H0 : bk = 0を検定することを考える。この仮説は説明変量 xk が目的変量の変

化に全く影響しないことを意味するので、これは xk または bk の有意性を検定することになる。

この仮説のものでは、k = 1, . . . , p、k = 0に応じて、

tk =bk√akkVe

, k = 1, . . . , p

t0 =b0√√√√( 1

n +p∑

j=1

p∑k=1

xj xkajk

)Ve

であり、bk が 0から遠い程絶対値の大きな値となる。よって、

|tk| > tn−p−1(α)

であれば、危険率 αでH0 を棄却できる。

4.2 主成分分析

4.2.1 主成分の求めかた

以下のような p変量 x1, · · · , xp からなるデータがあったとする。

46

x1 x11 · · · x1i · · · x1n

......

......

xk xk1 xki xkn

......

......

xp xp1 · · · xpi · · · xpn

このようなデータの最も簡単な例としては p = 2の場合の「身長－体重」データがある。ある集

団の個々人の身長 x1と体重 x2のデータである。以下の説明は最初はこの例に沿って読むと理解し

やすいだろう。

これを x1, . . . , xp座標の集まりと見て x1, . . . , xp空間に点として描いたとき、どの方向に最も広く

点が散らばっているかを調べたとする (その方法は後述)。その方向を (a1, . . . , ap), a21+ . . .+a2p = 1

で表すとして、まず、この方向に原点を通る新しい軸を設ける。点 (x1, . . . , xp)のこの軸に関する

成分 zは、点からこの軸に下ろした垂線の足の値を読めばよいから、内積

z = a1x1 + . . .+ apxp

である。この z を尺度として各レコードを評価することで、集団内の個の特徴ひいては集団の特

徴をきわだたせようとするのである。このような z を主成分という。以下主成分の求めかたを述

べる。

データ (x1i, · · · , xpi)に対する z の値を zi と書いて、(a1, . . . , ap)方向のデータの散らばりを次

の式で定義する。

V (z) =1

n

n∑i=1

(zi − z)2, z =1

n

n∑i=1

zi

V (z)は zの分散とよばれる。これが最大になる方向 (a1, . . . , ap)を求めることが目標である。V (z)

を x1, . . . , xp, y, a1, . . . , ap で書き換えると、

V (z) =1

n

n∑i=1

{(a1x1i + · · ·+ apxpi)−

1

n

n∑i=1

(a1x1i + · · ·+ apxpi)

}2

=1

n

n∑i=1

a1

x1i −1

n

n∑j=1

x1j

+ · · ·+ ap

xpi −1

n

n∑j=1

xpj

2

=1

n

n∑i=1

{a1 (x1i − x1) + · · ·+ ap (xpi − xp)}2

ここに、xi =1n

∑nj=1 xij である。さらに、

σij =1

n

n∑k=1

(xik − xi)(xjk − xj)

とおけば (σij は xi, xj の共分散とよばれる)、

V (z) = σ11a21 + · · ·+ σppa

2p + 2

∑i<j

σijaiaj

であるから問題は結局、x21 + · · ·+ x2

p = 1の条件のもとに、a1, . . . , ap の２次式

σ11a21 + · · ·+ σppa

2p + 2

∑i<j

σijaiaj

47

の最大値を求めることである。これは、ラグランジュ未定乗数法によれば、a1, . . . , apがこの最大

値を与える必要条件は、

σiiai +∑j =i

σijaj − λai = 0 i = 1, . . . , p

を満たすことである。このような a1, . . . , ap, λを求めることは、

Σ =

σ11 · · · σ1p

......

...

σp1 · · · σpp

とすると (これをデータの共分散行列とよぶ)、固有値問題

Σx = λx

を解くことに等しい。共分散行列は実対称行列であるが、p次の実対称行列は (重複度をこめて)p個

の実固有値を持つことが知られている。Σの固有値の１つをλ、対応する固有値ベクトルを a1, . . . , ap

とする。α = (a1, . . . , ap)とおくと、

V (z) = α′Σα

= α′λα

= λα′α

= λ

よって、最大の固有値に対応する固有ベクトルが V (z)の最大値を与える。この固有ベクトルを

v1 = (a11, . . . , a1p)とすると、

z1 = v(x1, . . . , xp) = a11x1 + · · ·+ a1pxp

を第１主成分という。v1 をこの主成分の方向ということにする。

第１主成分のほかの固有ベクトルにも意味がある。第１主成分に対応する固有値のつぎに大きい

固有値に対応する固有ベクトル、あるいは第一主成分に対応する固有値に複数個の固有ベクトルが

対応するときは第一主成分に対応する別の固有ベクトルを v2 = (a21, . . . , a2p)とすると、

z2 = a21x1 + · · ·+ a2pxp

を第２主成分という。

これの方向 v2は第１主成分の方向 v1に直交するとしてよい。なぜなら、一般に実対称行列の相

異なる固有値に対応する固有ベクトルは互いに直交することが知られているし、同じ固有値に対応

する固有ベクトルは直交するように選ぶことができるからである。すなわち、第２主成分の意味は

第１主成分に直交する方向で最もデータの分散が大きい方向であるということになる。

第３主成分は３番目に大きな固有値に対応する固有ベクトルに対応する主成分で、第１、第２主

成分の方向と方向が直交する中でデータの分散が最も大きくなる方向である。以下、第 p主成分ま

で同様である。

48

4.2.2 寄与率と因子負荷量

主成分は形式的には変量の数だけあるが、普通はすべての主成分を考慮することはない。以下の

(累積)寄与率がどこまでの主成分を考えればよいのかの基準を与える。

p変量の分散 σiiの和∑p

i=1 σiiに対する、第 k主成分 ak の分散 λk(k番目に大きい固有値)の占

める割合

Ck =λk∑pi σii

を第 k主成分の寄与率という。これは、変量の変化を第 k主成分でどのぐらい説明できるかの指標

であるといえよう。k∑i

Ci

を第 k主成分までの累積寄与率という。これが１に近ければ、第 k主成分までで全体の変化を十分

説明していると考えられるのである。

各主成分 ak と変量 xj の相関係数を主成分 ak の因子負荷量という。因子負荷量を用いて ak と

強い (正負の)相関がある変量を見つけ出すことで、ak の解釈ができる。

因子負荷量はつぎの式で計算される。

rkj =

√λkakj√σjj

4.2.3 相関行列の方法

変量 x1, . . . , xpのスケールが大きく違うときはどうしてもスケールの大きい変量の影響が相対的

に大きくなってしまい、本来の意図からはそれることがある。そういうときは、各変量を

x∗i =

xi − xi√σii

と標準化してから同様に分析を行うことが考えられる。

この方針で同様に分析することは、実は上で xiの分散共分散行列の固有値を求める代わりに xi

の相関係数行列の固有値を求めることに等しい。

49

mantiq contents - 確率統計学mantiq.fish-u.ac.jp/ak/st/st.pdf · 2020. 4. 21. · 1.2.2...

Documents