lecture5...
TRANSCRIPT
信頼性⼯学第5回:データの統計解析1(統計データ処理)
千葉⼤学 ⼤学院⼯学研究院 都市環境システムコース岡野 創http://okano-lab.tu.chiba-u.ac.jp/lecture/index.html
講義予定
1
1. 2019年10⽉ 1⽇(⽕) 信頼性と信頼性⼯学(イントロダクション)2. 2019年10⽉ 8⽇(⽕) 信頼性解析の基礎数理1(確率論の基礎)3. 2019年10⽉15⽇(⽕) 信頼性解析の基礎数理2(信頼性の基本量)4. 2019年10⽉29⽇(⽕) 信頼性解析の基礎数理3(故障率と確率分布)5. 2019年11⽉5⽇(⽕) データの統計解析1(統計データ処理)6. 2019年11⽉12⽇(⽕) データの統計解析2(最尤法と確率紙)7. 2019年11⽉19⽇(⽕)データの統計解析3/システムの信頼性18. 2019年11⽉26⽇(⽕) 中間試験9. 2019年12⽉3⽇(⽕) システムの信頼性2(⼀般システムと信頼性設計)10. 2019年12⽉10⽇(⽕) 故障モードの同定(FMEA, FTA, ETA)11. 2019年12⽉17⽇(⽕) 構造物の信頼性⼯学1(破壊確率と信頼性指標)12. 2019年 12⽉ 24⽇(⽕) 構造物の信頼性⼯学2(信頼性解析モデル)13. 2020年 1⽉7⽇(⽕) ベイズ推定14. 2020年 1⽉21⽇(⽕) モンテカルロ法15. 2020年 1⽉28⽇(⽕) 期末試験
確率モデルと確率分布
2
確率統計の教科書では確率論の基礎を述べた後に,代表的な確率分布が短い解説とともに羅列的に紹介されることが多いが,確率分布は確率モデルから導かれている。
既にポアソン分布や指数分布については,どのような確率モデルから誘導されるのかを学んだ。
その他の代表的な確率分布についても,確率モデルとの関連を,簡単に紹介しておく。
中⼼極限定理(central limit theorem)
3
確率変数Xk(k=1,2,…,n)の和はn→∞で正規分布に近づく。 重要な点は,元の確率変数 Xkが従う確率分布に係わらず
成⽴するということである。
正規分布(ガウス分布)
2
1 1exp22
X
XX
xf x
確率変数の積からなる確率変数の分布は?確率変数x1, x2,…, xnからの積からなる確率変数yを考える。
4
1
n
ii
y x
yの対数を取ると,
多数の確率変数ln xiの和からなる確率変数ln yは,中央極限値定理より正規分布に従うと予想される。
このとき,(lnyでなく) xの確率密度関数を求めてみよう。
ln y
※ 累積確率分布関数(CDF)は変数変換して代⼊するだけで良い
確率密度関数(PDF)の変数変換確率変数xとyの間に確定的な関係y=g(x)が成り⽴っているとき, xとyの確率密度関数(PDF)の間には以下のような関係が成り⽴つ。
5
y g x
xdx
dy Y Xf y dy f x dx
Xf x
xとyの関係は確定的であることから,微少区間dxの事象が起こる確率fX(x) dxと,これに対応する微少区間dyの事象が起こる確率fY(y) dyは⼀致しなければならない。
よって,
単純にfY(y)にy=g(x)を代⼊しただけではXの確率密度関数(PDF)は求まらない※ 。
Xf x dx
Yf y dy
対数正規分布の誘導確率変数xの対数y=lnxが正規分布に従うとき,xが従う確率分布を対数正規分布と呼ぶ。以下で,xの確率分布を導いてみよう。
6
yは正規分布に従うので,
2
1 1exp22
YY
YY
yf y
Xf x
2
ln1 1exp22
YX
YY
xf x
確率密度関数の変数変換より,
よって,xの確率密度関数(PDF)は,
Ydyf ydx
0x
対数正規分布
対数正規分布の⺟数は,
7
2
ln1 1exp22
YX
YY
xf xx
ln X
ln X
Xf x
x lnexpm Xx
対数平均
対数標準偏差
※のついた式の証明はLecture5付属ノート参照
対数正規分布の⺟数(1)
8
2ln ln
1ln2X X X
lnexpm Xx
対数平均を平均と対数分散で表すと,
対数平均をもとの変数に戻したものは,確率50%に対応する中央値xmとなる。
すなわち,対数平均は平均の対数より⼩さい。対数分散は,2
2ln 2ln 1 XX
X
ln 1 1x x 対数を1まわりでテイラー展開すると,
よって,対数標準偏差は,近似的に変動係数に等しいln 1X Xv
※
※
xmの下添え字mはmedian(中央値)を表す
※のついた式の証明はLecture5付属ノート参照
対数正規分布の⺟数(2)
9
2ln
lnexp2X
X XE X
22 2 2lnexp 1X X X XE X
平均を対数平均と対数分散で表すと,
分散を対数平均と対数分散で表すと,
※
※
x lnexpm Xx 中央値xm
同じ現象を繰り返される場合の最⼤値を求めるのにも利⽤される
最弱リンクモデル最弱リンクで破損するモデルを考える。1つのリンクの強度の累積確率分布をRX(x)とすると,N個のリンクからなる鎖が破損しない確率RX(x)は,
10
1
N
Xi
R R x
XN x
NXR x
exp ln NXR x
exp ln XN R x
exp XN F x ln 1 1x x x
1廻りのテイラー展開
exp ln 1 XN F x
最弱リンクモデルからワイブル分布へ
11
(前⾴から続く)よって鎖の破損確率は,
1XN XNF x R x
F x
1つのリンクの強度分布をxのべき関数(x/η)m/Nで与えたものがワイブル分布である。
(2.51)既出
信頼度Rが指数関数exp[ ]で与えられている場合(あるいは、破壊確率Fが(1−exp[ ])で与えられている場合)は、同じ現象が繰り返される確率モデルを扱っていると考えられる。
3.信頼性データの統計的解析3.1 統計データの処理3.2 確率分布のあてはめ3.3 確率紙による⺟数の推定3.4 適合度検定
12
統計的推測とは?標本から得られる情報をもとに, ⺟集団の性質を推測することが統計的推測であり,⺟集団の確率分布の型や⺟数を推定することが時計的推測である。
13
⺟集団(population) 標本(sample)
2
xs
標本平均:標本分散:2
⺟数平均:分散:
標本平均や標本分散を求めることが統計的推測ではない。
⺟集団,⺟数
14
⺟集団(population) 対象となる個体全てからなる集合。または,同じ統計的性質を持
つと想定している仮想の集合。 ⺟数(parameter of probability distribution)
確率分布を特徴付ける数で,平均値や分散などが代表例。
⺟数は⺟集団ではないし(誤⽤例①) ,標本数や分⺟でもない(誤⽤例②)。⺟数という⾔葉は誤⽤されることが多い。特性値とでも名付けた⽅が良かったかもしれない。
誤⽤例
• 「⽂科省の調査は⺟数を「就職希望者」としているのに対し、今回の調査は卒業⽣全体を⺟数に取っている。 」(某全国紙)誤⽤例①
• 「そのアンケート調査の⺟数は⼗分だろうか?」誤⽤例②
度数分布表度数分布表:実現値の範囲を適当な等間隔の級(class, bin)に分割し,各級で観測された度数(frequency)を⽰したもの
15
ヒストグラムと累積ヒストグラムヒストグラム(histogram):度数を柱状に表したグラフ
16
累積ヒストグラム(cumulative frequency histogram):累積度数を柱状に表したグラフ累積度数多⾓形(cumulative frequency polygon)
級に分けないと書けない。 累積ヒストグラムでは級に分けているが,本来は級に分ける必要はない。
Excelでヒストグラムを書く準備作業
17
以下の⼿順で,分析ツールを設定するファイルメニュー → オプション → アドイン → 分析ツール →設定 → 分析ツール → OK
操作⼿順
• データタグの右端の分析ツールのボタンを押す。• ヒストグラムを選択してOKを押す。• ⼊⼒範囲にサンプルを指定する。• データ区間に,あらかじめ準備しておいた級の区切りのデータを指定す
る。• 出⼒先を選択し,シート内の適当なセルと指定する。• 累積度数分布の表⽰,とグラフ作成をチェックしてOKを押す。• エクセルの図は100.00%と表⽰されるなど,デフォルトのお⾏儀が悪い
ので,常識的に100%と表⽰するなどの修正を⾏う。
新しいExcelでは,データを選択→挿⼊→グラフ→全てのグラフタグ→ヒスとグラム,でも書けるが,図の加⼯の⾃由度が低く使いずらいので,下記がお薦め
ヒストグラムの作成例
18
級のデータ
• データタグの右端の分析ツールのボタンを押す。
• ヒストグラムを選択してOKを押す。
• ⼊⼒範囲にサンプルを指定する。
• データ区間に,あらかじめ準備しておいた級の区切りのデータを指定する。
• 出⼒先を選択し,シート内の適当なセルと指定する。
• 累積度数分布の表⽰,とグラフ作成をチェックしてOKを押す。
• エクセルの図は100.00%と表⽰されるなど,デフォルトのお⾏儀が悪いので,常識的に100%と表⽰するなどの修正を⾏う。
3.2 確率分布のあてはめ
19
あてはまりそうな確率分布を探す 分布の検定
確率分布の⺟数を推定する1. モーメント法2. 最尤法3. 確率紙を⽤いる
モーメント法標本(サンプル)から各種のモーメントを計算し,解析的に導かれているモーメントと確率分布のパラメータの関係より,パラメータを推定する⽅法。
20
nE X (2.8)
n次のモーメント
n次の中央モーメント
nXE X (2.8)
標本平均(sample mean),標本分散(sample variance)
標本平均: 標本に対して計算した平均値
21
1
1 n
ii
x xn
x n は標本数 が⼤きくなると,⺟集団の平均 に近づく。
22
1
1 n
ii
s x xn
22
1
11
n
ii
s x xn
標本分散:
不偏標本分散:
標本数が⼤きくなれば,標本分散と不偏標本分散の差は⼩さくなるが,不偏標本分散を⽤いる⽅が良い。
ExcelではVAR.P
ExcelではVAR.S
モーメント法の推定値の持つ意味は次回講義
確率分布とモーメント正規分布
22
確率分布の⺟数は平均と分散であり,推定量として標本平均と不偏標本分散を⽤いる。
対数正規分布
確率分布の⺟数は対数平均と対数分散であり,推定量として標本の対数の標本平均と不偏標本分散を⽤いる。
指数分布
tR t e tdR tf t e
dt
T E T t f t dt
確率分布の⺟数は瞬間故障率であり,標本の平均寿命の逆数を⽤いる。
確率分布の形の指標歪度(skewness):確率分布の⾮対称性を表す。
23
3
3
X
X
E x
標準偏差の3乗で基準化した3次の中央モーメント
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 2 4 6 8
2.830.87
0.31
X
X
X X Xv
ln
ln
1.00.3
X
X
0.91 0
対数正規分布
0
正規分布