제2장 graph에 의한 기술통계 - cs.dsu.ac.kr

Post on 01-Nov-2021

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

통계학입문

제2장 Graph에 의한 기술통계

통계학입문 2

기술통계 ( Descriptive Statistics )

자료의 대략적인 모습을 보여주기

섬세한 분석을 위한 기초단계

수치에 의한 자료의 요약

예 ) 평균, 분산 등

Graph나 표를 이용한 기술

통계학입문 3

1. 도수분포표 ( Frequency Distribution )

자료의 전체적인 구성 형태를 도수 ( Frequency ) 로 표현함

명목자료나 순서자료

값들을 그대로 사용하거나 그 종류가 너무 많으면 비슷한 값들을 묶어 사용

예: 어떤 부류의 동호인들이 동호인 마을을 이루고 있는 지 13개 마을을 조사하였다.

• 음악, 미술, 미술, 영화, 역술,

• 음악, 음악, 영화, 미술, 영화,

• 미술, 음악, 음악

통계학입문 4

1. 도수분포표 ( Frequency Distribution )

상대도수 ( Relative Frequency )

상대도수분포표 ( Relative Frequency Distribution )

수전체자료의

도수상대도수

음악인 마을이 38%로 제일 많고, 역술인 마을이 8%를 차지

통계학입문 5

1. 도수분포표 ( Frequency Distribution )

구간 ( 또는 계측 ) 자료인 경우, 전체범위를 몇 개의 계급 ( Class ) 으로 나눔

예 : 몸무게 50Kg 미만, 50Kg 이상 60Kg 미만, 60Kg 이상 70Kg 미만, 70Kg 이상

각 계급에 속하는 자료의 수를 도수로 표현

모든 계급구간 ( Class Interval ) 또는 계급폭 ( Class Width ) 은 동일

처음과 끝의 계급은 제외

통계학입문 6

1. 도수분포표 ( Frequency Distribution )

누적도수 ( Cumulative Frequency )

아래 계급에서부터 차례로 도수를 누적시키며 구함

누적상대도수 ( Cumulative Relative Frequency )

통계학입문 7

2. Bar Chart와 Pie Chart

명목자료를 Graph로 표시

Bar Chart Pie Chart

각 항목의 각도 = 360 * 상대도수

통계학입문 8

3. Histogram

순서형 자료와 숫자형 자료를 도수분포표를 이용하여

Graph형태로 나타낸 것

통계학입문 9

3. Histogram

자료에 대한 정보를 특징적 형태로 제공함

대칭 ( Symmetry )

왜도 ( Skewness ) : 좌우로 쏠려있는 정도

양의 왜도 ( Right skewed ) : 오른쪽으로 길게 늘어짐

음의 왜도 ( Left skewed ) : 왼쪽으로 길게 늘어짐

통계학입문 10

3. Histogram

모양 ( Shape ) : 종 모양 ( Bell Shape ), L자 모양, U자 모양

봉우리 개수 : 단봉 ( Unimodal ), 2봉 ( Bimodal )

상이한 집단의 자료들이 섞여 있을때

남녀 구별하지 않은 몸무게 자료

서울 강남과 강원도 삼척의 Apartment 가격 자료

통계학입문 11

히스토그램 형태

4. 줄기 잎 전시 ( Stem – and – Leaf Display )

Histogram을 옆으로 돌려 놓은 것과 동일

Histogram이 생략하는 정보를 추가로 표현

각 자료의 값을 알 수 있음

통계학입문 12

4. 줄기 잎 전시 ( Stem – and – Leaf Display )

누적도수곡선 ( Ogive ) : 도수를 누적 ( Cumulative Frequency ) 하여 꺾은선 Graph 형태로 그린 것

삼성전자 증권시세 누적도수곡선

0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

120.00%

0 100000 200000 300000 400000 500000 600000 700000 800000

통계학입문 13

5. 상자그림 ( Box Plot )

자료를 개괄적으로 알아보기 위함

다섯숫자요약 ( Five - Number Summary )

최소값, 1 4분위수 ( First Quartile ), 중위수, 3 4분위수 ( Third Quartile ), 최대값

자세한 내용은 3장 참조

다섯숫자요약을 이용하여 Graph로 그린 것이 상자수염그림 ( Box – and - Whisker Plot ) 또는 상자그림 ( Box Plot )

1 4분위수와 3 4분위수로 상자의 길이가 결정

중위수 위치에 상자의 가운데 선

통계학입문 14

5. 상자그림 ( Box Plot )

1871년에서 1970년까지 Aswan에서 잰 Nile강 유량의 다섯숫자요약

Min. 1st Q. Median 3rd Q. Max.

456 798.5 893.5 1032 1370

[ 그림 2.7 ] Nile강 유량 상자그림

600 800 1000 1200 1400

통계학입문 15

5. 상자그림 ( Box Plot )

그림 2.8은 태양흑점의 상자그림

투키 ( John W. Tukey ) 제안한 방법에 의하여 그린 상자그림

자세한 내용은 Exploratory Data Analysis ( John W. Tukey, 1970, Addison - Wesley Publishing Co. ) 또는 R을 활용한 탐색적 자료분석 ( 허명회, 2007, 자유Academy )을 참조

[ 그림 2.8 ] 태양흑점 상자그림

0 50 100 150

통계학입문 16

삼성전자와 엘지전자의 2005년 1-2월 주식시세

60,000

65,000

70,000

75,000

80,000

85,000

420,000 440,000 460,000 480,000 500,000 520,000 540,000

삼성전자

엘지

전자

6. 산점도 ( Scatter Plot, Scatter Diagram )

두 변수의 연관성을 보여줌

X, Y축 위에 점으로 각 자료를 표시

선형성 ( Linearity )

양의 선형관계, 음의 선형관계

통계학입문 17

<이차원분할표>

<삼차원분할표>

7. 분할표 ( Contingency table )

두 개 이상의 명목형, 순서형 변수에 대한 2차원 또는 다차원 형태의 도수분포표

통계학입문 18

삼성전자

400,000

450,000

500,000

550,000

600,000

650,000

700,000

1 22 43 64 85 106 127 148 169 190 211 232

<삼성전자 주식의 시간에 따른 가격 변화>

8. 시계열그림 ( Time Series Plot )

시간의 변화에 따라 얻게 되는 시계열자료를 Graph로 표현

( 예. 매년 태양의 복사량, 계절에 따른 온도의 변화, 각 분기별 소비물가지수, 매일의 증권시세 등 )

X축 : 시간, Y축 : 해당자료

통계학입문 19

9 평행좌표그림 ( Parallel Coordinates Plot )

다변량자료를 2차원 평면에 나타내고 그 해석을 직관적으로 할 수 있다는 편리성 때문에 널리 사용되고 있는 Graph 기법

각 변수 (변량) 을 평행으로 늘어 놓고 다변량 개별 자료를 선으로 이어 놓은 것

자료가 너무 많아 선들이 겹쳐 따라 전체적인 Pattern을 볼 수 없는 경우도 있고, 변수가 너무 많으면 평행좌표들 사이가 너무 가까이 있게 되고, 어떤 순서로 좌표를 그리는 것이 좋은 지 알기 어렵다는 단점

통계학입문 20

9 평행좌표그림 ( Parallel Coordinates Plot )

선들이 무리지어 같은 Pattern으로 이어져 있는 것으로 자료에 군집이 존재하는 지 알 수 있고, 한 축에서 다른 축으로 연결될 때 큰 값끼리, 작은 값끼리 연결 된다면 두 변수는 서로 양의 관계 ( Positive Relationship ) 이고, 큰 값은 작은 값, 작은 값은 큰 값으로 연결 된다면, 즉 선들이 X자로 교차된다면, 두 변수가 음의 관계( Negative Relationship ) 라는 것을 알 수 있음

통계학입문 21

9 평행좌표그림 ( Parallel Coordinates Plot )

그림 2.11 붓꽃자료의 평행좌표그림

Min

Max

Sepal.Length

Sepal.W

idth

Peta

l.Length

Peta

l.W

idth

통계학입문 22

9 평행좌표그림 ( Parallel Coordinates Plot )

그림 2.12 붓꽃의 종류별 평행좌표그림

Sepal.Length

Sepal.Width

Petal.Length

Petal.Width

Min Max

setosa versicolor

Sepal.Length

Sepal.Width

Petal.Length

Petal.Width

virginica

통계학입문 23

10 종횡비 ( Aspect Ratio )

우상향 방향으로의 증가 또는 우하향 방향으로의 감소 경향이 있는 자료

X축과 Y축의 척도에 대한 것이 아니고 실제 그려 놓은 Graph의 X축과 Y축의 비율을 의미

실제 Graph의 세로와 가로의 비율을 의미

예 : Centimeter 단위의 키 ( X축 ) 와 Kilogram 단위의 몸무게 ( Y축 ) 를 산점도로 그린다고 할 때 자료에서의 최대, 최소 값에 의하여 적당한 X축은 150에서 190, Y축은 60에서 85로 정하였다고 할 때 종횡비를 5대 5로 그린 Graph와 8대 7로 그린 Graph가 주는 정보가 서로 다를 수 있음

증가 또는 감소의 경향이 양 또는 음의 방향으로 45도가 되도록 그리는 것이 좋다고 알려져 있음

통계학입문 24

10 종횡비 ( Aspect Ratio )

그림 2.13과 그림 2.14는 1700년부터 1988년까지의 태양 흑점수의 Graph

그림 2.13은 종횡비 1 : 1로 그린 Graph이고, 그림 2.14는 종횡비 1 : 10 이상으로 그린 Graph

그림 2.13은 극대, 극소값을 찾기는 쉽지만 그림 2.14에서는 약 11년 주기의 태양 흑점수의 변동을 볼 수 있고, 한 주기 내에 증가와 감소의 시간이 거의 비슷한 경우가 몇 개 있으나, 전체적으로 증가 할 때는 빠르게 증가하나 감소하는 시간은 그 보다 오래 걸린다는 것을 눈으로 확인할 수 있음

통계학입문 25

10 종횡비 ( Aspect Ratio )

[ 그림 2.13 ] 태양의 흑점 ( 종횡비 1 : 1 )

Number of Sunspots, 1700-1988

Time

su

nsp

ot.ye

ar

1700 1750 1800 1850 1900 1950

05

01

00

15

0

통계학입문 26

10 종횡비 ( Aspect Ratio )

[ 그림 2.14 ] 태양의 흑점 ( 종횡비 1 : 10 이상 )

1700 1750 1800 1850 1900 1950

01

50

통계학입문 27

Excel 연습

동호인 마을 13군데 ( 어떤 동호인들이 살고있나 )

음악, 미술, 미술, 영화, 역술, 음악, 음악, 영화, 미술, 영화,

미술, 음악, 음악

이 자료의 변수명은 ‘ 동호인 마을 ’

통계학입문 28

Excel 연습

Step 1. 첫 행에 변수명을 먼저 입력한 후 그 밑에 차례로 자료를 Sheet에 입력

※ 주의 : 변수명을 첫 행에 꼭 입력

통계학입문 29

Excel 연습

Step 2. [ 삽입 ] Menu의 [ PivotTable ] 을 선택하면 Pivot Table 만들기 대화창이 나타남

통계학입문 30

Excel 연습

Step 3. [ 표 또는 범위 선택 ] 을 위해 표 / 범위의 오른쪽 네모난 Tap을 Click하면 Data를 입력할 창이 나옴. 이 때 Data 전체를 Drag하여 Data 범위를 $A$1:$A$14이 되도록 함. 그 후 오른쪽 Tap을 다시 Click

※ 주의 : $A$1는 Data가 아님. 그러나 Pivot Table을 만들기 위하여는 $A$1가 Data의 범위에 들어가야 함

통계학입문 31

Excel 연습

Step 4. Pivot Table 대화창에서 Pivot Table 보고서 작성 위치를 기존 WorkSheet로 선택하고 C3 Cell을 지정한 후 확인을 선택

통계학입문 32

Excel 연습

Step 5. WorkSheet에 다음과 같이 나타남

통계학입문 33

Excel 연습

Step 6. Pivot Table Field 목록의 “ 보고서에 추가할 Field 선택 ” 에 동호인 마을을 선택하면 행 Label에 동호인 마을이 나타남

통계학입문 34

Excel 연습

Step 7. 다시 Pivot Table Field 목록의 동호인 마을을 우Click 하여 값에 추가를 선택

통계학입문 35

Excel 연습

Step 8. 그러면 도수분포표의 역할을 하는 Pivot Table이 완성

통계학입문 36

Excel 연습

Step 9. [ Pivot Table 도구 ] 중 [ Option ] 을 선택하여 [ Pivot Chart ] 를 선택

통계학입문 37

Excel 연습

Step 10. 세로막대형 중 첫 번째 것을 선택한 후 확인

통계학입문 38

Excel 연습

Step 11. 그러면 Chart1에 다음과 같이 Histogram이 그려짐

통계학입문 39

Excel 연습

Step 12. 오른쪽 MouseButton을 이용하여 하나 더 복사

통계학입문 40

Excel 연습

Step 13. 복사한 Chart를 오른쪽 Mouse로 Click한 후 Chart 종류 변경을 선택

통계학입문 41

Excel 연습

Step 14. Chart종류 : 원형을 선택하고 확인

통계학입문 42

Excel 연습

Step 15. 결과로 얻어진 Histogram과 Pie Chart

top related