컴퓨터관련

spss 배우기...펌

맘편한넘 2010. 12. 16. 17:37

SPSS 짜게 배우기

 

1. 파일 - 열기(또는 새로만들기) - 데이터

: 엑셀 파일인 경우는 파일 형식을 .xls 로 바꾸어서 확인하면 됨

2. 파일을 열면

1) 아래에 데이터 보기와 변수 보기가 있다.

2) 변수 보기로 가서 변수의 성질을 결정할 수 있다.

: 이름-유형-자릿수-소숫점 이하 자리-값-결측값 등을 결정

: 값을 결정해야 함(예-남자 1, 여자 2 등)

(값의 없음 셀을 클릭하면 대화창이 뜨고 변수값에 1을 쓰고 변수값

설명에 남자, 추가하고 변수값에 2 쓰고 설명에 여자하고 확인하면 됨)

: 값을 결정하는데 비슷한 변수값이면 복사해서 붙여도 됨.

3. 변수의 종류별 통계학적 검정방법

종속변수명목변수연속변수

명목변수x2 검정t test, 분산분석

독립변수연속변수판별분석, 로지스틱상관분석, 회귀분석

혼합형로지스틱회귀분석

 

4. 빈도분석(frequency)

analyze(분석) - descriptive statistics(기술통계량) - frequency(빈도분석)

원하는 변수를 선택해서 우측으로 옮긴후

통계량(statistics) : 평균, 중앙값, 분산, 표준편차, percentile 선택

도표(charts) : 정규분포 모양, 히스토그램, 막대도표

 

 

5. χ2-test(교차분석, Chi-square test)

독립변수와 종속변수가 모두 명목변수일때 두 변수간의 관련성을 알아보는 방법

분석-기술통계량-교차분석(crosstabs)

행(row) : 세로해당변수(예-비교하고자 하는 데이터)열(column) : 가로해당변수(예-비교하고자 하는 그룹)

통계량(statistics) : 카이제곱(χ2) 선택셀(옵션) : 관측빈도, 행, 열, 전체의 % 선택

EVENT * GROUP 교차표

GROUP

전체

항산화군

tranilast군

EVENT

no

빈도

21

24

45

EVENT의 %

46.7%

53.3%

100.0%

GROUP의 %

70.0%

96.0%

81.8%

전체 %

38.2%

43.6%

81.8%

yes

빈도

9

1

10

EVENT의 %

90.0%

10.0%

100.0%

GROUP의 %

30.0%

4.0%

18.2%

전체 %

16.4%

1.8%

18.2%

전체

빈도

30

25

55

 

EVENT의 %

54.5%

45.5%

100.0%

GROUP의 %

100.0%

100.0%

100.0%

전체 %

54.5%

45.5%

100.0%

카이제곱 검정

자유도

점근 유의확률 (양쪽검정)

정확한 유의확률 (양쪽검정)

정확한 유의확률 (한쪽검정)

Pearson 카이제곱

6.197

1

.013

연속수정

4.572

1

.032

우도비

7.106

1

.008

Fisher의 정확한 검정

.015

.013

선형 대 선형결합

6.084

1

.014

유효 케이스 수

55

a 2x2 표에 대해서만 계산됨

b 1 셀 (25.0%)은(는) 5보다 작은 기대 빈도를 가지는 셀입니다. 최소 기대빈도는 4.55입니다.

그룹간의 event는 동일하다는 영가설에 대한 x2 값이 6.197이고 이에 대한 유의확률이 0.013으로 유의수준 0.05보다 작으므로 영가설을 기각한다.

즉, 항산화제군과 Tranilast 군간의 event 발생간에는 유의한 연관성이 있다고 해석한다.

그러나 보다 정확하게 해석한다면 예에서 자유도가 1이므로 연속성 수정을 해주어야 한다. 그러므로 연속성이 수정된 x2 값(continuity correction)인

4.572에 대한 유의확률이 0.032이므로 영가설을 기각한다.

GROUP

전체

대조군

tranilast군

EVENT

no

빈도

28

24

52

 

EVENT의 %

53.8%

46.2%

100.0%

GROUP의 %

71.8%

96.0%

81.3%

전체 %

43.8%

37.5%

81.3%

yes

빈도

11

1

12

 

EVENT의 %

91.7%

8.3%

100.0%

GROUP의 %

28.2%

4.0%

18.8%

전체 %

17.2%

1.6%

18.8%

전체

빈도

39

25

64

 

EVENT의 %

60.9%

39.1%

100.0%

GROUP의 %

100.0%

100.0%

100.0%

전체 %

60.9%

39.1%

100.0%

카이제곱 검정

자유도

점근 유의확률 (양쪽검정)

정확한 유의확률 (양쪽검정)

정확한 유의확률 (한쪽검정)

Pearson 카이제곱

5.859

1

.015

연속수정

4.378

1

.036

우도비

6.972

1

.008

Fisher의 정확한 검정

.020

.014

선형 대 선형결합

5.767

1

.016

유효 케이스 수

64

a 2x2 표에 대해서만 계산됨

b 1 셀 (25.0%)은(는) 5보다 작은 기대 빈도를 가지는 셀입니다. 최소 기대빈도는 4.69입니다.

두 그룹간의 event는 동일하다는 영가설에 대한 x2 값이 5.859이고 이에 대한 유의확률이 0.015으로 유의수준 0.05보다 작으므로 영가설을 기각한다.

즉, 대조군과 Tranilast 군간의 event 발생간에는 유의한 연관성이 있다고 해석한다.

 

 

 

 

 

# 다단계 2x2 표 분석

위에서 두 그룹간에 event에 차이를 보였는데 예를 들어 대조군과 tranilast 군에서 나이에 따라서 차이가 있을 수 있다는 가정하에 분석을 하자..

평균나이인 60세를 기준으로 60세 이상의 그룹과 60세 이하의 그룹에서 event 발생에 차이가 있는지를 알아보자

 

나이에 따라서 결과가 달리 나온다면..나이가 종속변수(event)와 독립변수(대조군과 tranilast 군)에 모두 관련되어 있기 때문이며 이때 나이가

혼란변수(confounding variable)가 되며 혼란변수의 영향을 통제하지 않고 분석하면 결과에 편의(bias)가 개재된다.

혼란작용을 통제하면서 독립변수와 종속변수 사이의 관련성을 종합적으로 검정할 수 있는 방법이 Mantel-Haenszel x2 검정이다.

 

$ Mantel-Haenszel X2 검정

변환(Transform)-코딩변경(Recode)-새로운 변수로(Into different variables)-구분하려는 변수를 선택

: 나이를 구분하기로 함

: 출력변수(output variable)에 새로운 변수명을 입력하고 변환(change)을 누른 후(예: age !)

기존값 및 새로운 값(old and new values)을 누르면 새로운 창이 뜨고

새창에서 기존값(old value)이 지정되어 있으면 선택하고 만약 연속 변수라면 아래의 범위(range)를 클릭하고

아래에 범위를 정해준다.(예- < 60, > 60) 범위를 정한 후 새로운 값(new value)에

새로운 변수값(예 : < 60 - 1, > 60 - 2)을 입력한다.

아래에 있는 추가(add) 버튼을 클릭해서 원하는 변수를 같이 입력한다.

분석-기술통계량-교차분석(crosstabs)

행(row) : 세로해당변수(예-비교하고자 하는 데이터)

열(column) : 가로해당변수(예-비교하고자 하는 그룹)

레이어 1/1(layer 1/1)에 혼란변수(예; 나이)를 옮긴다.

통계량(statistics) : 카이제곱(χ2), 위험도(risk), Cochran's and Mantel-Haenszel 통계량을 선택

셀(옵션) : 관측빈도, 행, 열, 전체의 % 선택

 

 

HTN * EVENT * AGE1 교차표 - 예를 들어 고혈압 유무에 있어서 60세 이상과 이하의 군에서 event 발생률의 분할표

EVENT

전체

AGE1

no

yes

1.00

HTN

no

빈도

16

2

18

 

 

 

HTN의 %

88.9%

11.1%

100.0%

EVENT의 %

59.3%

50.0%

58.1%

전체 %

51.6%

6.5%

58.1%

yes

빈도

11

2

13

HTN의 %

84.6%

15.4%

100.0%

EVENT의 %

40.7%

50.0%

41.9%

전체 %

35.5%

6.5%

41.9%

전체

빈도

27

4

31

 

HTN의 %

87.1%

12.9%

100.0%

EVENT의 %

100.0%

100.0%

100.0%

전체 %

87.1%

12.9%

100.0%

2.00

HTN

no

빈도

10

1

11

 

HTN의 %

90.9%

9.1%

100.0%

EVENT의 %

40.0%

12.5%

33.3%

전체 %

30.3%

3.0%

33.3%

yes

빈도

15

7

22

HTN의 %

68.2%

31.8%

100.0%

EVENT의 %

60.0%

87.5%

66.7%

전체 %

45.5%

21.2%

66.7%

전체

빈도

25

8

33

HTN의 %

75.8%

24.2%

100.0%

EVENT의 %

100.0%

100.0%

100.0%

전체 %

75.8%

24.2%

100.0%

 

60세 이하에서는 고혈압 유무에 따라 50%로 차이가 없고 60세 이상에서는 고혈압에 따라 12.5% 와 87.5%로 고혈압이 있는 군에서 event의 발생이 높다.

 

 

 

 

 

 

Mantel-Haenszel 공통승산비(Mantel-Haenszel common odds ratio estimate)

연구설계에 따른 위험요인과 질병과의 관련성 크기

추정값

2.709

자연로그(추정값)

.996

자연로그(추정값)의 표준오차

.750

근사 유의확률 (양쪽검정)

.184

95% 근사 신뢰구간

공통승산비

하한

.622

상한

11.791

자연로그(공통승산비)

하한

-.474

상한

2.467

Mantel-Haenszel 공통승산비 추정값은 공통승산비가 1.000이라는 가정하에서 근사적으로 정규분포를 따르므로 추정값의 자연로그도 근사적으로 정규분포를 따릅니다.

연구설계에 따라 혼란변수를 통제한 상태에서 독립변수와 종속변수간의 관련성에 대한 크기와 95% 신회구간을 나타내고 있다. 분석에 사용되었던 자료가

환자-대조군 연구이므로 이 경우 비차비(odds ratio)로 해석한다.

예) 만텔-한첼의 비차비의 값은 2.709로 혈압을 통제한 상태에서 60세 이상이 이하에 비해 event에 이환될 위험이 2.709배 높다는 것을 의미하지만, 95% 신뢰구간이

0.622에서 11.791로 1을 포함하고 있으므로 영가설을 기각하지 못하고 혈압을 통제한 상태에서 나이와 evnet 발생간에는 유의한 차이가 없다고 해석한다.

유의확률이 0.184로 유의수준 0.05에서 영가설을 기각하지 못하였다.

 

위험도 추정값(risk estimate)

95% 신뢰구간

AGE1

하한

상한

1.00

HTN (no / yes)에 대한 승산비

1.455

.177

11.937

코호트 EVENT = no

1.051

.791

1.395

코호트 EVENT = yes

.722

.116

4.482

유효 케이스 수

31

2.00

HTN (no / yes)에 대한 승산비

4.667

.495

43.962

코호트 EVENT = no

1.333

.948

1.875

코호트 EVENT = yes

.286

.040

2.041

유효 케이스 수

33

60세 이상과 이하의 군으로 구분한 상태에서 혈압과 event 간의 관계에서 비차비는 60세 이하에서 1.455, 60에 이상에서 4.667로 높았지만, 95% 신뢰구간이 1을 포함하므로

통계적인 유의성은 없다고 해석한다.

 

 

 

승산비의 동질성 검정

통계량

카이제곱

자유도

근사 유의확률 (양쪽검정)

조건부 독립성

Cochran의

1.803

1

.179

Mantel-Haenzel

.979

1

.322

동질성

Breslow-Day

.573

1

.449

Tarone의

.571

1

.450

조건부 독립성 가정하에서 Mantel-Haenszel 통계량은 자유도 1인 카이제곱 분포를 항상 근사적으로 따르는 반면, Cochran의 통계량은 계층 수가 고정되어 있을 경우에만 자유도 1인 카이제곱 분포를 근사적으로 따릅니다. 관측값과 예측값 차이의 합이 0일 때 Mantel-Haenszel 통계량에서 연속수정이 제거됩니다.

 

각 층(예: 60세 이상과 이하)별로 관련성의 크기가 동일한지를 Breslow-Day 방법으로 분석하여 보여준다.

각 층의 관련성의 크기가 동일하다는 영가설에 대해 x2 통계량이 0.573이고 유의확률이 0.449로서 영가설을 기각하지 못하기 때문에 나이별 관련성의 크기는 동일하며

만텔-한첼 방법으로 혼란변수를 통제한 것을 바람직한 것으로 판단된다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6. t-test

두 모집단의 평균에 차이가 있는지를 판정하고자 할때 사용하는 방법

독립변수는 이분값으로 주어진 명목변수이며 종속변수는 연속형 변수이어야 한다.

1) 독립적인 두 집단간의 평균 비교

분석-평균비교(compare means)-독립표본 T 검정(independent-samples T test)

검정변수(test variables) : 종속변수(연속변수)(예-비교할 데이터)

집단변수(grouping variables) : 독립변수(범주형 변수)(예-비교할 그룹)

집단정의(define groups)-범주형 변수의 값을 기록(예-남녀를 1과 2를 준 경우, group 1에 1, group 2에 2를 각각 입력)

옵션-신뢰구간을 결정(defalut는 95%)

예) 결과 해석 집단통계량

GROUP

N

평균

표준편차

평균의 표준오차

RESTEN-MLD

대조군

39

2.4995

4.6340

.7420

tranilast군

25

2.0580

1.0744

.2149

독립표본 검정

 

Levene의 등분산 검정

평균의 동일성에 대한 t-검정

F

유의확률

t

자유도

유의확률 (양쪽)

평균차

차이의 표준오차

차이의 95% 신뢰구간

하한

상한

RESTEN-MLD

등분산이 가정됨

.908

.344

.467

62

.642

.4415

.9451

-1.4478

2.3308

등분산이 가정되지 않음

.571

44.149

.571

.4415

.7725

-1.1153

1.9982

집단 통계량에서는 평균, 표준편차, 표준오차가 제시되어 있다.

두 집단의 평균에 유의한 차이가 있는지를 검증하기 위해서는 먼저 두 집단의 분산이 동일한지를 알아야 하는데 독립표본 검정에 있다. ‘

두 집단의 분산이 같다라는 영가설에 대하여 F 검정을 실시한 결과(Levene's test)에서 F 값이 0.908이며 유의확률이 0.344로서 유의수준 0.05 보다 크므로 영가설을 수용한다. 그러므로 두 집단의 분산이 같다라고 해석하고 t 검정 결과 중 두 집단의 등분산이 가정됨의 값을 사용한다. 즉 t 값은 0.467로서 두 집단의 평균이 같다라는 가설에 대한 유의확률이 0.642로서 영가설을 수용하고 두 집단간의 MLD는 통계학적으로 유의한 차이가 없다고 해석한다.

2) 짝을 이룬 두 집단간의 평균비교

짝표본이란 모집단에서 표본을 추출할 때 조건이 같은 단위 둘을 한짝으로 설정하고 이 짝을 추출하여 표본으로 삼은 것이다.

분석-평균비교-대응표본 T 검정(paired-samples T test)

짝을 이룬 변수를 차례대로 마우스로 클릭하면 아래쪽의 variable 1과 variable 2에 차례로 들어가고 - 표시가 나타난다. 이것을 눌러주면 오른쪽 상자에 두개의 변수가 들어간다.

옵션 - 신뢰구간을 결정(default는 95%)

6. 분산분석(Anaylysis of Variance, ANOVA)

분산분석이란 셋 이상 모집단의 산술평균에 차이가 있는지를 비교할 때 사용하는 가설검정법.

독립변수는 3개 이상의 범주(category)로 나누어지는 명목변수이며 종속변수는 연속형 변수이어야 함.

# F distribution(F 분포)

모분산이 같은지를 비교할 때 이용

두 모집단에서 추출된 표본들의 분산비 S12/S22 로 이루어지는 표본분포이다.

# 다중비교방법

1. LSD(Least Significant Difference) 방법

분산분석을 하려는 특정요인이 자료수집 전에 미리 결정되어 있었던 경우에 적용

영가설이 잘 기각되지 않는 보수적인 방법

2. Tukey 방법

각 집단의 표본수가 동일하며 짝비교(pairwise comparison)가 주관심사일때 시행

3. Scheffe 방법

각 집단의 표본사가 다르며 짝비교 외에 복잡한 비교를 하고자 할때 적합

1) 일원분산분석(One-way ANOVA)

# 분산분석을 실시하기 위해서 연속변수로 되어 있는 변수를 집단으로 구분해야 한다.

예)체중을 세 개의 그룹으로 나누거나, 대조군과 시험군 등으로 구분..

변환(Transform)-코딩변경(Recode)-새로운 변수로(Into different variables)-구분하려는 변수를 선택

: 출력변수(output variable)에 새로운 변수명을 입력하고 변환(change)을 누른 후

기존값 및 새로운 값(old and new values)을 누르면 새로운 창이 뜨고

새창에서 기존값(old value)이 지정되어 있으면 선택하고 만약 연속 변수라면 아래의 범위(range)를 클릭하고

아래에 범위를 정해준다.(예- < 50mm, 50-100mm, > 100mm) 범위를 정한 후 새로운 값(new value)에

새로운 변수값을 입력한다. 아래에 있는 추가(add) 버튼을 클릭해서 원하는 변수를 같이 입력한다.

 

 

분석(analyze)-평균비교(compare means)-일원배치분산분석(oneway ANOVA)

종속변수(dependent list) : 연속형 변수(비교하고자하는 데이터)(예-나이,성별)

요인(factor) : 독립변수(범주형 변수), 비교하고자 하는 비교군(예-A, B 군)

사후분석(post hoc) : 다중비교를 위해서 Bonferroni, Scheffe, Duncan 등을 선택

옵션 : 통계의 기술통계(descriptive)를 누르면 평균, 표준편차가 제시됨.

기술통계

N

평균

표준편차

표준오차

평균에 대한 95% 신뢰구간

최소값

최대값

하한값

상한값

PREMLD

대조군

39

.5956

.3111

4.981E-02

.4948

.6965

.03

1.31

 

항산화군

30

.4477

.3599

6.571E-02

.3133

.5821

.00

1.40

tranilast군

25

.4508

.3537

7.074E-02

.3048

.5968

.00

1.42

합계

94

.5099

.3428

3.535E-02

.4397

.5801

.00

1.42

POSTMLD

대조군

39

2.7749

.7139

.1143

2.5435

3.0063

1.16

4.79

 

항산화군

30

2.8430

.5407

9.871E-02

2.6411

3.0449

1.79

4.00

tranilast군

25

2.7816

.4421

8.842E-02

2.5991

2.9641

1.95

3.50

합계

94

2.7984

.5923

6.109E-02

2.6771

2.9197

1.16

4.79

RESTEN-MLD

대조군

39

2.4995

4.6340

.7420

.9973

4.0016

.00

30.00

 

항산화군

30

2.0663

1.1771

.2149

1.6268

2.5059

.00

4.00

tranilast군

25

2.0580

1.0744

.2149

1.6145

2.5015

.00

3.50

합계

94

2.2438

3.0905

.3188

1.6108

2.8768

.00

30.00

제곱합

자유도

평균제곱

F

유의확률

PREMLD

집단-간

.490

2

.245

2.137

.124

집단-내

10.436

91

.115

합계

10.926

93

POSTMLD

집단-간

8.832E-02

2

4.416E-02

.124

.884

집단-내

32.533

91

.358

합계

32.621

93

RESTEN-MLD

집단-간

4.358

2

2.179

.224

.800

집단-내

883.885

91

9.713

합계

888.243

93

분산분석

# 모형과 오차에 관한 제곱합(sum of squares), 평균제곱합(mean square)

# 각 집단의 크기가 동일하다는 영가설에 대한 F 값이 있고 이에 해당하는 유의확률이 > 0.05 이므로 영가설을 수용한다. 결국 세 집단간에 크기차이는 통계적 유의성이 없다.

다중 비교

평균차 (I-J)

표준오차

유의확률

95% 신뢰구간

종속변수

(I) GROUP

(J) GROUP

하한값

상한값

PREMLD

대조군

항산화군

.1480

8.224E-02

.204

-5.6684E-02

.3526

tranilast군

.1448

8.676E-02

.253

-7.1075E-02

.3608

항산화군

대조군

-.1480

8.224E-02

.204

-.3526

5.668E-02

tranilast군

-3.1333E-03

9.171E-02

.999

-.2314

.2251

tranilast군

대조군

-.1448

8.676E-02

.253

-.3608

7.108E-02

항산화군

3.133E-03

9.171E-02

.999

-.2251

.2314

POSTMLD

대조군

항산화군

-6.8128E-02

.1452

.896

-.4295

.2932

tranilast군

-6.7282E-03

.1532

.999

-.3880

.3745

항산화군

대조군

6.813E-02

.1452

.896

-.2932

.4295

tranilast군

6.140E-02

.1619

.931

-.3415

.4643

tranilast군

대조군

6.728E-03

.1532

.999

-.3745

.3880

항산화군

-6.1400E-02

.1619

.931

-.4643

.3415

RESTEN-MLD

대조군

항산화군

.4332

.7568

.849

-1.4503

2.3166

tranilast군

.4415

.7985

.858

-1.5456

2.4286

항산화군

대조군

-.4332

.7568

.849

-2.3166

1.4503

tranilast군

8.333E-03

.8440

1.000

-2.0920

2.1086

tranilast군

대조군

-.4415

.7985

.858

-2.4286

1.5456

항산화군

-8.3333E-03

.8440

1.000

-2.1086

2.0920

Scheffe

 

# 각 집단간의 크기에 차이가 있는지를 검정한 표이다. 각각의 집단간의 차이는 유의확률이 < 0.05 시에 통계적인 의미를 갖는다. 위의 자료는 모두 > 0.05 이므로 유의성은 없다.

 

2) 2요인 분산분석(Two-way ANOVA)

2요인 분산분석은 비교집단을 나누는 요인이 둘일때 사용하는 방법

예) 연령과 성별에 따른 혈압의 변화 양상, TG와 그룹간의 MLD 차이

변환(Transform)-코딩변경(Recode)-새로운 변수로(Into different variables)-구분하려는 변수를 선택

one-way ANOVA와 같은 방법으로 두가지 변수를 결정한다.

 

 

2요인 분산분석을 실시

분석(analyze)-일반선형모형(general linear model)-일변량(univariate)

종속변수(dependent list) : 연속형 변수(비교하고자하는 데이터)(예-event, 혈압)

모수요인(fixed factor) : 범주형 독립변수 - TG, group 등

# 2요인 분산분석은 명목변수가 두개이므로(예-TG, group) TG 농도에 따라 집단을 구분한 변수(TGY)와

group에 따라 집단을 구분한 변수(GROUP) 간의 상호작용에 대한 TGY*GROUP 변수가 나온다.

 

개체-간 요인

변수값 설명

N

TGY

1.00

76

2.00

12

3.00

6

GROUP

1

대조군

39

2

항산화군

30

3

tranilast군

25

 

개체-간 효과 검정

종속변수: RESTEN-MLD

소스

제 III 유형 제곱합

자유도

평균제곱

F

유의확률

수정 모형

2.543

8

.318

1.963

.061

절편

3.258

1

3.258

20.118

.000

TGY

.725

2

.363

2.239

.113

GROUP

1.594

2

.797

4.920

.010

TGY * GROUP

.726

4

.182

1.121

.352

오차

13.765

85

.162

합계

21.000

94

수정 합계

16.309

93

a R 제곱 = .156 (수정된 R 제곱 = .076)

# 각 변수들의 효과를 통제한 상태에서 group 간의 event 차이여부를 검정한 F 값이 2.239이고 유의확률이 0.010이므로 TG의 효과를 통제한 상태에서도 유의한 통계학적 차이가

차이가 있고 TG 농도별 event 차이 여부도 F 값이 2.239, 유의확률이 0.113으로 0.05 보다 크므로 group을 통제한 상태에서 TG 농도에 따른 event의 차이는 유의하지 않다.

TG와 group 간의 상호작용이 존재하면 해석에 유의해야 하지만 본 예에서 유의확률이 0.352로 0.05보다 크므로 상호작용이 없다.

 

7. 단순상관관계(bivariate correlation)

회귀 및 상관분석(regression and correlation)은 두 변수가 모두 연속형 변수(continuous variable)일때 두 변수간의 관계를 수식으로

나타내고 그 관련성의 세기(strength)를 검토하는 통계적 기법이다.

두 변수 사이의 관계를 수식으로 나타내는 통계적 기법을 회귀분석이라 하고,

두 변수 사이의 관련성의 세기를 검토하는 통계적 기법을 상관분석이라 한다.

 

# 단순회귀분석

분석-회귀분석(regression)-선형(linear)

예) 총콜레스테롤과 나이와의 관계

종속변수 : 총콜레스테롤

독립변수 : 나이

 

모형 요약

모형

R

R 제곱

수정된 R 제곱

추정값의 표준오차

1

.015

.000

-.016

38.58

a 예측값: (상수), AGE

나이와 TC의 상관관계를 나타내는 R 값은 0.015이고 결정계수(R-square)는 0.000로 종속변수인 TC가 변동이 없다는 것을 설명한다.

 

분산분석 - F 검정을 이용한 모형의 적합도 결과를 나타낸다.

모형

제곱합

자유도

평균제곱

F

유의확률

1

선형회귀분석

22.081

1

22.081

.015

.903

잔차

92264.857

62

1488.143

합계

92286.938

63

a 예측값: (상수), AGE

b 종속변수: TCHOL

F값이 0.015이며 이에 대한 유의확률이 0.903임을 보여주고 있다. 즉 가정된 가설의 회귀계수가 0이라는 영가설을 기각하지 못한다. 나이와 TC 사이에 유의한 상관관계는 없다.

 

 

계수 - 추정된 모형에 대한 회귀계수 및 회귀계수에 대한 유의성 검정결과를 나타낸다.

비표준화 계수

표준화 계수

t

유의확률

모형

B

표준오차

베타

1

(상수)

186.233

33.305

5.592

.000

AGE

0.55

.544

-.015

-.122

.903

a 종속변수: TCHOL

절편(constant)은 186.233 이고 나이에 대한 회귀계수는 xxx 임을 보여주고 있다.

그러므로 TC와 나이의 선형식은 다음과 같다. TC=186.233 + (0,55 x AGE)

 

# 상관분석

분석-상관분석(regression)-이변량상관분석

원하는 두개의 변수를 오른쪽 상자에 넣은 후 OK

correlation coefficient : Pearson

옵션 : 평균과 표준편차, 교차곱 편차와 공분산 등이 가능

상관계수

AGE

TCHOL

LDL

DIA

AGE

Pearson 상관계수

1.000

-.015

-.046

-.219

유의확률 (양쪽)

.

.903

.719

.082

N

64

64

64

64

TCHOL

Pearson 상관계수

-.015

1.000

.784

.036

유의확률 (양쪽)

.903

.

.000

.780

N

64

64

64

64

LDL

Pearson 상관계수

-.046

.784

1.000

.131

유의확률 (양쪽)

.719

.000

.

.302

N

64

64

64

64

DIA

Pearson 상관계수

-.219

.036

.131

1.000

유의확률 (양쪽)

.082

.780

.302

.

N

64

64

64

64

** 상관계수는 0.01 수준(양쪽)에서 유의합니다.

상관분석의 결과 피어슨 상관계수와 상관계수의 유의성에 대한 유의확률을 보여준다.

예를 들어 나이와 LDL의 상관계수는 -0.046이고 유의확률은 0.719로 부변수 사잉에는 선형적으로 유의한 관계가 없다.

8. 선형회귀분석(linear regression analysis)

분석-회귀분석(regression)-선형(linear)

다중회귀분석 실시전에 각 설명변수와 종속변수간의 산포도를 작성하여 극단치(outliers)의 유무과 상관분석으로 상관관계를 보는 것이 좋다.

독립변수(independent) : 원하는 모든 변수들을 넣는다.

종속변수 : 비교하고자 하는 변수를 넣는다. (예= 수축기 혈압에 미치는 나이, 신장, TG의 농도에 대한 검정)

방법(method) : 모든 변수를 다 넣고자 할때(enter), 단계적 변수등록 및 제거,

블록내 변수에 대한 등록 및 제거가 각 단계변로 분석(stepwise)한다.