통계학 기초개념...펌

맘편한넘 2010. 12. 17. 11:43

2010. 12. 17. 11:43

1. 통계학의 기초개념

1) 통계의 정의

통계는 어떤 사실을 수집, 관찰하여 수량적으로 측정하는 과정을 뜻한다.

통계는 수량적 자료를 수집, 분석, 해석하고 이를 이론화하는 도구로서 자료들을 다루는 방법 그 자체를 말하기도 한다.

2) 통계의 기능(Fread N. Kerlinger, 1986)

많은 수량적 자료를 처리가능하고 쉽게 이해할 수 있는 형태로 축소시킨다.

표본을 통해 연구대상 집단의 특성을 유추한다. 연구대상이 너무 커서 개별적인 구성원들을 일일이 조사할 수 없는 경우, 전집에서 소수의 표본을 뽑아서 분석한 수치를 가지고 연구대상 집단의 특성을 추정할 수 있다.

의사결정의 보조수단이 된다.

관찰 가능한 자료를 통해 논리적으로 어떠한 결론을 추출, 검증한다.

2. 통계에서 사용되는 기초개념

1) 모집단(population)

연구자의 관심대상이 되는 모든 개체의 집합을 가리킨다.

2) 표본(sample)

모집단에서 조사대상으로 채택된 일부를 가리키는 용어이다.

3) 모수(parameter)

모집단의 특성을 수치로 나타낸 것을 모수(parameter)라고 한다.

4) 통계량(statistic)

모수를 추정하기 위한 자료로서, 모수를 정확히 반영하였음이 검증되었을 때 자료로서의 의미를 가지게 된다.

5) 변수(variable)

변수(variable)는 우리가 알고 싶은 현상의 특성을 나타내는 개념으로서 변화하는 값을 가지고 있는 것들을 말한다.

ex) 성(性), 몸무게, 키 등

(1) 이산변수(discrete variable)

한 변수의 크기가 명백히 정의 될 수 있는 단계에 의해 표현되는 변수

(2) 연속변수(continuous variable)

두 값 사이에는 항상 제 3의 값이 개제될 수 있는 변수

6)독립변수(independent variable)

시간적으로 선행하거나 영향을 주는 변수

7) 종속변수(dependent variable)

시간적으로 후속되거나 다른 변수에 의해 영향을 받는 변수, 주로 결과를 나타내는 변수를 종속변수로 보는 경향이 있음

8) 측정의 수준

(1) 명목적 수준(nominal level)

명목적 수준은 가장 낮은 수준의 측정방식으로서 고갈성과 상호배타성만을 갖는 경우이다. ex) 성별, 출신지역 등

(2) 서열적 수준(ordinal level)

서열적 수준은 측정 대상의 순위에 따라 수치를 부여하는 것을 말한다. 서열적 수준의 측정치는 두 등급간의 차이가 얼마나 되는지에 대해서 구체적으로 지시해 주지 않고 단지 등급간의 선후, 우열관계만을 가리킬 뿐이다. ex) 사회경제적 지위, 학력 등

(3) 등간적 수준(interval level)

어떤 척도가 서열적 척도와 같이 각 등급의 순위를 매길 수 있고 각 등급들 사이의 간격이 같을 때 그 척도는 등간적이라고 할 수 있다. 하지만 등간척도에서 쓰이는 0은 임의로 선택된 것이며 변인의 값이 완전히 없는 것이 아니다. ex) 온도

(4) 비율적 수준(ratio level)

비율적 수준으로 측정된 척도는 명목적 수준, 서열적 수준, 등간적 수준의 척도가 가지는 모든 속성을 다 가지고 있으면서 절대 영점도 갖느다. 따라서 사칙연산이 가능하다.

ex) 무게, 길이, 속도 등

3. 통계의 유형

1) 기술통계

기술통계는 복잡하고 다양한 수량적 자료를 이해하기 편리하고 의미 있는 형태로 정리하여 제시하는 것을 말한다.

ex) A학급 학생들의 중간고사 점수를 가지고 평균을 구하는 것.

2) 추리통계

추리통계란 모집단에서 뽑은 표본을 통하여 전집(모집단)의 특성, 즉, 모수치를 추정하거나 가설을 검증하는 데 사용되는 통계적 방법을 말한다.

추리통계는 어떤 통계적 방법으로 검증하느냐에 따라 모수적 통계방법(parametric statistic)과 비모수적 통계방법(nonparametric statistic)로 나눌 수 있다. 모수적 통계방법은 모집단의 분포모양이 정규분포라는 가정이 필요하며, 수량적 자료 중에서도 연속적 자료를 주로 사용한다. 비모수적 통계방법에서는 모집단의 분포모양에 대한 가정이 필용 없고, 표본의 크기가 작아도 되며, 질적 자료나 비연속적 자료를 많이 사용한다.

4. 수치에 의한 자료처리 척도

1) 집중경향치

(1) 최빈치(mode)

가장 큰 빈도수를 가진 X의 값을 최빈치라고 한다.

A={1, 2, 2, 3, 4, 4, 4, 5, 6, 7} => 최빈치 4

(2) 중앙치(median)

중앙치란 한 분포 안에 포함된 전체 사례를 이등분하는 점에 해당하는 수치이다.

중앙치는 표본의 변수값의 분포가 한쪽으로 치우쳐져 있을 때 빈도분포의 대푯값으로 자주 사용된다.

B={5, 10, 10, 20, 25, 28, 30, 40} => 중앙치 22.5

(3) 산술평균치(arithmetic mean)

분포 안의 모든 수치들을 다 합하여 그 총합을 전체사례수로 나눈 값으로 가장 흔히 쓰여지고 있는 집중경향치이다.

C={2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} => 평균치 6.5이다.

<산술평균치의 특징>

첫째, 산술평균치로부터 뺀 모든 점수의 차(편차)의 합은 0이 된다 즉 (X-)=0이다.

둘째, 분포가 편포되어 있는 경우에는 극단치에 민감하다.

<?xml:namespace prefix = v /><?xml:namespace prefix = v /><?xml:namespace prefix = o /><?xml:namespace prefix = o />

셋째, 산술평균치로부터 뺀 편차들의 자승합 {}은 어떤 다른 값을 기준으로 얻어진 편차들의 자승합보다 작다.

2) 변량과 표준편차

(1) 변량(분산)

편차를 제곱하여 총합한 다음 이것을 전체 사례수로 나누어서 나오는 값을 변량(variance)이라고 한다.

(2) 표준편차(standard deviation)

표준편차는 변량의 양의제곱근을 취한 값을 말한다

<표준편차의 특징>

첫째, 표준편차는 여러 가지 변산도의 척도 중 표집에 따르는 수치변동이 가장 적으므로 각 사례들의 편차를 기초로 하여 한 분포의 변산 정도를 비교적 정확하게 알려준다. 또한 표집오차가 가장 적은 안정성 있는 변산도 지수이다.

둘째, 표준편차는 평균치처럼 분포상에 있는 모든 점수의 영향을 받기 때문에 점수의 변화에 따라 예민하게 반응한다.

셋째, 한 집단의 모든 점수에 일정한 수를 더하거나 빼도 표준편차는 변하지 않는다.

넷째, 한 집단의 모든 점수에 일정한 상수 C를 곱하면 표준편차는 C배 증가한다.

다섯째, 표준편차와 정규분포는 특정한 관계가 있다. 한 집단의 점수의 분포가 정규분포일 때 그 분포의 평균치와 표준편차를 알면 일정한 점수와 거기에 포함되는 정규분포의 면적(즉, 사례수)과의 관계를 알 수 있다.

5. 정규분포곡선

대부분의 사회통계학적 방법론에서는 연구대상이 되는 모집단이 정규분포를 이룬다는 가정을 하고 있으며, 그러한 가정이 있기 때문에 수치적 자료를 이용한 통계적 추론이 가능하다.

6. 가설검증의 절차

첫째, 모집단의 특성이나 관계에 관한 연구가설(H1)과 영가설(H0)을 수립한다.

둘째, 연구의 결과를 일반화하는 데 따르는 오차의 가능성을 유의수준()과 임계치로 제시한다.

셋째, 연구가설의 채택영역과 기각영역 등 표집분포를 기초로 한 가설검증 규칙읠 특을 제시한다.

넷째, 관련된 표본의 통계치를 수집하여 통계량을 계산한다.

다섯째, 계산된 통계량을 통해 수립한 가설의 채택 및 기각여부를 결정한다.

교차분석.html

0.06MB

맘편한넘

통계학 기초개념...펌

+ Recent posts

티스토리툴바