엑셀에서 분산분석을 용이하게 한다는 것
예제) 일원분산분석 |
초콜릿을 판매하는 12개의 체인점을 가진 회사가 있다고 하자. 이 회사에서는 빨강, 노랑 , 파랑의 세가지 색깔을 이용해 제품을 포장하고 있다. 이제 제품의 포장색깔과 판매량과의 관계를 분석하고자 한다. 다음의 자료는 12개의 체인점 중에서 무작위로 4개를 추출하여 포장색깔과 판매량과의 관계를 나타낸 것이다. 이제 포장색깔과 판매량과의 관계를 분석해보도록 하자.

|
엑셀 따라하기!
풀이과정) 우선 각 체인점의 판매량을 파악하기 위해 그래프를 이용해보자.

각 체인점의 판매량을 비교해보면 세곳에서 빨강색을 포장한 쵸콜릿이 많이 팔리는 것을 알수 있다. 다음은 정말로 포장지의 종류에 의하여 판매량이 영향을 받는지 알아보자 .이러한 경우는 분산분석을 이용하면 포장지의 종류에 따라 판매량에 미치는 영향의 정도를 통계적으로 분석할 수 있다. 우리가 알고자 하는것은 하나의 요인 즉 제품의 포장색깔이 판매량에 미치는 정도이다. 이러한 자료분석은 1요인-분산분석을 하면 쉽게 결과를 알 수 있다.
우선, "무작위추출한 체인점의 판매량은 제품의 포장색깔에의하여 영향을 받지 않는다"는 귀무가설을 설정해 보자. |
1) <도구>-<데이터분석>을 선택한다. [데이터분석]을 지정하면 [통계데이터분석]대화상자가 나타난다. [통계데이터터]대화상자에서 [분산분석 : 일원배치법]을 선택하고 [확인]을 누르면 [분산분석 :일원배치법]대화상자가 나타난다.

|
2) [일원배치법]대화상자는 크게 '입력'과 '출력'옵션 두 부분으로 나누어져 있다. 입력부분에는 대상자료를 입력하는 곳으로 입력범위, 데이터의 방향, 첫째 행의 이름표를 사용하는지의 여부, 유의수준을 입력할 수 있다.
출력옵션에서는 분산분석의 결과를 출력하는 장소를 지정할 수 있다. |
3) 이제 분석대상의 자료를 입력해보자. 우선, 입력범위란에 분산분석을 실시할 자료의 범위를 마우스를 사용하여 드래그한다. 이때 주의 할것은 첫행의 이름표부분을 자료의 입력부분에 포함하고 "첫째항 이름표사용"을 선택한다.
데이터방향은 포장색깔이 열로 자료가 입력되어 있으므로 데이터 방향을 열로 선택한다. 그리고 자료들의 유의수준을 결정해야하는데 일반적인 유의수준은 5%이므로 0.05를 입력한다.
마지막으로 출력범위를 결정하는데 출력범위에 따라 결과가 나타난다. |
 |
[확인]단추를 누르면 출력 범위를 새로운 워크시트에 했기 때문에 새로운 시트가 만들어 지면서 일원분산 분석의 결과가 나타난다. |
 |
결과분석) 결과를 분석하기 위해서는 자유도와 F-값이 필요하다.
① 위 관측치의 자유도는 <셀 12:13>까지 입력되어 있듯이 (2,9) 이고
② F-값<셀 E12>는 3.18(=36/11.3)이다.
따라서 자유도가 (2,9)인 F-분포의 5%의 임계값은 4.26(셀G12)이므로 관측치의 F-값 3.18이 F분포의 기각치 값보다 작으므로 "무작위로 추출한 체인점의 판매량은 제품의 포장색깔애 의하여 영향을 받지 않는다"는 귀무가설은 채택된다.
즉, 제품의 포장색깔은 판매량에 영향을 주지 못한다고 분석할 수 있다. 처음의 시각적인 분석의 결과는 얼핏 보기에 포장지의 색깔이 판매량에 영향을 미치는 것으로 보인다. 하지만 통계적인 분석을 실시한 결과 포장지의 종류가 판매량에 유의하게 영향을 미치지 않는것 으로 나타났다. |
|
예제2) 이원분산분석-반복이 없는경우 |
다음 자료는 각 지역별 디스플레이 전략에 따른 판매액의 변화이다. 이 자료를 분산분석하여 그 결과를 살펴보도록 하자.

위의 자료는 지역과 디스플레이전략이라는 두 가지 요인이 있으며 반복이 없는 실험이다. 그러므로 디스플레이 전략과 지역이 판매액에 미치는 영향을 알아보기 위해서는 두 가지 요인에 대하여 분산분석을 실시하여 각 요인이 판매량에 미치는 영향을 분석하면 된다. |
풀이과정) 디스플레이전략과 판매지역이 판매액에 영향을미치지 않는다는 귀무가설을 설정한다. |
1) 자료를 엑셀시트에 작성하고 메뉴표시줄에서 <도구>-<데이터분석>을 선택한다
[데이터분석]을 지정하면 [통계데이이터분석]대화상자에서 [분산분석 : 반복없는이원배치법]을 선택하고 [확인]단추를 누르면 [반복없는 이원배치법]대화상자가 나타난다.

|
2) [반복없는이원배치법]대화상자가 나타나면 자료의 범위를 입력할 수 있다. 자료를 입력하는 과정은 다음과 같다.
(i) 입력범위에 <셀 A5:D8>까지를 입력한다.
(ii) 입력되는 자료의 범위에 <셀A5:D5>와 <셀A6:A8>부분의 이름표가 포함이 되었으므로 "이름표"를 선택하였다. 이처럼 이름표를 나중에 선택하면 결과물을 출력하였을때 결과의 부분에 이름표와 함께 제시되므로 분석을 쉽게 할 수 있다.
(iii)출력옵션에서는 새로운 워크시트를 지정한다.

|
3) [확인]단추를 누르면 분석의 결과가 새로운 워크시트에 제시된다.

|
결과분석)
▶ 인자A(행)이라고 쓰여져 있는 부분은 원래자료에서 "행"방향으로 입력되어 있던 부분을 가리키는 것으로 본에제에서는 서울,부산, 광주등의 지역을 나타낸다. F-값을 분석하면 지역들의 F-값은 1.65이며, F-기각치의 값은 19이므로 "판매지역이 판매액에 영향을 미치지 않는다는 귀무가설"은 기각되지 않고 채택된다.
▶ 인자B(열)이라고 쓰여져 있는 부분은 원래 자료에서 "열"방향으로 입력되어 있던 부분을 가리키는 것으로 이 예제에서는 디스플레이전략 (가,나)를 나타낸다. F-값을 분석하면 ,전략의 F-값은 25.65이며 F-기각치의 값은 18.5이므로 "판매전략이 판매액에 영향을 미치지 않는다는 귀무가설"은 기각된다.
결과적으로 디스플레이전략과 지역이 판매액에 미치는 영향을 분석하면 지역은 판매액에 별다른 영향을 미치지 못하지만, 매출전략을 판매액에 영향을미치는 것으로 분석되었다. | |
예제3) 이원분산분석-반복이 있는경우 |
H기업에서는 학력정도와 교육방식을 어떻게 변화시켜야 업무의 성과를 높일 수 있는지에 관심이 있다. 따라서 교육방식은 현재 4가지 교육방식을 고려하고 있으며 ,학력의 정도는 세가지로 나누어 분석하고자 한다. 자료를 이용하여 이원분산분서겁을 사용하여 적절한 분석을 실시하고 교호효과가 존재하는지를 알아보자.
|
풀이과정) 이 문제는 교육방식(네가지)과 교육의 정도(세가지)에 따른 업무의 성과를 분석하기 위한 것이다. 이경우 "학력정도와 교육방삭이 업무성과 에 영향을 미치지 않는다"라는 가설을 설정하기로 하자. |
1)메뉴표시줄에서 <도구>-<데이터분석>을 선택한다. [데이터분석]을 지정하면 [통계데이터분석]대화상자가 나타난다. [통계데이터분석]대화상자에서 [분산분석 : 반복있는이원배치법]을 선택하고[확인]단추를 누르면 [반복있는 이원배치법]대화상자가 나타난다.

|
2) [분산분석 : 반복있는 이원 배치법]대화상자가 나타나면 다음의 과정에 따라 자료의 범위를 입력하면 된다.
(i) 분석할 자료를 입력범위에 입력한다.
(ii) 각 요인에 대하여 두 번에 걸쳐서 반복으로 조사하였으므로 "표본당 행수"에 "2"를 입력한다.
(iii) "유의수준"은 일반적인 유의수준인 5%를나타내는 0.05를 입력한다.
(iv) "출력옵션"에서는 새로운 워크시트를 선택한다. |
 |
3)[확인]단추를 누르면 분산분석의 결과가 새로운 시트에 작성된다.

|
결과분석)
(i) 인자A(행)이라고 쓰여져 있는 부분은 원래 자료에서 "행"방향으로 입력되어 있던 부분을 가리키는 것으로 예제에서는 교육방식으로 강의,토의, 사례, 시물레이션등을 나나낸다. 인자A(행)에 대하여 F-값 (셀E37)을 분석하면 교육방식의 F-값은 1.78이며 F-기각치의 값은 3.49이므로 "교육방식이 어무성과에 영향을미치지 않는다"는 귀무가설은 기각되지 않고 채택된다.
(ii) 인자B(열)이라고 쓰여져 있는 부분은 원래 자료에서 "열"방향으로 입력되어 있던부분을 가리키는 것으로 이 예제에서는 학력정도롤 고졸, 대졸, 대학원졸등을 나타낸다. 인자B(열)의 F-값 (셀E38)을 분석하면 학력정도의 F-값은 999이며 F-기각치의 값은 3.885이므로 "학력정도와 교육방식이 업무성과에 영향을 미치지 않는다"는 귀무가설은 기각된다.
(iii)위의 두가지 요인에 의한 교호효과를 분석하면 ,교호 효과의 F-값은 127.89이며, F-기각치는 2.996로서 기각역에 포함된다. 즉, 학력정도와 교육방식간에는 서로 교호효과가 존재하는데 이 교호효과가 업무의 성과에 영향을 미친다는 뜻이다.
결과적으로 학력정도와 교육방법이라는 두 가지 요인이 있으며 반복이 있는 실험일 경우, "학력정도와 교육방식이 업무성과에 영향을 미치지 않는다"라는 가설은 분석한 결과 교호효과가 존재하며, 교육방식은 업무성과에 별다른 영향을 미치지 못하지만, 학력정도와 업무성과에 영향을 미치는 것으로 분석되었다. |
|
예제4) 이원분산분석 - 반복이 있는 경우 |
어느 햄버거 회사에서는 가격과 크기에 따라 판매량이 어떻게 달라지는지를 알아보기 위하여 표본조사를 실시하였고 다음과 같은 데이터를 얻었다. 아래의 자료로 적절한 분석을 실시해보자.

이 문제는 햄버거의 무게와 가격의 두 가지 요인이 판매량에 얼마나 영향을 미치는지를 분석하는 것이다. 그리고 각 요인에 대하여 햄버거를 두번 조사하였으므로 반복이 있는 분산분석이라고 말할 수 있다. |
|
풀이과정) |
1) 자료를 엑셀에 작서하고, 메뉴표시줄에서 <도구>-<분산분석>을 선택한다. [데이터 분석을 지정하면 [통계데이터분석]대화상자가 나타난다. [통계데이터분석]대화상자에서 [분산분석 : 반복있는이원배치법]을 선택하고[확인]단추를 누르면 [반복있는 이원배치법]대화상자가 나타난다.

|
2)여기에 분석대상 되는 자료의 범위를 다음의 과정을 따라서 입력한다.
(i)"입력범위"에 분석할 자료 <셀A6:D10>를 마우스를 사용하여 입력한다.
(ii) 각 요인에 대하여 두 번에 걸쳐서 반복으로 조사하였으므로 2를 입력한다.
(iii) "유의수준"은 일반적인 5%를 나타내는 0.05를 입력한다.
(iv) "출력옵션"에서는 새로운 워크시트를 사용한다.

|
3) [확인]단추를 누르면 새로운 워크시트가 형성되면서 분산분석의 결과가 나타난다

|
결과분석) |
(i) 인지 A(행)이라고 쓰여져 있는 부분은 원래 자료에서 "행"방향으로 입력되어 있던부분을 가리키는 것으로 이 예제에서는 햄버거의 무게를 나타낸다. 인자 A(행)에 대하여 F-값을 분석하면 햄버거무게의 F-값(셀E25)은 1.17이며 F-기각치의 값은 5.98이므로 "햄버거의 무게가 판매량에 영향을 미치지 않는다"는 귀무가설은 기각되지 않고 채택된다.
(ii) 인지 B(열)이라고 쓰여져 있는 부분은 원래 자료에서 "열"방향으로 입력되어 있던 부분을 가리키는 것으로 이 예제에서는 햄버거의 가격을 나타낸다. 인자B(열)의 F-값을 분석하면, F-값(셀E26)은 6.15이며, F-기각치의 값은 5.14이므로 "햄버거의 가격이 판매량에 영향을 미치지 않는다"는 귀무가설은 기각된다.
(iii) 햄버거의 무게와 가격에 의한 교호효과를 분석하면, 교호효과의 F-값은 4.707이며, F-기각치는 5.143으로서 기각되지 않는다. 따라서 햄버거의 무게와 가격 사이엔서로 교호효과가 존재한지 않는다.
결과적으로 햄버거의 무게와 가격이 판매량에 어떠한 영향을 미치는지를 분석한 실험에서 햄버거의 무게는 판매량에 별다른 영향을 미치지 못하고 햄버거의 가격은 판매량에 영향을 미치는 것으로 결론지을 수 있다. | |