Centrl Limit Theorm과 가설 검증

http://wiki.commres.org/CentralLimitTheorem

중요한 것은 n=900이라는 것은 한번에 sampling하는 sample 수이고, 이때의 sigma는 mean에 대한 sigma이므로, 100번하면 그만큼의 비율로 mean이 자리 잡을 것이라는 예상을 할 수있는 근거로 사용한다.

Central Limit Theorem이 사용되는 예를 들어보면 . . . . McDonald 햄버거의 세계시장 공략을 위한 매니저의 역할을 가정해 볼 수 있다.

McDonald 본사의 총괄 매니저인 A는 감자튀김의 원료인 감자의 공급자가 일정 수준의
감자를 꾸준하게 공급해 줄 것을 요구하여 왔다. 공급자는 자사의 감자가 평균 200g이며,
표준편차 값이 15라고 주장하였다. 그러나, 웬일인지 요사이 감자 튀김의 매출이 떨어지게
되었는데. . . . A는 공급되는 감자의 품질검사를 실시하기로 한다. . . .

품질 검사를 위해서 모든 감자를 다 체크해 볼 수는 없는 일이다. 샘플을 이용해서 하는 수 밖에 없다는 생각에 우선 A는 공급사인 C사의 말이 사실이라고 가정을 해본다. A는 공급된 감자에서 900개의 감자를 샘플로 뽑아서 이 샘플의 특징( Statistics )을 살펴보고, 이를 통해서 C사의 진실성에 대한 판단을 하기로 한다 (n = 900).

우선, A는 감자를 뽑기 전에 아래와 같은 가정을 한다.
인 감자의 샘플을 계속 뽑아서, 각 샘플의 평균으로 분포도를 만들어 본다면, 이 분포도는 정규분포를 이룰 것이고,
샘플 평균들의 평균은 C사가 주장하는 원래 평균인 200g일 것이며,
이 특별한 샘플평균 분포의 표준편차(standard deviation 즉, standard error )는 일 것이다. 이를 직접 계산해 보면, 이므로, 이다.
위는 900개짜리 샘플을 뽑았을 때, 나올수 있는 샘플 평균의 범위를 보여준다.

A는 여기까지 가정을 한후에 샘플을 뽑아 보았다. 뽑은 결과, 그 평균이 198g 이 나왔다. 이제 A는 이 결과를 가지고 다음과 같이 생각할 수 있다.

Standard error 값이 .5 이므로 2 단위의 standard error 값을 사용하여 범위를 구하여도 199-201 이다. 이는 n=900인 샘플을 취한다고 가정할 때 100번의 샘플링을 한다고 가정하면 95번 (95%) 은 이 범위에서 샘플의 평균이 나온다고 생각할 수 있다. 그런데, 지금 A가 취한 샘플의 평균은 198g이다. 이것이 의미하는 것은 두 가지인데 . . . .

100번의 95번에 걸리질 않아서 이번 샘플의 평균이 극단치를 가졌다. 그러나, 이렇게 될 확률은 5%정도 밖에 안된다. . . .
C사가 거짓말을 하고 있다. 애초 계약인 200g 에 못 미치는 감자를 공급하고 있다. 즉, A는 C사가 거짓말을 하고 있지 않다고 가정하고 정상적인 샘플링을 하였을 때 나타날 수 있는 샘플 평균의 범위를 그려 보았는데 이번 평균은 그 범위를 벗어났으니, 처음 생각인 A는 C사가 거짓말을 하고 있지 않다는 생각을 부정(혹은 기각) 할 수 있다 . 그러나, 이렇게 생각하여도 위의 1번에서의 오류를 무시할 수는 없다. 즉, C사가 거짓말을 하고 있다고 확신하기에는 5%의 '유별난' 샘플링의 확률이 있다. 따라서, 5% 판단의 잘못을 염두에 두고 C사가 거짓말을 한다고 판단하는 것이 옳다.

저작자표시 비영리 변경금지 (새창열림)

'통계적 사고' 카테고리의 다른 글

확률 관련 사이트 (0)	2011.04.02
큰수의 법칙 (2)	2011.04.01
확률의 세계 (0)	2011.03.24
생활속의 통계분석 (2)	2011.03.23
췌인양 처럼 통계 이해하기 (0)	2011.02.15

Politics Strategy 히언

Centrl Limit Theorm과 가설 검증

통계적 사고 2011. 2. 10. 20:08

티스토리툴바