이정도로 재미있게 써 놓은 통계책은 본 적이 없다 - 고 하기엔 너무 책을 읽지 않습니다. 죄송. 



겉 표지는 이래도 상당히 흥미롭고 재미있는 책임에는 틀림없으니, 오해 말아 주세요. 

모평균과 모분산은 아무래도 알려져 있기 쉽지 않다. 그러므로 표본을 통한 표본평균과 표본분산을 통해 모집단의 모평균과 모분산을 추정하려고 노력하는 것이 그 목적중의 하나라고 할 수 있겠다. 

보통 모평균은 표본평균으로 대치되는 경향이 있으나, 그래도 약간 틀리는 경향이 있으니, 그것을 추정하려고력하는 것도 중요하다.

평균 : 표본평균은 모평균과 같으며 분산이 모분산의 1/n인 정규분포를 하더라...
분산 : 모분산을 추정하기 위해서 n개의 표본을 추출하여 모분산의 추정값을 구하는데
         이때 편차제곱합/n으로 구하게 되는데, 만일 모집단의 평균을 알아 편차제곱합을 제대로 구하게
         되면 상관없는데, 모집단의 평균을 알지 못하여 표본 평균을 이용하여 편차제곱합을 구한 경우에는
         보통 이 값은 실제 모분산의 추정값에 일치하지 않고 
         조금 작은 값이 된다. 따라서 n-1로 나누어서 조금 큰 값을 만드는데, 
         이 분선을 불편분산 즉 편차제곱합/자유도 라고 부른다. 

         표본분산을 구하기는 쉬우니까 s^2 = 편차제곱합/n 이니까, 
         모분산을 대신할 불편표본분산을 s로 부터 구하려면
             불편표본분산 = 편차제곱합/n-1 = s * n/(n-1)을 해주면 된다. 

모집단을 추정하는 방법중, 모표준 편차를 추정하는 방법이 특이한 방법이 하나 있는 데 그것은 할증계수법과할인 계수법을 이용하는 것이라고 할 수 있겠다. 어쨌거나,
표본표준편차가 모표준편차보다 약간 작게 나오더라
 
하는 성질을 이용하여 표본표준편차를 구한후 거기에 할증계수를 곱하는 것으로 구해 낼 수도 있다. 

t분포란 
일반적으로 알려지지 않은 모평균과 모분산에 의하여 모집단으로 부터 표본을 추출하여 그 추정을 하게 되는데 표본평균과 표본표준편차 s를 대신 사용하게 되는데 어쨌든 이것들은 그 자체가 아니라 대신하는 것밖에 되지 않는다.
평균 : 이때 x-bar를 구하기 위하여 n개로 이루어진 여러개의 sample 그룹을 표본으로 삼아서 x-bar와 x-bar의 표준편차를 구하게 되는데, 이때 x-bar의 불편표준편차는 sigma/rootof n 값이 비슷해 진다는 것이 그 현상이며,
분산 : 모분산은 불편표본분산 즉, 편차제곱합/자유도 = 제곱합/n-1 = n/n-1 * 제곱합/n = n/n-1 표본분산이 된다. 
결국 여기서 모평균과 모분산을 추정할 수 있으나, 한가지 마음에 걸리는 것은 모평균의 신뢰도가 걱정이 되니, 처음의 property 를 이용해서 sigma (모분산)을 알고 있으면 곧바로 Gaussian을 이용해서 모평균의 신뢰도를 구할 수 있겠으나, 그게 아니니까 불편표본분산을 이용해서 모평균을 검정해야 한다. 그러니까 이때 자유도를 이용해서 Gaussian을 그려볼려고 했더니 표본수 즉 자유도에 대해서 Gaussian이 다르게 그러지더라 그것이 t-distribution이라고 할 수 있겠다. (표본수가 30이상이 되면 Gaussian과 비슷해짐)

 



모평균의 구간 추정

모평균의 구간 추정을 할 때는 모분산을 알고 있을 때와 모르고 있을 때가 다르다. (물론이다.)

모분산을 알면 당연히 표본평균 +- 1.96 (95%일때) root (모분산/자료수) 하면되는데,
모분산을 모르면 표본불편분산으로 대치해야 한다.
                             표본평균 +- t 분포에 의한 값 root (불편표본분산/자료수)

모비율의 구간추정
표본비율 = 특성수/ 표본수
                             표본비율 +- 1.96 root (p(1-p)/표본수) 로 추정한다.

모평균추정의 표본수
그렇다면 가장 경제적인 표본수는 어떻게 될까?
                             표본수 = (k(1.96등)/오차한계 X 표준편차) ^2
예) 어떤 제약회사의 화장휴지 길이의 표준편차는 3, 평균길이의 신뢰도 99%에서 오차범위를 1m이내로 할때 필요한 표본수는?

            표본수 = (2.58/1X3)^2 = 59.9 필요한 표본수는 약 60개
             cf) 모비율 추정의 표본수 : 표본수 = p*(1-p)X(k/오차한계)^2 (p가 알려져 있을 때)
                                                표본수 = 1/4 X (k/ 오차한계) ^2 (p를 모를 때)  

귀무가설이란 왜 귀무가설인가?
귀무가설은 버리는 것으로 의미가 있는 가설을 말한다. 즉, 버리는 것이 기대되는 가정으로 "무에 귀착하는 것을 기대하는 가설"이다. 그렇다면 아무것이나 귀무가설이 될 수 있을까? 귀무가설은 확실한 가설이며, 애매한 가설은 귀무가설이 될 수 없다. 귀무가설에 반대되는 가설을 대립가설이라고 부른다. 

예) "두종류의 위스키를 구별할 수 없다" 라는 가설을 귀무가설로 취하는 대신에 "두 종류의 위스키를 구별할 수 있다"라는 것은 주사위를 던져 나오는 눈의 수가 홀수임을 100%알아 맞힐 수 있는 가능성으로부터 90%, 80%, 70%... 등의 여러가지 가능성이 포함되어 있음을 의미한다. 
엄밀하게 말하면 두종류의 위스키를 구별할 수 있다는는 가설은 무한대 수의 가능성이 포함되어 있는 것이며 검정이 불가능해 진다. 하지만 "두 종류의 위스키를 구별할 수 없다"라는 가설은 단지 하나 밖에 없다. 
A에게 실험을 해보자. 두 종류의 위스키를 알아 맞히는 실험인데, 어떤 결과로부터 "두 종류의 위스키를 구별할 수 없다"라는 귀무가설을 버리는 것이 당연한 것일까?"
지금 A가 주사위를 던져 홀수의 눈이 나오면 1, 짝수가 나오면 2라고 정하는 것과 같은 방법을 택한다고 해도, 100회중 50회는 우연히 맞은 것이라고 할 수 있다. 즉, A의 거짓말이 통할 확률이 50%나 되는 것이기 때문에 A가 말하는 것을 인정할 수 없다. 이때 다시 한번 실험을 했을 때 A가 정확하게 맞힌다고 해보자. 그러면 오 아는 것 처럼 보일 수 있다. 그래도 1/2*1/2=1/4의 확률로 요행수가 일어난다. 따라서 우연에 의한 것이라고 볼 수도 있다. 계속 3회 4회를 시도하더라도 맞힐 확률은 존재하며 실험횟수를 늘리면 다행히 가능성은 줄어들지만 맞출 가능성은 Zero가 아니다. 
이런 요행수의 확률이 어느정도 작아져서 확실히 이사람은 구별할 수 있다는 결론에 이르더라도, 대책을 강구하지 않으면 안된다. 그 확률이 보통 5%이하가 되면 우연이 아닌것으로 판단하며, 따라서 5회의 실험에서 모두 맞출 확률 (1/32, 3.125%)는 5%보다 작기 때문에 ㅁ의 능력을 인정하게 된다. 이를 유의수준이라고 하며, 요행수에 속는 비율이라 할 수 있다. 

따라서, 
두 종류의 위스키를 구별할 수 있다는 주장을 확인하기 위해 "구별할 수 없다"는 가설을 세우고, 
만일 귀무가설이 사실이라면, 이런 결과는 100회중 3.125회 밖에 일어나지 않는다. 그러므로 이런 결과가 나온다면 구별할 수 있는 능력이 있다고 결론을 맺으며 즉, 귀무가설은 사실이 아니다 라고 결론 지으면 된다. 

결국 우연히 요행으로 그 결과가 나올수 있는 경우를 귀무가설로 두면 훨씬 다루기 쉽다. 
또는 그렇다 아니다로 간단하게 정의되는 가설 

카이제곱 분포
불일치는 나타내는 측도이다. 특히나 (관측값-기대값)을 판단하게 되는데 음과 양을 구분하면 안되므로 제곱을 하게 된다. 나올 수 있는 outcome의 "종류"-1을 자유도로 정하며, Equally-likely 하면 1/outcome 종류 로 그 기대값이 나오게 될 것이다. 결국 원래 기다값과 얼마나 불일치 한 것인가를 측정하는 것이다.  
(첨부 참고)


회귀식은 왜 회귀식이라고 불리우는가?
예측이 가능한 이유는 모든 통계는 Extreme value가 있다면 다시 평균으로 회귀되도록 장치되어 진다는 의미로 영국의 생물학자 골톤이 명명했다고 한다. 

 

 

'통계적 사고' 카테고리의 다른 글

확률 관련 사이트  (0) 2011.04.02
큰수의 법칙  (2) 2011.04.01
확률의 세계  (0) 2011.03.24
췌인양 처럼 통계 이해하기  (0) 2011.02.15
Centrl Limit Theorm과 가설 검증  (0) 2011.02.10