http://blog.naver.com/chain97?Redirect=Log&logNo=50090094742


정말...귀차니즘에 빠져서 얼마만에 하는 포스팅인지....

아무래도 뒤로 갈수록 각종 영어와 로마 문자들이 난무하니까 췌인양도 책을 안 보게 되나보다... 그나마 한글이라는 것도 다 한자음이라서 젠장스럽다...

개인적으로 한자를 좋아하긴 하지만...쓸데없이 쓰는 건 정말 별로다...(영어도 마찬가지야!!!!!영어는 좋아하지도 않는다규!!!!!) 뭐 가끔....단어가 짧아지기도 하고..한자음이라서 알아듣기 편할때도 있지만...



모평균을 모르는 경우..아는 경우 대략 이 정도만 해도 벌써 모평균이 한자음인데...

미지, 기지... 헉...스럽다...

나중에 나오는 말이지만...귀무가설..대립가설...에이 C 맨날 헷갈린다....

(그래도 표본평균..요런 말은 표본의 평균...이 정도로 생각해서 쉬운데....)




자 뭐...어쨌건.... 사실 정규분포의 문제풀이라든가...다른 연속확률분포를 좀 더 소개해야 하지만...오래되서 췌인양도 까먹었고..(^^;;;;;) 그리고 뭐 정규분포의 문제는 지난 번에도 일부 나왔기 때문에... 일단 어물쩍 넘겨본다....참고로....주제의 순서는 뭔 순서냐...면...췌인양이 자주 보는 통계책의 순서 중에 췌인양이 모르거나 공부하기 싫은 거 뺀 순서...라고 해 둔다...

오늘은 표본과 표본분포...등에 대해서 간단히 설명...

아...표본의 수 정하는 거는 좀 더 뒤에 나올 것 같다.. (이게...대략 요정도까지 설명해서 포스팅해야지 하고 생각을 먼저 하긴 하지만...하다보면, 멋대로 흘러가서 ^^;;;;)







자자자....서론이 길었다...

일단, 표본이 무엇인지 다시 한 번 짚고 넘어가자...

흠..지난 번 표본, 평균 등의 설명이 되어 있는 포스팅에 이 그림을 그린 줄 알았더니...추정하면서 그릴려고 안 그렸었나 보다...







그림처럼...우리가 통계를 내고 싶어하는, 관심이 있어 하는 게 바로 모집단이다. 그리고, 그 중에 일부를 뽑아낸 게 (추출..) 바로 표본이 되는 것이다.

예를 들어, 인구조사 할 때 얼마 전 뉴스에서처럼 5천만 번째 주민등록 아기까지 나왔는데 이 5천만 명을 다 조사할 수 없기 때문에 일부만 뽑는 것이 바로 샘플링...

또.. 공장에서 품질 검사 뭐... 예를 들어 유리공장에서 유리가 얼마나 튼튼한지 검사하는 것... 요런 것도 모든 유리를 다 검사할 수 없기 때문에 일부만 뽑아서 한다... 이런 예는 사실 파괴검사라 해서 말 그대로 검사를 하기 위해서는 물건을 파괴하게 되는 경우인데.. 검사하느라 물건을 다 없애버릴 순 없기 때문에 반드시 샘플링해야 한다.



아시다시피.. 모든 것을 다 sampling하냐면..그렇지는 않다...

전수검사라는 것이 있어서...모든 제품을 다 검사하는 경우도 있다... 뭐...인구조사나 출구조사 (선거 때 출구에서 검사하는 것.. ㅋ) 일반적인 리서치 검사들이 샘플조사의 예라면, 수능 후에 학생들의 평균과 편차 등을 얘기하는 것은 전수조사가 될 것이다. (아..처음에 일부만 먼저 발표하는 것은 말고...)

아 정말...평소에는 예를 많이 보는데..꼭 포스팅하려면 딱 알맞은 예가 이리도 생각이 안 나는지....ㅠㅠ











자...그럼 샘플링은 막하느냐....물론 그건 아니다....

일반적으로 제일 알려져 있는..방법은 바로 단순확률표본추출이라고 하는 simple random sampling이다. 흔히 랜덤 샘플링인데... 단순하게 확률적으로, 확률에 의거해 표본을 추출하는 방법이랄까? (^^) 1박 2일에서 복불복 할 때, 처음에는 누구나 다 걸릴 수 있는 똑같은 확률을 가지게 된다. 요게 바로 랜덤샘플링....



그리고, 체계적 표본추출 (systematic sampling) 도 있는데....중고등학교때 선생님들이 질문하거나 나와서 풀어보게 시키는 순서에 이게 많이 활용된다..ㅋ 예를 들어, 오늘 5일이지? 그러시고는.. 5번, 15번, 25번, 35번....이런 거 말이다....

설명하자면...모집단 N개에 모두 일련번호를 부여하고, 일정한 간격마다 하나 혹은 일정한 n개씩 표본을 추출하는 방법이다.



또 많이 쓰이는 샘플링 방법 중에 하나가 층화표본추출 (stratified sampling) 이다. 모집단을 소집단이나 계층으로 구분한 다음 그 크기에 비례해서 샘플링한다. 뭐 또 허접한 예를 들자면...지역별 고등학생 흡연율...같은 걸 본다면... 서울지역 고등학생 수와 강원도 고등학생 수..다 다르니...그 수에 비례해서 샘플링 한다는 의미랄까....(정말 예가 허접스럽군...)



이 외에 군집표본 추출도 있고....비확률적 방법에도 몇 가지가 있지만....뭐 일단, 요 정도에서 끝내기로 하자....췌인양이 늘 주장하지만....머리에 개념만 있다면, 전문가가 아닌 이상 나머지는 책을 찾아보면서 하면 되기 때문이다. (아...다만, 시험이라면 좀 다르겠지만 ^^;;)











얘기가 잠깐 샜지만..어쨌건 이런 여러 방법 중 타당한 방법으로 샘플링을 해서 표본을 뽑았다...이 표본 역시 수의 집합이기 때문에 어떤 평균과 표준편차, 분산 등이 있을 것이다. 그것을 표본평균, 표본표준편차, 표본분산...요렇게 부르는 것이다.



사실은 모집단의 평균, 표준편차, 분산과...표본의 평균, 표준편차, 분산이 똑같아야 할 터인데...이게 그렇게 되는 게 하늘의 별따기보다도 어렵다....우리가 1, 2, 3, 4, 5 라는 수를 가진 모집단에서 3개를 샘플링 했을 때... 1, 3, 5 요렇게 이쁘게 뽑을 확률이 얼마나 되는가.. (물론, 모집단조차도 저렇게 이쁘게 생기지 않았다..ㅋ)



대부분의 경우 모집단보다는 표본의 평균, 표준편차, 분산을 알기가 쉽다. 우리가 알아낸 표본의 평균, 표준편차, 분산을 가지고, 모집단의 평균, 표준편차, 분산이요~ 할 수 없으니, 대신 요쯤 될 것이다...하고 추정을 해 보자는 것이, 말 그대로 ‘추정’이 되는 것이다.









이 추정을 하기 위해서는....먼저 표본분포라는 것부터 알아야 한다...

여기서 먼저 혼동하지 말아야 할 것은....

멍청한 췌인양처럼...표본분포가 표본의 분포구나~~ 하지 말아야 한다는 것이다..

표본분포는....표본평균의 분포..표본분산의 분포....이런 의미가 된다.

여기서...엥? 분포는 집단에서나 있을 수 있는데, 숫자 1개인 평균이 무슨 분포가 있지?? 라고 생각하시는 분들.... 이런 생각을 하신 건 엄청 똑똑하다는 증거!!!!! (물론...틀린 내용이긴 하지만....)

자....천천히 아래 그림을 보면서 설명해 보자....








일단, 모집단은....요런요런 모양의 분포를 이루고, 평균과 분산을 가졌다....

표본을 랜덤샘플링해서 뽑았더니 a라는 평균과 b라는 분산을 가졌다....

요기까지면 문제가 안 되는데.....불신쟁이 췌인양이 혹시나~ 해서 한 번 더 랜덤샘플링을 해서 표본의 평균과 분산을 계산했더니, 이런 젠장...c 와 d라는 값이 나온 것이다.....



모집단 = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 } / 평균 5.5, 분산 9.2

샘플1 = { 1, 5, 10 } / 평균 5.3, 분산 20.3

샘플2 = { 2, 6, 9 } / 평균 5.7, 분산 12.3



예를 들자면 위와 같은 식이다...

그러니, 그림처럼 3, 4차를 넘어서 계속 뽑는다면..그 때마다 다른 숫자가 나올테고....

그래서 표본의 평균이 대략 요런요런 모양을 가지더라는 어떤 집단을 확률적으로 그 분포를 만들어 놓은 것이 바로 표본평균의 분포가 되는 것이다.

헉헉헉....이해가 가셨는지???













자 그럼 표본의 평균은 어떤 분포를 이루는지 한 번 알아볼까???

이걸 도대체 어떻게 알았느냐가 궁금하시다면....물론 통계학자들이 미리 다 연구해 본 결과이다... 표본평균의 분포를 알아볼 때는 두 가지 경우로 나눠서 알아본다...

바로 모집단이 정규분포를 이루냐 아니냐에 따르는 것이다. (뒤에 설명하겠지만...사실은 이것도 크게 상관이 없어지기도 한다....그건 뒤에...)









모집단이 정규분포일 때 그 모집단에서 추출한 표본의 평균의 분포를(헉..헉..) 알아볼까...

평균이 μ, 분산이 인 정규모집단에서 n개의 표본을 추출했을 때.....

그 표본의 평균의 분포는.......평균이 μ 이고, 분산이 인 정규분포를 따른다.

(평균은 똑같고...분산은 n개로 나누어진다...좀 작아지는 거지...생각을 해 보시면 이해가 갈 듯....왜냐면 모집단의 평균을 가지고 분포를 만들었는데.... 그 평균의 평균이니까 같이 똑같아야 하지 않을까?? 그리고 평균만 가지고 분포를 만들었으니 모집단보다는 확실히 그 퍼짐 정도가 줄어야 한다.... 모집단에서 이렇게, 저렇게 샘플링해도 평균이 대략 요런 수들이 나오겠구나 하고 확률적으로 예측, 표현한 것이라는 것을 머리 속에 꼭 넣어두시고 생각하시라....)







잠깐 사족....표본평균의 분포에서 평균이 μ 이고, 분산이 이라면...표준편차는 분산에 루트를 씌운 이 되는 것은 당연히 아실테고.... 이 표본평균의 표준편차를 다른 이름으로 표준오차 (standard error of estimation)라고 한다. 그 이유를 간단히 설명하자면...전수조사가 불가능한 통계조사에선 당연히 표본을 뽑아서 조사를 하게 되는데.... 가능한 모든 표본을 다 뽑는 건 아니다... 대부분 한 번 표본을 뽑아서 조사를 하게 된다. 그 값으로 평균이라고 믿고 추정이나 검정 등에 사용을 할텐데....당연히 오차가 존재하게 된다...



(예를 들자면... 20세 한국남성 키 평균을 100명만 뽑아서 조사했을 때... 175라고 한다면...이를 정말 한국의 20세 모든 남성 키라고 할 순 없다.. 다른 100명을 뽑았을 때 등으로 인해 생긴 이 표본평균의 표준편차는 바로 모집단의 평균이 요정도에서 왔다갔다 할 수 있다는 의미라고 해야 하나.... 그러니까 바로 오차가 될 수 있는 것이다....) 이 복잡다단한 설명이 이유가 되어 표본평균의 표준편차를 표준오차라고 하기도 한다...(단어가 참...ㅠㅠ)











그럼, 모집단이 정규분포가 아니면 어떻게 되는가.... 사실 모집단이 정규분포든 아니든...표본의 크기가 커지면 표본평균의 분포는 저 위에 설명한대로 평균이 μ 이고, 분산이 인 정규분포를 따른다. 이 근거가 바로 중심극한 정리다...(앞 포스팅에서도 살짝 나왔다...)

중심극한 정리를 따른다는 것 정도만 알아두시고...그냥 넘어가셔도 될 듯하다...

그럼 도대체 표본의 크기...즉, 몇 개를 추출해야 저대로 따르나....라고 물어보시면...앞 포스팅에서도 말했듯이, 일반적으로 30개 이상이다.... 그럼 또 물어보시겠지... 표본이 30개가 안 되면 어쩔껀데??? 췌인양 배를 째시라....ㅋㅋㅋ (진짜로 오시는 분 없겠지? 사진이랑 달라서 못 알아보실꺼다 ㅋㅋㅋ )



일단, 통계라는 것을 내려고 생각한다면, 몇 가지 특수한 경우는 30개 이상일 테니, 걱정 안 하셔도 되고....그게 안 된다면....글쎄.... 아직 췌인양은 그 정도 전문가가 아니라서 모르겠다....(췌인양 책에 안 나온단 소리)












그림과 숫자를 보면서 설명할까.... (모집단이 정규분포인 그림이다...)











모집단에서 어떻게 샘플링을 하든, 10개를 하면 대략 평균은 800주변이 많이 나온다는 뜻…이랄까….799, 798, 801, 802 등도 나오긴 하겠지만 말이다…그래서 그 값들을 분포를 만들어 보니 평균은 800, 분산은 4가 나온다는 정도의 의미랄까??? 역시 이것을 구구절절 설명하는 이유는...이 뒤로 표본의 분산의 분포라든가 또 다른 응용된 내용이 조금 나올텐데 그것을 이해하기 편하게 하기 위해서이다.



이 내용들을 제대로 이해하셨다면.... 조금 응용해서 해 보실 생각은....같은 모집단에서 샘플을 이렇게든 저렇게든 뽑으면 표본평균의 분포가 저렇게 된다는 것은 알았는데...그럼 개수...즉 n개를 다르게 해서 뽑으면...어떻게 될까..하는 것이다... 평균은 모집단이든 샘플이든 똑같았으니까 똑같겠지만.... 분산이 다르다... 조금만 생각해보시면 알 수 있는게 표본을 많이 뽑으면 당연히 모집단의 평균에 더 일치한 값들이 많이 나올테니까... (샘플의 표본이 모집단의 표본을 제대로 보여주고 있는거지...) 그러니까 그 퍼진 정도도 작아질 것이다...

그래프로 보자면 요렇게 되겠지....





















음....이제 간단한 예제 하나를 설명해서 이해를 도와볼까...

(지난 번 포스팅한 Z값까지 같이 나오니...인제 슬슬 머리가 아파지시기 시작할 듯...)

이 예제는 췌인양 대학교재였던 공업통계학 (박영사 / 이창훈, 전영호 저)에서 발췌했다..

어떤 전구 생산공장에서 생산되는 전구의 수명은 평균이 800, 표준편차가 40인 정규분포를 따른다고 알려져 있다. 이 공장에서 16개의 전구를 추출해 시험했을 때 평균수명이 775시간 미만일 확률을 구하라.







먼저 우리가 구해야 할 것이 뭔지 정확히 파악해 보자. 두 번째 문장을 보시면 16개를 추출한다 했으니, 표본이고...그 표본의 ‘평균’수명이 775 미만일 확률을 구해야 한다. (표본의 분포가 정규분포라면 Z값을 쓰면 그 확률값을 알 수 있다.. <-- 앞 포스팅...)

앞에 문장을 보시면...저게 바로 모집단이다... 샘플은 16개를 취하지만 모집단이 정규분포를 취한다.

먼저 모집단의 분포는 평균 800, 표준편차 40인 정규분포

그럼 샘플의 분포는 평균 800, 표준편차 10인 정규분포

(샘플의 표준편차 10이 나온 이유...공식은 분산에 루트씌우는 건 아실테고....

40 / 4 여기서, 4는...16개를 루뜨 씌운거임..)



자...이제 표본의 분포가 나왔으니....775미만일 확률을 구해볼까?

z = (775-800) / 10 = -2.5

(혹시 40으로 나누는 거 아니야? 라는 분 안 계시겠지?? 당연히 10으로 나눈다..표본의 분포니까 표본의 숫자로 계산해야 함...)



자..평균이 775보다 작을 확률 즉, P(X<775) 는 P(Z<-2.5)로 변환시켰으니...Z값이 -2.5인 것을 표준정규분포표에서 찾아보면... 0.0062 가 답이 된다....



-> 이 문제의 의미를 굳이 또 한 번 설명하자면...이 공장에서 16개의 전구를 어떻게 샘플하던 간에 그 샘플의 평균은 800, 799, 798, 801, 802 등등의 수가 나올텐데.... 혹시 775보다도 작은 값이 나올 수도 있냐면...있다는 것이다....그렇게 나올 확률은 0.0062밖에 안 된다는 의미....







아우...완전 복잡하다...게다가 설명도 날이 갈수록 구구절절해지는 듯....

가끔 모르는 문제, 궁금한 내용 메일이나 쪽지로 보내주시는 분들 계신데...일단은 기본적으로 췌인양은 그런 거 환영함... 췌인양도 공부가 되기 때문이다...

다만... 췌인양도 지금 이론 책 꺼내들고 공부하는 중이라 답이 틀릴수도 있고 모를수도 있다는 점도 말씀드린다... 최대한 책보고 맞춰가며 말씀드리기는 하려고 한다...
[출처] 췌인양처럼 통계 이해하기 5-1. 표본, 표본분포 중 표본평균의 분포|작성자 췌인
구독하기


스크랩하기

덧글 25개 엮인글 쓰기



‘췌인양처럼 통계이해하기’ 카테고리의 다른 글

미니텝으로 필요한 데이터 만들고 확인해 보기 2/2
2010.10.26

미니텝으로 필요한 데이터 만들고 확인해 보기 1/2
2010.10.24

췌인양처럼 통계 이해하기 5-1. 표본, 표본분포 중 표본평균의 분포 (25)
2010.10.15

췌인양처럼 통계 이해하기 4-3. 정규분포, 표준정규분포, Z값의 개념 (27)
2010.08.29

췌인양처럼 통계 이해하기 4-2. 이산확률분포의 문제풀이 (4)
2010.08.06


▲ top1 2 3









'통계적 사고' 카테고리의 다른 글

확률 관련 사이트  (0) 2011.04.02
큰수의 법칙  (2) 2011.04.01
확률의 세계  (0) 2011.03.24
생활속의 통계분석  (2) 2011.03.23
Centrl Limit Theorm과 가설 검증  (0) 2011.02.10