D.S. MistakesEssay
[데이터 과학자의 흔한 착각 1] Central Limit Theroem(중심극한정리)에 따르면 데이터는 정규분포를 따른다?
공유는 즐거워
2024. 2. 28. 11:03
『데이터 과학자로써의 실수 에세이』
Central Limit Theroem(중심극한정리)를 어설프게 이해하면 다음과 같이 생각한다.
" 데이터가 30개 이상이면 진짜 분포가 뭐였던 간에 정규분포를 가정할 수 있다"
무엇에 대하여 정규분포를 가정할 수 있다는 건지 제대로 이해하고 있는가?
한때는, 전체 데이터가 정규분포를 따르는 것이라고 가정하는 것이라고 착각하였다.
"데이터 자체의 분포가 정규분포를 따르는 것이 아니라, 표본평균의 분포가 정규분포를 따르는 것이다."
다음은 30개의 데이터를 무작위로 만든 예시들이다.
데이터 자체는 30개 이상이든 아니든 데이터 자체가 정규분포화 될수는 없다.
다만, 이 30개의 데이터 안에서 10개의 데이터를 sampling을 하여 sampling한 표본들의 평균을 구해보면 어떨까?
표본의 평균은 정규분포 형태를 보인다. 또한 Trial을 늘릴수록 더욱더 정규분포에 가까워지는 것을 볼 수 있다.
즉, 데이터가 많을 때 데이터 자체가 정규분포를 따르는 것이 아니라, 표본의 평균이 정규분포를 따르는 것이다.