통계 2

[데이터 과학자의 흔한 착각 2] 분포(Distribution)라는 것은 머신러닝, 딥러닝과 거리가 멀다?_개요

『데이터 과학자로써의 실수 에세이』 1. 머신러닝/딥러닝 모델링과 분포 많은 데이터 과학자들은 머신러닝/딥러닝 모델링 과정에서 데이터 분포를 고려하지 않아도 된다고 생각합니다. 이는 데이터 숫자가 충분히 크면 분포에 상관없이 분석을 진행할 수 있다는 인식 때문입니다. 또한, 분포는 통계적 분석, 계수 검증, 신뢰구간 추정, p-value 산출 등에만 필요하다고 여겨지기도 합니다. 하지만 이는 오해입니다. 분포는 기본적인 머신러닝 모델링에도 중요한 역할을 합니다. 2. 분포가 중요한 이유 모델 성능 향상: 데이터 분포를 이해하면 모델 학습 과정을 효율적으로 설계하여 모델 성능을 향상시킬 수 있습니다. 모델 편향 방지: 데이터 분포를 고려하여 모델링을 진행하면 특정 분포에 편향된 결과를 방지할 수 있습니다...

D.S. MistakesEssay 2024.02.28

[데이터 과학자의 흔한 착각 1] Central Limit Theroem(중심극한정리)에 따르면 데이터는 정규분포를 따른다?

『데이터 과학자로써의 실수 에세이』 Central Limit Theroem(중심극한정리)를 어설프게 이해하면 다음과 같이 생각한다. " 데이터가 30개 이상이면 진짜 분포가 뭐였던 간에 정규분포를 가정할 수 있다" 무엇에 대하여 정규분포를 가정할 수 있다는 건지 제대로 이해하고 있는가? 한때는, 전체 데이터가 정규분포를 따르는 것이라고 가정하는 것이라고 착각하였다. "데이터 자체의 분포가 정규분포를 따르는 것이 아니라, 표본평균의 분포가 정규분포를 따르는 것이다." 다음은 30개의 데이터를 무작위로 만든 예시들이다. 데이터 자체는 30개 이상이든 아니든 데이터 자체가 정규분포화 될수는 없다. 다만, 이 30개의 데이터 안에서 10개의 데이터를 sampling을 하여 sampling한 표본들의 평균을 구해..

D.S. MistakesEssay 2024.02.28