『데이터 과학자로써의 실수 에세이』 1. 머신러닝/딥러닝 모델링과 분포 많은 데이터 과학자들은 머신러닝/딥러닝 모델링 과정에서 데이터 분포를 고려하지 않아도 된다고 생각합니다. 이는 데이터 숫자가 충분히 크면 분포에 상관없이 분석을 진행할 수 있다는 인식 때문입니다. 또한, 분포는 통계적 분석, 계수 검증, 신뢰구간 추정, p-value 산출 등에만 필요하다고 여겨지기도 합니다. 하지만 이는 오해입니다. 분포는 기본적인 머신러닝 모델링에도 중요한 역할을 합니다. 2. 분포가 중요한 이유 모델 성능 향상: 데이터 분포를 이해하면 모델 학습 과정을 효율적으로 설계하여 모델 성능을 향상시킬 수 있습니다. 모델 편향 방지: 데이터 분포를 고려하여 모델링을 진행하면 특정 분포에 편향된 결과를 방지할 수 있습니다...