머신러닝 2

[데이터 과학자의 흔한 착각 2_2] 분포(Distribution)라는 것은 머신러닝, 딥러닝과 거리가 멀다?_비용함수와 손실함수

1. 서론 앞서의 글에서 머신러닝과 딥러닝을 이용함에 있어서 분포를 이해함이 어떤 점에서 좋은 지 개념적으로 알아보았다. 그럼 그 분포의 개념이 어떤 점에서 쓰이는지 알아보도록 하자. 2. 손실함수 손실함수(Loss function)이란 실제값에 비해 가정한 모델의 $h(\theta)$가 얼마나 잘맞추었는지 판단하는 함수이다. 보통 다음과 같은 것들을 손실함수라고 정의 한다. Squared Error,제곱오차 = $(y-\hat y)^2 $ Absolute Error, 절대오차 = $ |y-\hat y| $ 이것은 각 하나의 관찰값들에서 구해지는 것인데, 모델 학습에 쓰이는 것은 아래 그림과 같이 보통 N 개의 값들이 존재하므로, 보통 비용함수(Cost function)는 손실함수의 평균으로 정의된다. ..

D.S. MistakesEssay 2024.03.07

[데이터 과학자의 흔한 착각 2] 분포(Distribution)라는 것은 머신러닝, 딥러닝과 거리가 멀다?_개요

『데이터 과학자로써의 실수 에세이』 1. 머신러닝/딥러닝 모델링과 분포 많은 데이터 과학자들은 머신러닝/딥러닝 모델링 과정에서 데이터 분포를 고려하지 않아도 된다고 생각합니다. 이는 데이터 숫자가 충분히 크면 분포에 상관없이 분석을 진행할 수 있다는 인식 때문입니다. 또한, 분포는 통계적 분석, 계수 검증, 신뢰구간 추정, p-value 산출 등에만 필요하다고 여겨지기도 합니다. 하지만 이는 오해입니다. 분포는 기본적인 머신러닝 모델링에도 중요한 역할을 합니다. 2. 분포가 중요한 이유 모델 성능 향상: 데이터 분포를 이해하면 모델 학습 과정을 효율적으로 설계하여 모델 성능을 향상시킬 수 있습니다. 모델 편향 방지: 데이터 분포를 고려하여 모델링을 진행하면 특정 분포에 편향된 결과를 방지할 수 있습니다...

D.S. MistakesEssay 2024.02.28