Practice makes perfect!

[모두의 딥러닝] 3장 가장 훌륭한 예측선 긋기: 선형 회귀 본문

Study/딥러닝

[모두의 딥러닝] 3장 가장 훌륭한 예측선 긋기: 선형 회귀

na0dev 2021. 4. 2. 17:59

딥러닝은 작은 통계의 결과들이 무수히 얽혀 이루어지는 복잡한 연산의 결정체이다. 딥러닝을 이해하기 위해 말단에서 이뤄지는 가장 기본적인 두 가지 계산원리인 선형 회귀로지스틱 회귀를 알아야한다.

 

1. 선형 회귀 (linear regression) : '가장 훌륭한 예측선 긋기'라는 통계학 용어

 

'학생들의 중간고사 성적이 [   ]에 따라 다르다'
[   ] = '정보' = x (독립 변수), 성적 = y (종속 변수, x값에 따라 변함)

선형 회귀란 독립변수 x를 사용해 종속 변수 y의 움직임을 예측하고 설명하는 작업을 말함.

 

  • 단순 선형 회귀(simple linear regression) : 하나의 x 값만으로 y 값을 설명
  • 다중 선형 회귀(multiple linear regression) : x 값이 여러 개 필요

 

(예시)

 

출처=모두의 딥러닝

  이 점들의 특징을 가장 잘 나타내는 선 = 훌륭한 예측선

일차 함수 y = ax + b 에서 최적의 기울기 a 값과 y 절편 b 값을 찾아야 함. 정확한 직선을 그린 후에는 x 값을 대입하여 y 값을 예측해 낼 수 있음.

 

∴ 기존 데이터(정보)를 가지고 어떤 선이 그려질지 예측한 뒤, 아직 답이 나오지 않은 무언가를 그 선에 대입함으로써 예측 가능.

 

2. 최소 제곱법 (method of least squares)

        최적의 a, b 값을 찾기 위해 최소 제곱법 적용. (주어진 x의 값이 하나일 때 적용 가능)

 

최소 제곱법을 통해 a, b 변수값을 구하고, 예측 값을 구하기 위한 직선의 방정식을 완정할 수 있음.

직선의 방정식에 데이터를 입력해 예측 값을 구하고 그 점들을 이으면 오차가 최저가 되는, 주어진 좌표의 특성을 가장 잘 나타내는 직선을 그릴 수 있음.

모두의 딥러닝

 

3. 평균 제곱 오차 (mean square error, MSE)

여러 개의 입력 값을 계산할 때는 임의의 선을 그리고 '오차 평가 알고리즘'을 이용해 선의 오차를 평가하며 수정.

가설 세우기 → 값이 요건 충족하는지 판단 → 변화가 긍정적이면 오차가 최소가 될 때까지 반복.

임의의 직선과 실제 값 사이의 거리

 

빨간색 직선들의 합이 작을수록 잘 그어진 직선 → 직선의 기울기가 중요

오차의 부호때문에 제곱을 하여 정확한 오차의 합을 구함.

(왜 절대값을 씌우지 않고 제곱을 하는지 궁금해서 찾아봤는데, 절대값의 합은 연속이 아니고 미분 불가능하기 때문인 것 같다. 당장 이 식에서 연속이나 미분 가능성을 따지는 것은 아니지만 수학적으로 계산이 용이하지 않기 때문에 차의 합을 구할땐 보통 제곱으로 구하는 것 같다. 분산 구할 때 편차를 제곱한 것 처럼,,!)

 

 선형 회귀란 임의의 직선을 그어 이에 대한 평균 제곱 오차를 구하고, 이 값을 가장 작게 만들어주는 a와 b의 값을 찾아가는 작업. 

반응형
Comments