학습 글
2022.01.21 - [데이터분석과 머신러닝] - 머신러닝 | 회귀 모델 (+ knr) | 과소적합, 과대적합
2022.01.22 - [데이터분석과 머신러닝] - 머신러닝 | 선형 회귀 알고리즘 (k-최근접이웃 알고리즘과 비교)
2022.01.23 - [데이터분석과 머신러닝] - 머신러닝 | 특성 수를 늘려 과소적합 피하기 - 다중회귀와 특성 공학
2022.01.24 - [데이터분석과 머신러닝] - 머신러닝 | 선형회귀모델 규제 - 과대적합 피하기 | 릿지/라쏘 회귀
기본미션
03-1 2번문제 출력 그래프 인증
분석:
n이 커짐에따라 모델이 단순화되는 이유는, 더 많은 이웃을 고려할수록 각 예측값이 전체데이터의 경향을 따라가게 되기 때문이다. 반면 적은 수의 이웃만 고려하게 되면 주변 데이터들에 예민해져서 각 x에 대한 예측값이 덜 일반적이다.
+ 만약 n을 너무 크게하면 평균치를 내는 데이터의 범위가 너무 넓어진다.
즉 데이터들의 특성을 너무 둔감하게 반영하기 때문에 거의 점점 직선이 되어간다.
선택미션
모델 파라미터에 대해 설명하기
머신러닝 모델이 예측값을 내놓을때는 어떤 '모델 파라미터'를 사용한다. 이러한 파라미터는 모델 내부에서 결정이 되는데, "최적의 모델 파라미터"를 찾게 된다. (이렇게 최적의 모델 파라미터를 찾는 것을 "모델 기반 학습"이라고도 한다 ㅡ 반면에 k-최근접이웃 알고리즘처럼 그저 data를 저장하는 방식을 이용하는 것은 "사례 기반 학습"이다.)
실습에서 했던 것을 예로 들면, LinearRegression 클래스가 선형회귀직선식을 도출할 때 내부적으로 coef_와 intercept_를 계산해서 최적의 직선식을 학습한다. 이때 coef_와 intercept_같은 것들이 모델 파라미터의 예이다. 모델이 직접 찾아내는 최적의 값이다.
( 반면, 하이퍼파라미터는 모델링할 때 사용자가 직접 세팅해주는 값이다. 정해진 최적값이 있는 것이 아니라, 경험적으로 사용자가 결정해야 한다. )
'데이터분석과 머신러닝' 카테고리의 다른 글
머신러닝 | 선형회귀모델 규제 - 과대적합 피하기 | 릿지/라쏘 회귀 (0) | 2022.01.24 |
---|---|
머신러닝 | 특성 수를 늘려 과소적합 피하기 - 다중회귀와 특성 공학 (2) | 2022.01.23 |
머신러닝 | 선형 회귀 알고리즘 (k-최근접이웃 알고리즘과 비교) (0) | 2022.01.22 |
머신러닝 | 회귀 모델 (+ knr) | 과소적합, 과대적합 (0) | 2022.01.21 |
혼공단7기 1주차 미션인증 (0) | 2022.01.13 |