머신러닝 | 로지스틱 회귀모델 | 이진/다중분류
·
데이터분석과 머신러닝
챕터 4, 다양한 분류 알고리즘 * 로지스틱 회귀, 확률적 경사 하강법과 같은 분류 알고리즘 배우기 * 이진 분류와 다중 분류의 차이를 이해하고 클래스별 확률을 예측하기 로지스틱 회귀! 드디어 로지스틱 회귀를 공부할 차례다 ~.~ [ 학습한 내용 요약 ] - 어떤 클래스인지 분류해주는 모델을 공부했다 - k-최근접이웃 분류 모델은 확률산출에 한계가 있다 - 로지스틱 회귀모델을 분류모델로 사용 가능하다 - 이진분류 - sigmoid(logistic) - 다중분류 - softmax # k-최근접이웃 분류모델의 한계 k-최근접이웃 분류 모델은 확률 산출에 한계가 있다. ex) 이웃개수 5개로 설정했다면 산출가능 확률은 0, 20, 40, 60, 80, 100 뿐이다. 딱 봐도 확률이 한정적이다. 참고) 실습에..
머신러닝 | 선형회귀모델 규제 - 과대적합 피하기 | 릿지/라쏘 회귀
·
데이터분석과 머신러닝
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 배울 내용은 "선형회귀모델의 규제"이다. 챕터 3, 회귀 알고리즘과 모델 규제 | 다중 회귀, 과대적합 피하기 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 특성수를 너무 늘려서 다중회귀 모델을 학습시키면 과대적합 문제가 일어날 수 있다고 배웠다. (과소적합을 피하려고 특성수를 늘리랬더니 머시라고!!!!) 근데 과대적합도 피할 수 있다 ㅇㅅㅇ 뜨든~~ 오늘은 그걸 배운댯 # 규제 - 모델이 train set에 과대적합되지 않도록 하는 것 - ex) 선형회귀모델에서는 특성에 곱해지는 계수를 작게 만들면 된다. 특성 수를 너무 늘리면 과대적합시킬 수 있다. 특성을 억지로 많이 늘려서 일단 과대적합시키..
머신러닝 | 특성 수를 늘려 과소적합 피하기 - 다중회귀와 특성 공학
·
데이터분석과 머신러닝
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "다중 회귀와 특성공학"이다. [ 요약 먼저 하자면 ] 다중회귀는 특성수가 많은 선형회귀이고, 특성공학은 기존의 특성을 활용해 새로운 특성을 만들어내는 작업이다. 특성 수를 늘리면 모델이 복잡해져 과소적합을 피할 수 있다. 챕터 3, 회귀 알고리즘과 모델 규제 | 다중 회귀, 특성 공학, 과소적합 피하기 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 선형회귀를 배우면서, 지금까지는 단 하나의 특성 length만 가지고 weight를 예측했다. 그렇지만 선형회귀는 특성이 많을수록 선형회귀능력이 강해진다! 이번에는 height와 width도 추가적으로 고려해 weight를 예측해보려고 한..
혼공단 7기 2주차 미션인증
·
데이터분석과 머신러닝
학습 글 2022.01.21 - [데이터분석과 머신러닝] - 머신러닝 | 회귀 모델 (+ knr) | 과소적합, 과대적합 2022.01.22 - [데이터분석과 머신러닝] - 머신러닝 | 선형 회귀 알고리즘 (k-최근접이웃 알고리즘과 비교) 2022.01.23 - [데이터분석과 머신러닝] - 머신러닝 | 특성 수를 늘려 과소적합 피하기 - 다중회귀와 특성 공학 2022.01.24 - [데이터분석과 머신러닝] - 머신러닝 | 선형회귀모델 규제 - 과대적합 피하기 | 릿지/라쏘 회귀 기본미션 03-1 2번문제 출력 그래프 인증 분석: n이 커짐에따라 모델이 단순화되는 이유는, 더 많은 이웃을 고려할수록 각 예측값이 전체데이터의 경향을 따라가게 되기 때문이다. 반면 적은 수의 이웃만 고려하게 되면 주변 데이터들..
머신러닝 | 선형 회귀 알고리즘 (k-최근접이웃 알고리즘과 비교)
·
데이터분석과 머신러닝
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "여러가지 선형 회귀 알고리즘"이다. 특히 k-최근접 이웃 알고리즘 vs 선형회귀알고리즘은 어떤 차이가 있는지 비교해보자. 챕터 3, 회귀 알고리즘과 모델 규제 | 다양한 선형 회귀 알고리즘 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 지금까지는 k-최근접이웃 알고리즘만 접했는데, 다른 알고리즘도 살펴보자. 특히 k-최근접이웃 알고리즘과는 다르게 선형적인 특징 파악해내는 선형 회귀 알고리즘을 공부하자. ( 이름에서도 알 수 있다. k-최근접이웃 알고리즘은 최근접 이웃을 기반으로 예측값을 내놓지만, 선형 회귀 알고리즘은 데이터의 선형적인 특성을 기반으로 예측한다. ) # k-최근접이웃..
머신러닝 | 회귀 모델 (+ knr) | 과소적합, 과대적합
·
데이터분석과 머신러닝
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "회귀 이해하기"이다. 특히 지금 실습하며 배울 것은, k-최근접 이웃 알고리즘을 사용해서 농어의 무게를 예측해보는 것이다. 농어의 길이 data를 통해 농어의 '무게'를 예측해볼 것이다. 튜터링 할때 이 회귀 파트를 아이들에게 열심히 설명해주었던 생각이 난다. 다시 굳은 기억으로 남을 수 있게 정리 꼬~~~ 챕터 3, 회귀 알고리즘과 모델 규제 | k-최근접 이웃 회귀 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 지도 학습 알고리즘은 크게 '분류'와 '회귀'로 나눈다. - 분류 : 이 클래스가 A클래스냐 B클래스냐 - 회귀 : 두 변수 사이의 상관관계를 분석하는 방법 오늘은 k-최..
혼공단7기 1주차 미션인증
·
데이터분석과 머신러닝
학습 글: 미션인증과 분리했습니다! 2022.01.10 - [데이터분석과 머신러닝] - 혼자 공부하는 머신러닝+딥러닝 | 도서 추천도 하고 내 얘기도 겸사겸사.. 2022.01.10 - [데이터분석과 머신러닝] - 머신러닝 입문 | 이진분류해보기 (k-Nearest Neighbors algorithm 사용) 2022.01.12 - [데이터분석과 머신러닝] - 머신러닝 입문 | 지도학습, train set과 test set 2022.01.12 - [데이터분석과 머신러닝] - 머신러닝 | 데이터 전처리 | 스케일 조정, 표준화하여 전처리 | 표준점수로 변환 # 기본 미션 맨위에 링크한 글에 실습화면 캡쳐해가며 학습진행하였습니다 ! # 선택 미션 CHAP 2-1 확인 문제 풀이하기 1. 머신러닝 알고리즘의 한..
머신러닝 | 데이터 전처리 | 스케일 조정, 표준화하여 전처리 | 표준점수로 변환
·
데이터분석과 머신러닝
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "데이터 전처리"이다. 이전까지는 그냥 날것의 데이터로 훈련시키고 그랬는데, 이 날것의 데이터에는 요상한 데이터가 숨어있을 수도 있다. 위험! 그래서 이번에는 전처리한 데이터를 사용해보자. 챕터2, 데이터 다루기 | 데이터 전처리 * 머신러닝 알고리즘에 주입할 데이터를 준비하는 방법을 배운다. * 데이터 형태가 알고리즘에 미치는 영향을 이해한다. 데이터를 전처리하기 전에, 이전과는 다른 새로운 방법으로 데이터를 준비할 것이다. - 전체 데이터 준비하기 : numpy의 column_stack() 이용 - train/test set 준비하기 : sklearn의 train_test_split() 이용 다시말해서, 이글의 핵심인 전처리 하는 내용은 ..
머신러닝 입문 | 지도학습, train set과 test set
·
데이터분석과 머신러닝
한빛미디어 도서 의 전개를 따른 내용이다. 이번 포스팅은 '데이터 다루기'이다. 머신러닝에 사용할 데이터는 어떻게 준비해야 할까? 특히 '지도학습'을 시킬 경우에 train set과 test set이라는 두 가지를 준비해야 한다는 내용의 포스팅이다. 챕터2, 데이터 다루기 | train set과 test set * 머신러닝 알고리즘에 주입할 데이터를 준비하는 방법을 배운다. * 데이터 형태가 알고리즘에 미치는 영향을 이해한다. # 지도학습 머신러닝 알고리즘은 크게 지도학습과 비지도학습으로 나뉜다. (강화학습이라는 것도 있지만 넘어간다. ) 이전에 공부한 '도미 or 빙어'를 맞추는 이진분류를 되새겨보자. 내가 실습했던 이진분류는 k-최근접이웃 알고리즘을 이용한 지도학습이다. 입력 데이터(도미와 빙어)와 ..
머신러닝 입문 | 이진분류해보기 (k-Nearest Neighbors algorithm 사용)
·
데이터분석과 머신러닝
한빛미디어 도서 으로 입문한다. 사실 입문은 아니지만 부실한 개념이 많아서 바로잡는 느낌으로 시작!! 1주차 진도는 챕터1과 챕터2이다. 머신러닝 관련 개념을 정리하고, 머신러닝에 필요한 데이터를 정리하는 방법을 설명한다. 챕터1 : * 인공지능, 머신러닝, 딥러닝의 차이점을 이해합니다. * 구글 코랩 사용법을 배웁니다. * 첫 번째 머신러닝 프로그램을 만들고 머신러닝의 기본 작동 원리를 이해합니다. 이 학습목표 세가지에서, 첫번째는 바로 아래 더보기란에 간단히 정리하고, 두번째 코랩사용법은 그냥 넘어가고, 세번째 학습목표 중심으로 정리하였다. # 머신러닝, 딥러닝 더보기 알고 있던 내용으로는, AI ⊃ 머신러닝 ⊃ 딥러닝 이런 포함관계를 가진다는 것이다. 새로 알게된 것 : - 딥러닝은 인공신경망 기반..