자꾸 생각나는 체리쥬빌레

챕터 4, 다양한 분류 알고리즘 * 로지스틱 회귀, 확률적 경사 하강법과 같은 분류 알고리즘 배우기 * 이진 분류와 다중 분류의 차이를 이해하고 클래스별 확률을 예측하기 로지스틱 회귀! 드디어 로지스틱 회귀를 공부할 차례다 ~.~ [ 학습한 내용 요약 ] - 어떤 클래스인지 분류해주는 모델을 공부했다 - k-최근접이웃 분류 모델은 확률산출에 한계가 있다 - 로지스틱 회귀모델을 분류모델로 사용 가능하다 - 이진분류 - sigmoid(logistic) - 다중분류 - softmax # k-최근접이웃 분류모델의 한계 k-최근접이웃 분류 모델은 확률 산출에 한계가 있다. ex) 이웃개수 5개로 설정했다면 산출가능 확률은 0, 20, 40, 60, 80, 100 뿐이다. 딱 봐도 확률이 한정적이다. 참고) 실습에..

한빛미디어 도서 의 전개를 따른 내용이다. 이번에 배울 내용은 "선형회귀모델의 규제"이다. 챕터 3, 회귀 알고리즘과 모델 규제 | 다중 회귀, 과대적합 피하기 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 특성수를 너무 늘려서 다중회귀 모델을 학습시키면 과대적합 문제가 일어날 수 있다고 배웠다. (과소적합을 피하려고 특성수를 늘리랬더니 머시라고!!!!) 근데 과대적합도 피할 수 있다 ㅇㅅㅇ 뜨든~~ 오늘은 그걸 배운댯 # 규제 - 모델이 train set에 과대적합되지 않도록 하는 것 - ex) 선형회귀모델에서는 특성에 곱해지는 계수를 작게 만들면 된다. 특성 수를 너무 늘리면 과대적합시킬 수 있다. 특성을 억지로 많이 늘려서 일단 과대적합시키..

한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "다중 회귀와 특성공학"이다. [ 요약 먼저 하자면 ] 다중회귀는 특성수가 많은 선형회귀이고, 특성공학은 기존의 특성을 활용해 새로운 특성을 만들어내는 작업이다. 특성 수를 늘리면 모델이 복잡해져 과소적합을 피할 수 있다. 챕터 3, 회귀 알고리즘과 모델 규제 | 다중 회귀, 특성 공학, 과소적합 피하기 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 선형회귀를 배우면서, 지금까지는 단 하나의 특성 length만 가지고 weight를 예측했다. 그렇지만 선형회귀는 특성이 많을수록 선형회귀능력이 강해진다! 이번에는 height와 width도 추가적으로 고려해 weight를 예측해보려고 한..

학습 글 2022.01.21 - [데이터분석과 머신러닝] - 머신러닝 | 회귀 모델 (+ knr) | 과소적합, 과대적합 2022.01.22 - [데이터분석과 머신러닝] - 머신러닝 | 선형 회귀 알고리즘 (k-최근접이웃 알고리즘과 비교) 2022.01.23 - [데이터분석과 머신러닝] - 머신러닝 | 특성 수를 늘려 과소적합 피하기 - 다중회귀와 특성 공학 2022.01.24 - [데이터분석과 머신러닝] - 머신러닝 | 선형회귀모델 규제 - 과대적합 피하기 | 릿지/라쏘 회귀 기본미션 03-1 2번문제 출력 그래프 인증 분석: n이 커짐에따라 모델이 단순화되는 이유는, 더 많은 이웃을 고려할수록 각 예측값이 전체데이터의 경향을 따라가게 되기 때문이다. 반면 적은 수의 이웃만 고려하게 되면 주변 데이터들..

한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "여러가지 선형 회귀 알고리즘"이다. 특히 k-최근접 이웃 알고리즘 vs 선형회귀알고리즘은 어떤 차이가 있는지 비교해보자. 챕터 3, 회귀 알고리즘과 모델 규제 | 다양한 선형 회귀 알고리즘 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 지금까지는 k-최근접이웃 알고리즘만 접했는데, 다른 알고리즘도 살펴보자. 특히 k-최근접이웃 알고리즘과는 다르게 선형적인 특징 파악해내는 선형 회귀 알고리즘을 공부하자. ( 이름에서도 알 수 있다. k-최근접이웃 알고리즘은 최근접 이웃을 기반으로 예측값을 내놓지만, 선형 회귀 알고리즘은 데이터의 선형적인 특성을 기반으로 예측한다. ) # k-최근접이웃..

한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "회귀 이해하기"이다. 특히 지금 실습하며 배울 것은, k-최근접 이웃 알고리즘을 사용해서 농어의 무게를 예측해보는 것이다. 농어의 길이 data를 통해 농어의 '무게'를 예측해볼 것이다. 튜터링 할때 이 회귀 파트를 아이들에게 열심히 설명해주었던 생각이 난다. 다시 굳은 기억으로 남을 수 있게 정리 꼬~~~ 챕터 3, 회귀 알고리즘과 모델 규제 | k-최근접 이웃 회귀 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 지도 학습 알고리즘은 크게 '분류'와 '회귀'로 나눈다. - 분류 : 이 클래스가 A클래스냐 B클래스냐 - 회귀 : 두 변수 사이의 상관관계를 분석하는 방법 오늘은 k-최..

학습 글: 미션인증과 분리했습니다! 2022.01.10 - [데이터분석과 머신러닝] - 혼자 공부하는 머신러닝+딥러닝 | 도서 추천도 하고 내 얘기도 겸사겸사.. 2022.01.10 - [데이터분석과 머신러닝] - 머신러닝 입문 | 이진분류해보기 (k-Nearest Neighbors algorithm 사용) 2022.01.12 - [데이터분석과 머신러닝] - 머신러닝 입문 | 지도학습, train set과 test set 2022.01.12 - [데이터분석과 머신러닝] - 머신러닝 | 데이터 전처리 | 스케일 조정, 표준화하여 전처리 | 표준점수로 변환 # 기본 미션 맨위에 링크한 글에 실습화면 캡쳐해가며 학습진행하였습니다 ! # 선택 미션 CHAP 2-1 확인 문제 풀이하기 1. 머신러닝 알고리즘의 한..

한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "데이터 전처리"이다. 이전까지는 그냥 날것의 데이터로 훈련시키고 그랬는데, 이 날것의 데이터에는 요상한 데이터가 숨어있을 수도 있다. 위험! 그래서 이번에는 전처리한 데이터를 사용해보자. 챕터2, 데이터 다루기 | 데이터 전처리 * 머신러닝 알고리즘에 주입할 데이터를 준비하는 방법을 배운다. * 데이터 형태가 알고리즘에 미치는 영향을 이해한다. 데이터를 전처리하기 전에, 이전과는 다른 새로운 방법으로 데이터를 준비할 것이다. - 전체 데이터 준비하기 : numpy의 column_stack() 이용 - train/test set 준비하기 : sklearn의 train_test_split() 이용 다시말해서, 이글의 핵심인 전처리 하는 내용은 ..

한빛미디어 도서 의 전개를 따른 내용이다. 이번 포스팅은 '데이터 다루기'이다. 머신러닝에 사용할 데이터는 어떻게 준비해야 할까? 특히 '지도학습'을 시킬 경우에 train set과 test set이라는 두 가지를 준비해야 한다는 내용의 포스팅이다. 챕터2, 데이터 다루기 | train set과 test set * 머신러닝 알고리즘에 주입할 데이터를 준비하는 방법을 배운다. * 데이터 형태가 알고리즘에 미치는 영향을 이해한다. # 지도학습 머신러닝 알고리즘은 크게 지도학습과 비지도학습으로 나뉜다. (강화학습이라는 것도 있지만 넘어간다. ) 이전에 공부한 '도미 or 빙어'를 맞추는 이진분류를 되새겨보자. 내가 실습했던 이진분류는 k-최근접이웃 알고리즘을 이용한 지도학습이다. 입력 데이터(도미와 빙어)와 ..

한빛미디어 도서 으로 입문한다. 사실 입문은 아니지만 부실한 개념이 많아서 바로잡는 느낌으로 시작!! 1주차 진도는 챕터1과 챕터2이다. 머신러닝 관련 개념을 정리하고, 머신러닝에 필요한 데이터를 정리하는 방법을 설명한다. 챕터1 : * 인공지능, 머신러닝, 딥러닝의 차이점을 이해합니다. * 구글 코랩 사용법을 배웁니다. * 첫 번째 머신러닝 프로그램을 만들고 머신러닝의 기본 작동 원리를 이해합니다. 이 학습목표 세가지에서, 첫번째는 바로 아래 더보기란에 간단히 정리하고, 두번째 코랩사용법은 그냥 넘어가고, 세번째 학습목표 중심으로 정리하였다. # 머신러닝, 딥러닝 더보기 알고 있던 내용으로는, AI ⊃ 머신러닝 ⊃ 딥러닝 이런 포함관계를 가진다는 것이다. 새로 알게된 것 : - 딥러닝은 인공신경망 기반..

티스토리툴바