데이터분석과 머신러닝

학습 글 2022.02.10 - [데이터분석과 머신러닝] - 머신러닝 | 트리 알고리즘 - 결정 트리 (Decision tree model) 2022.02.11 - [데이터분석과 머신러닝] - 머신러닝 | 교차 검증과 그리드 서치 | 최적의 파라미터를 찾아주는 교차검증 방법 2022.02.13 - [데이터분석과 머신러닝] - 머신러닝 | 트리의 앙상블 | sklearn 앙상블 모델 4종류 특징 비교 지금까지 실습한 챕터중에 5장이 가장 재밌었네요..! 트리는 방정식보다 상상하기 쉬워서 그랬던 걸까요 ㅎ.ㅎ 서로 다른 앙상블 모델도 재미있었구요.. 기본미션 교차검증을 그림으로 설명하기 - 10fold를 예시로 들었습니다 선택미션 https://colab.research.google.com/drive/1NY..
한빛미디어 도서 의 전개를 따른 내용이다. 챕터 5, 트리 알고리즘 * 성능이 좋고 이해하기 쉬운 트리 알고리즘 배우기 * 알고리즘 성능을 최대화하기 위한 하이퍼파라미터 튜닝 실습 * 여러 트리를 합쳐 일반화 성능을 높일 수 있는 앙상블 모델 배우기 호...!! 앙상블 모델은 데이터대회에서 다른 팀 선배들이 활용한 모델인데.....! 이제 나도 5장에서 앙상블을 공부하게 된다 ㅇㅅㅇ!!!! 몰까? 트리의 앙상블 *앙상블: 여러 머신러닝 모델을 연결하여 개선된 모델을 만드는 기법 이 포스팅에서는, "결정 트리 모델"의 앙상블을 학습한다. 오늘 공부할 앙상블 모델은 총 4가지이다. 1. 랜덤 포레스트 2. 엑스트라 트리 3. 그레이디언트 부스팅 4. 히스토그램 기반 그레이디언트 부스팅 각 모델의 특징을 공부..
한빛미디어 도서 의 전개를 따른 내용이다. 챕터 5, 트리 알고리즘 * 성능이 좋고 이해하기 쉬운 트리 알고리즘 배우기 * 알고리즘 성능을 최대화하기 위한 하이퍼파라미터 튜닝 실습 * 여러 트리를 합쳐 일반화 성능을 높일 수 있는 앙상블 모델 배우기 혼공머신 책에서 하이퍼파라미터라는 용어를 처음 만났을 때, 이걸 최적으로 결정하는 방법은 바로바로 5장에서 배운다고 해서 기다려졌던... 5장..! # 검증 세트 ▶ 테스트 세트로 성능을 조정할 경우의 문제점 : 일반화된 모델을 만들어야 하는데, '테스트 세트'에 적절한 모델이 만들어진다. ▶ 해결 방법 : 훈련세트의 일부를 떼어내 검증세트로 둔다. (훈련세트의 크기는 작아진다) * 검증세트는 여러개 둘 수 있다 => 교차검증 모델 성능을 개선 기준을 검증세..
한빛미디어 도서 의 전개를 따른 내용이다. 챕터 5, 트리 알고리즘 * 성능이 좋고 이해하기 쉬운 트리 알고리즘 배우기 * 알고리즘 성능을 최대화하기 위한 하이퍼파라미터 튜닝 실습 * 여러 트리를 합쳐 일반화 성능을 높일 수 있는 앙상블 모델 배우기 알고리즘 과목에서 배운 트리 알고리즘.. 머신러닝에 적용되는 트리구조??? 어떤 실습을 하게될지 궁금하다. # 분류모델 - 로지스틱 회귀모델 vs 결정 트리 모델 ◆ 로지스틱 회귀모델 : 선형방정식으로 분류기준을 설명한다. 분류기준(계수)는 직관적으로 파악하기 어렵다. ◆ 결정 트리 모델 : 구체적인 수치로 분류기준을 설명한다. 직관적이다. 분류기준을 이해하기 쉽다. # 트리 모델 실습 사이킷런에서 DecisionTreeClassifier 클래스를 제공한다...
챕터 4, 다양한 분류 알고리즘 * 로지스틱 회귀, 확률적 경사 하강법과 같은 분류 알고리즘 배우기 * 이진 분류와 다중 분류의 차이를 이해하고 클래스별 확률을 예측하기 확률적 경사 하강법도 우리학과 데이터교육받을때 복습안하고 스윽.. 스쳐간거라 기억에 잘 안남았다 ㅠㅅㅠ 신경망 배울 때 그냥 계속 이 개념을 사용했었다!! 그런데 진짜 흐릿하게 알고있어서... 혼자 공부하는 머신러닝 책과 다시 팟팅하려 한다. 자세한 내용은 2월 초에 다시 공부해야겠다. 모두 새해복 많이 받으세요!!
학습 글: 2022.01.27 - [데이터분석과 머신러닝] - 머신러닝 | 로지스틱 회귀모델 | 이진/다중분류 2022.01.28 - [데이터분석과 머신러닝] - 로지스틱 회귀 | 선형방정식이 확률p가 되는 과정은? 2022.01.30 - [데이터분석과 머신러닝] - 머신러닝 | 확률적 경사 하강법 잘 이해하려고 노력하느라 시간을 좀 썼다... >ㅅ> sigmoid(logistic) 함수 1/(1+e^z)에 선형방정식 z를 대입하면 바로 확률값 p가 나온다. 그 이유는 이 글에 담았다: 로지스틱 회귀 | 선형방정식이 확률p가 되는 과정은? 선택 미션: 챕터 4-2 과대적합/과소적합 손코딩 코랩화면 캡쳐 https://colab.research.google.com/drive/1Gx8Mup1vit-38GSI..
로지스틱 회귀 모델을 이용해 A/B 클래스로 이진분류 하겠다고 하자. 로지스틱 회귀 모델이 다음과 같은 선형 방정식을 학습했다고 하자. 이 선형방정식이 어떻게 확률p와 연관되는지 알고싶다면 아래 이슈를 이해해야 한다! ▶ issue1) 이 선형방정식은 어떤 선형방정식을 학습한 것일까? ▶ issue2) z가 +면 양성클래스, -면 음성클래스로 분류한다. 개인적으로 왜 이 선형방정식이 확률 p와 연관이 되는지 바로 이해가 가지 않았다. 왜 이 z값을 logistic 함수에 대입하면 확률값으로 볼 수 있을까? 그래.. 그렇게 대입하면 0~1 확률로 말할 수 있는 값이 나오기는 하는데, 어떤 방식으로 z값이랑 확률p랑 의미있게 대응되는 것인지 느낌이 잘 안왔다. 무슨 관계길래.. 간단히 정리해보았다. # 사전..
챕터 4, 다양한 분류 알고리즘 * 로지스틱 회귀, 확률적 경사 하강법과 같은 분류 알고리즘 배우기 * 이진 분류와 다중 분류의 차이를 이해하고 클래스별 확률을 예측하기 로지스틱 회귀! 드디어 로지스틱 회귀를 공부할 차례다 ~.~ [ 학습한 내용 요약 ] - 어떤 클래스인지 분류해주는 모델을 공부했다 - k-최근접이웃 분류 모델은 확률산출에 한계가 있다 - 로지스틱 회귀모델을 분류모델로 사용 가능하다 - 이진분류 - sigmoid(logistic) - 다중분류 - softmax # k-최근접이웃 분류모델의 한계 k-최근접이웃 분류 모델은 확률 산출에 한계가 있다. ex) 이웃개수 5개로 설정했다면 산출가능 확률은 0, 20, 40, 60, 80, 100 뿐이다. 딱 봐도 확률이 한정적이다. 참고) 실습에..
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 배울 내용은 "선형회귀모델의 규제"이다. 챕터 3, 회귀 알고리즘과 모델 규제 | 다중 회귀, 과대적합 피하기 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 특성수를 너무 늘려서 다중회귀 모델을 학습시키면 과대적합 문제가 일어날 수 있다고 배웠다. (과소적합을 피하려고 특성수를 늘리랬더니 머시라고!!!!) 근데 과대적합도 피할 수 있다 ㅇㅅㅇ 뜨든~~ 오늘은 그걸 배운댯 # 규제 - 모델이 train set에 과대적합되지 않도록 하는 것 - ex) 선형회귀모델에서는 특성에 곱해지는 계수를 작게 만들면 된다. 특성 수를 너무 늘리면 과대적합시킬 수 있다. 특성을 억지로 많이 늘려서 일단 과대적합시키..
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "다중 회귀와 특성공학"이다. [ 요약 먼저 하자면 ] 다중회귀는 특성수가 많은 선형회귀이고, 특성공학은 기존의 특성을 활용해 새로운 특성을 만들어내는 작업이다. 특성 수를 늘리면 모델이 복잡해져 과소적합을 피할 수 있다. 챕터 3, 회귀 알고리즘과 모델 규제 | 다중 회귀, 특성 공학, 과소적합 피하기 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 선형회귀를 배우면서, 지금까지는 단 하나의 특성 length만 가지고 weight를 예측했다. 그렇지만 선형회귀는 특성이 많을수록 선형회귀능력이 강해진다! 이번에는 height와 width도 추가적으로 고려해 weight를 예측해보려고 한..
히어로맛쿠키
'데이터분석과 머신러닝' 카테고리의 글 목록 (2 Page)