데이터분석과 머신러닝

학습 글 2022.01.21 - [데이터분석과 머신러닝] - 머신러닝 | 회귀 모델 (+ knr) | 과소적합, 과대적합 2022.01.22 - [데이터분석과 머신러닝] - 머신러닝 | 선형 회귀 알고리즘 (k-최근접이웃 알고리즘과 비교) 2022.01.23 - [데이터분석과 머신러닝] - 머신러닝 | 특성 수를 늘려 과소적합 피하기 - 다중회귀와 특성 공학 2022.01.24 - [데이터분석과 머신러닝] - 머신러닝 | 선형회귀모델 규제 - 과대적합 피하기 | 릿지/라쏘 회귀 기본미션 03-1 2번문제 출력 그래프 인증 분석: n이 커짐에따라 모델이 단순화되는 이유는, 더 많은 이웃을 고려할수록 각 예측값이 전체데이터의 경향을 따라가게 되기 때문이다. 반면 적은 수의 이웃만 고려하게 되면 주변 데이터들..
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "여러가지 선형 회귀 알고리즘"이다. 특히 k-최근접 이웃 알고리즘 vs 선형회귀알고리즘은 어떤 차이가 있는지 비교해보자. 챕터 3, 회귀 알고리즘과 모델 규제 | 다양한 선형 회귀 알고리즘 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 지금까지는 k-최근접이웃 알고리즘만 접했는데, 다른 알고리즘도 살펴보자. 특히 k-최근접이웃 알고리즘과는 다르게 선형적인 특징 파악해내는 선형 회귀 알고리즘을 공부하자. ( 이름에서도 알 수 있다. k-최근접이웃 알고리즘은 최근접 이웃을 기반으로 예측값을 내놓지만, 선형 회귀 알고리즘은 데이터의 선형적인 특성을 기반으로 예측한다. ) # k-최근접이웃..
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "회귀 이해하기"이다. 특히 지금 실습하며 배울 것은, k-최근접 이웃 알고리즘을 사용해서 농어의 무게를 예측해보는 것이다. 농어의 길이 data를 통해 농어의 '무게'를 예측해볼 것이다. 튜터링 할때 이 회귀 파트를 아이들에게 열심히 설명해주었던 생각이 난다. 다시 굳은 기억으로 남을 수 있게 정리 꼬~~~ 챕터 3, 회귀 알고리즘과 모델 규제 | k-최근접 이웃 회귀 * 지도 학습 알고리즘의 한 종류인 회귀 알고리즘 배우기 * 다양한 선형 회귀 알고리즘의 장단점 이해하기 지도 학습 알고리즘은 크게 '분류'와 '회귀'로 나눈다. - 분류 : 이 클래스가 A클래스냐 B클래스냐 - 회귀 : 두 변수 사이의 상관관계를 분석하는 방법 오늘은 k-최..
학습 글: 미션인증과 분리했습니다! 2022.01.10 - [데이터분석과 머신러닝] - 혼자 공부하는 머신러닝+딥러닝 | 도서 추천도 하고 내 얘기도 겸사겸사.. 2022.01.10 - [데이터분석과 머신러닝] - 머신러닝 입문 | 이진분류해보기 (k-Nearest Neighbors algorithm 사용) 2022.01.12 - [데이터분석과 머신러닝] - 머신러닝 입문 | 지도학습, train set과 test set 2022.01.12 - [데이터분석과 머신러닝] - 머신러닝 | 데이터 전처리 | 스케일 조정, 표준화하여 전처리 | 표준점수로 변환 # 기본 미션 맨위에 링크한 글에 실습화면 캡쳐해가며 학습진행하였습니다 ! # 선택 미션 CHAP 2-1 확인 문제 풀이하기 1. 머신러닝 알고리즘의 한..
한빛미디어 도서 의 전개를 따른 내용이다. 이번에 다룰 내용은 "데이터 전처리"이다. 이전까지는 그냥 날것의 데이터로 훈련시키고 그랬는데, 이 날것의 데이터에는 요상한 데이터가 숨어있을 수도 있다. 위험! 그래서 이번에는 전처리한 데이터를 사용해보자. 챕터2, 데이터 다루기 | 데이터 전처리 * 머신러닝 알고리즘에 주입할 데이터를 준비하는 방법을 배운다. * 데이터 형태가 알고리즘에 미치는 영향을 이해한다. 데이터를 전처리하기 전에, 이전과는 다른 새로운 방법으로 데이터를 준비할 것이다. - 전체 데이터 준비하기 : numpy의 column_stack() 이용 - train/test set 준비하기 : sklearn의 train_test_split() 이용 다시말해서, 이글의 핵심인 전처리 하는 내용은 ..
한빛미디어 도서 의 전개를 따른 내용이다. 이번 포스팅은 '데이터 다루기'이다. 머신러닝에 사용할 데이터는 어떻게 준비해야 할까? 특히 '지도학습'을 시킬 경우에 train set과 test set이라는 두 가지를 준비해야 한다는 내용의 포스팅이다. 챕터2, 데이터 다루기 | train set과 test set * 머신러닝 알고리즘에 주입할 데이터를 준비하는 방법을 배운다. * 데이터 형태가 알고리즘에 미치는 영향을 이해한다. # 지도학습 머신러닝 알고리즘은 크게 지도학습과 비지도학습으로 나뉜다. (강화학습이라는 것도 있지만 넘어간다. ) 이전에 공부한 '도미 or 빙어'를 맞추는 이진분류를 되새겨보자. 내가 실습했던 이진분류는 k-최근접이웃 알고리즘을 이용한 지도학습이다. 입력 데이터(도미와 빙어)와 ..
한빛미디어 도서 으로 입문한다. 사실 입문은 아니지만 부실한 개념이 많아서 바로잡는 느낌으로 시작!! 1주차 진도는 챕터1과 챕터2이다. 머신러닝 관련 개념을 정리하고, 머신러닝에 필요한 데이터를 정리하는 방법을 설명한다. 챕터1 : * 인공지능, 머신러닝, 딥러닝의 차이점을 이해합니다. * 구글 코랩 사용법을 배웁니다. * 첫 번째 머신러닝 프로그램을 만들고 머신러닝의 기본 작동 원리를 이해합니다. 이 학습목표 세가지에서, 첫번째는 바로 아래 더보기란에 간단히 정리하고, 두번째 코랩사용법은 그냥 넘어가고, 세번째 학습목표 중심으로 정리하였다. # 머신러닝, 딥러닝 더보기 알고 있던 내용으로는, AI ⊃ 머신러닝 ⊃ 딥러닝 이런 포함관계를 가진다는 것이다. 새로 알게된 것 : - 딥러닝은 인공신경망 기반..
재작년 여름 방학에도 한빛미디어에서 진행하는 혼공프로젝트에 참여했었다. 혼공단 4기였나 그랬을 거다. 이번에 또 신청했다. (7기) [ 책 : 혼자 공부하는 머신러닝+딥러닝 ] 방학동안 살짝 시간 내서 가볍게 하기 좋아서 이번에도 신청했다. 나는 한빛미디어 광고메일을 받아서 보는데, 혼공단 7기 모집 메일을 받고 나서 이번에 또 해야겠다~ 생각만 하다가 기한을 놓쳤다. 이번에 꼭 참여하고 싶었던 거라 죄송한 맘으로 메일을 드렸는데 정말 감사히도 끼워주셨다. (기회를 주셔서 진심으로 감사합니다 ㅠㅅㅠ) 머신러닝+딥러닝 신청 이유 지난 반년을 돌아보자. 교내 데이터 대회를 준비하면서 R을 통해 데이터분석을 해보았다. 사실 이때는 머신러닝이 아니고 통계분석이었다. 작년 8월쯤, 데이터를 다루고 분석하는 것에는..
교내 소규모 공공데이터 활용대회에서 1등이다. 감사합니다 (_ _)🎉 데이터 통계분석은 접해본 적이 아예 없고 통계학과도 아니라서 전공생들 사이에서 비교당할까 겁이 많이 났었다. 또 워낙 이 분야 배경지식이 모자라서 잘못된 분석결과를 정답으로 인지할까봐 무서웠다. 그렇지만 이렇게 두려워했던게 큰 도움이 된 듯하다. 열심히 했다. 또 나도 하나도 모르는 걸 공부해서 튜티들에게 알려주는 건 정말 스릴있었다. 혹시 밑천이 드러날까봐.. 이 대회에서 혼자 노베이스 타전공인 나 한명이 조장이고, 고등학교 1학년 학생 두분이 튜티로 있는 상황이라 더 걱정이 되었다. 잘 마무리해서 다행이다 이 대회가 저학년 학부생을 대상으로 한 대회라서 그렇게 난이도 있지는 않았을 거고, 나도 아직 데이터분석의 시작 문을 열어본 단..
드디어 교육관련측도와 정보격차측도의 상관관계를 하나 찾았다. 거의 맨땅에 헤딩하려니까 힘들다.. 앞으로 언제 어떻게 의미있는 분석결과를 보게될지 막막하기도 하다. 발표까지 8일 남았다. 일단 모든 지역에 대한 산점도는 아래와 같다. 일단 이 상관분석 결과는 의미가 없었다. 하지만 나는 의미있는 결과를 봐야 했다. 세종, 부산과 같은 결과를 제외하면 어느 정도 양의 상관관계처럼 보이는데, 실제로 제외하면 어떨지 궁금했다. 일단 지난 시간에 나는 사교육비 지출이 많은 상위지역과 하위지역을 선정한 바 있다. 사교육비상위지역: 서울, 경기 | 세종, 인천, 대전, 대구 사교육비하위지역: 경북 | 강원, 경남, 충북 그렇다면 이 상위지역과 하위지역에 포함시키지 않은 나머지는 일단 위 산점도 결과에서 제외시키고 보..
히어로맛쿠키
'데이터분석과 머신러닝' 카테고리의 글 목록 (3 Page)