학습 글: 미션인증과 분리했습니다!
2022.01.10 - [데이터분석과 머신러닝] - 혼자 공부하는 머신러닝+딥러닝 | 도서 추천도 하고 내 얘기도 겸사겸사..
2022.01.10 - [데이터분석과 머신러닝] - 머신러닝 입문 | 이진분류해보기 (k-Nearest Neighbors algorithm 사용)
2022.01.12 - [데이터분석과 머신러닝] - 머신러닝 입문 | 지도학습, train set과 test set
2022.01.12 - [데이터분석과 머신러닝] - 머신러닝 | 데이터 전처리 | 스케일 조정, 표준화하여 전처리 | 표준점수로 변환
# 기본 미션
맨위에 링크한 글에 실습화면 캡쳐해가며 학습진행하였습니다 !
# 선택 미션
CHAP 2-1 확인 문제 풀이하기
1. 머신러닝 알고리즘의 한 종류로서 샘플의 입력과 타깃(정답)을 알고 있을 때 사용할 수 있는 학습방법은 무엇인가요?
>> 지도 학습
>> 지도학습은 input data와, 그에대한 정답 데이터가 필요하다. input data에 대해서 정답을 알려주는 방식으로 학습하는 것이다. 비지도학습은 이와 다르게, input data만 줄 뿐이지 정답 데이터를 주지 않는다.
2. 훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을 무엇이라고 부르나요?
>> 샘플링 편향
>> 그래서 train set, test set을 만들기 위해서는 잘 섞어야 한다.
우리는 이번에 index를 랜덤하게 섞고, 그 index로 어떤 배열 요소를 랜덤하게 뽑아오는 방식을 사용했다. 이때 numpy의 random.shuffle(index)을 통해서 index를 섞었다. 그 결과, 순서대로 정렬된 0~48 index 숫자가 shuffle() 후에 랜덤하게 잘 섞였다. 추가적으로, shuffle()은 원래 데이터를 건드린다는 것을 기억하자.
3. 사이킷런은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하나요?
>> 행: 샘플, 열 : 특성
>> 각 행은 각 샘플 하나하나를 말하고, 열에는 특성이 들어가 있다. (직관적으로도 이것이 자연스럽다.)
이번 실습을 예로 들면, 각 행은 한마리의 도미1, 한마리의 도미2, 한마리의 빙어1 이런 식으로 각 샘플들이 각 행에 대응되어있다. 그리고 0, 1열에는 length, weight라는 특성이 들어가 있었다.
'데이터분석과 머신러닝' 카테고리의 다른 글
머신러닝 | 선형 회귀 알고리즘 (k-최근접이웃 알고리즘과 비교) (0) | 2022.01.22 |
---|---|
머신러닝 | 회귀 모델 (+ knr) | 과소적합, 과대적합 (0) | 2022.01.21 |
머신러닝 | 데이터 전처리 | 스케일 조정, 표준화하여 전처리 | 표준점수로 변환 (0) | 2022.01.12 |
머신러닝 입문 | 지도학습, train set과 test set (0) | 2022.01.12 |
머신러닝 입문 | 이진분류해보기 (k-Nearest Neighbors algorithm 사용) (0) | 2022.01.10 |