R데이터분석 | 박스플롯에서 이상치 확인
·
데이터분석과 머신러닝
각 지역별 학생수대비 학원수 비율입니다. 이런 박스플롯이 나왔네요. 이상치들이 눈에 띕니다. 특히 서울에 이상치들이 많이 튀어나와있네요. 경북 인천 전남은 비율이 아래로 쭉 내려간 세부행정구역들이 있는지 제1분위수가 비교적 아래로 분포하고요. 각 이상치들이 어느 행정구역인지 궁금합니다. 아래와 같은 코드를 통해 파악해볼까요? 먼저 서울의 이상치 확인입니다. 아래 두개 이상치는 '중구'와 '종로구'였습니다. 위 3개 이상치는 '마포구', '서초구', '강남구'네요. 이어서 울산의 저 동떨어진 하나의 이상치 집단(행정구역)은 어디일까요? 울산의 '남구'라고 합니다. 따로 조사해보아야겠어요 이상치는 아니지만 울산의 낮은 학원수 비율을 보이는 지역은, 북구, 동구 ... 입니다. 저기 강원의 동떨어진 이상치 한..
R데이터분석 | 상위n% 제외하기
·
데이터분석과 머신러닝
상위 5%의 값을 제외하는 함수를 작성해봅시다. 참고로 제가 가지고 있는 데이터프레임은 '지역별 사교육비금액 데이터'입니다. 설문조사 대상이 지불하는 일주일 일반교과 사교육비 액수 데이터가 담겨있습니다. 지금부터 저는 지역별로 지불 상위 5%인 사람들을 NA처리하려 합니다. 다음은 금액값의 상위 5%를 제외해주는 함수입니다. 일단 함수의 인자 a로는 어느 지역의 상위%를 다룰지 설정해주기 위해 '지역명'을 넣겠습니다. 참고로 초등학생 사교육비금액이 담긴 제 데이터프레임 이름은 초등박스플롯입니다. (오로지 박스플롯을 그리기 위한 데이터프레임이었기 때문에 그냥 그렇게 정했습니다.) 상위5 % filter(시도==a & is.na(금액)) %>% dplyr::summarise(건수=n())) # 시도명이 a인..