
R데이터분석 | 상위n% 제외하기
·
데이터분석과 머신러닝
상위 5%의 값을 제외하는 함수를 작성해봅시다. 참고로 제가 가지고 있는 데이터프레임은 '지역별 사교육비금액 데이터'입니다. 설문조사 대상이 지불하는 일주일 일반교과 사교육비 액수 데이터가 담겨있습니다. 지금부터 저는 지역별로 지불 상위 5%인 사람들을 NA처리하려 합니다. 다음은 금액값의 상위 5%를 제외해주는 함수입니다. 일단 함수의 인자 a로는 어느 지역의 상위%를 다룰지 설정해주기 위해 '지역명'을 넣겠습니다. 참고로 초등학생 사교육비금액이 담긴 제 데이터프레임 이름은 초등박스플롯입니다. (오로지 박스플롯을 그리기 위한 데이터프레임이었기 때문에 그냥 그렇게 정했습니다.) 상위5 % filter(시도==a & is.na(금액)) %>% dplyr::summarise(건수=n())) # 시도명이 a인..