R데이터분석 | 상위n% 제외하기

2021. 9. 13. 21:47·데이터분석과 머신러닝
목차
  1. 상위 5%의 값을 제외하는 함수를 작성해봅시다. 

상위 5%의 값을 제외하는 함수를 작성해봅시다. 

 

참고로 제가 가지고 있는 데이터프레임은 '지역별 사교육비금액 데이터'입니다.

설문조사 대상이 지불하는 일주일 일반교과 사교육비 액수 데이터가 담겨있습니다. 

지금부터 저는 지역별로 지불 상위 5%인 사람들을 NA처리하려 합니다.

 

 

다음은 금액값의 상위 5%를 제외해주는 함수입니다.

일단 함수의 인자 a로는 어느 지역의 상위%를 다룰지 설정해주기 위해 '지역명'을 넣겠습니다.

 

참고로 초등학생 사교육비금액이 담긴 제 데이터프레임 이름은 초등박스플롯입니다.

(오로지 박스플롯을 그리기 위한 데이터프레임이었기 때문에 그냥 그렇게 정했습니다.)

 

상위5 <- function(a){

    print("제거 전")
    print(초등박스플롯 %>% filter(시도==a & is.na(금액)) %>% dplyr::summarise(건수=n()))
    
    # 시도명이 a인 데이터만 따로 담아두고 상위0.05값 계산
    a지역데이터 <- 초등박스플롯 %>% filter(시도==a)
    상위0.05값 = qnorm((1-0.05), 
                    mean = mean(a지역데이터$금액), 
                    sd = sd(a지역데이터$금액))
                    
    # 상위 n%에 해당하는 금액데이터를 NA처리합니다.                    
    a지역데이터$금액 =
        ifelse(a지역데이터$금액>=상위0.05값, 
               NA, a지역데이터$금액)
    sprintf("%s 지역의 상위%f값 제외완료", a, 0.05)
    print(a지역데이터 %>% filter(is.na(금액)) %>% dplyr::summarise(건수=n()))
    
    # NA처리 왼료한 데이터프레임을 리턴합니다.
    return(a지역데이터)

}

 

코드 중간중간에 NA제거전, 제거후를 확인해주기 위한 print 장치를 삽입해두었습니다. 

 


이제 함수를 실행해봅시다.

 

함수 매개변수를 '서울'로 설정해 함수 인자로 넣어주어 상위 5%값을 NA처리한 새로운 데이터셋을 리턴해봅시다. 

 

 

제거 전은 아무 NA도 확인되지 않습니다.

제거 후 NA는 120건으로 확인됩니다. 

 

 

 

다른 지역도 해볼까요? 대전 해봅시다.

 

 

제거 전은 속성이 NA인 건수가 0입니다.

제거 후는 속성이 NA인 건수가 41건입니다.

 

^-^

반응형

'데이터분석과 머신러닝' 카테고리의 다른 글

R데이터분석 | 분산분석, 사후분석으로 지역별통계량 분석  (0) 2021.09.15
R데이터분석 | 일원배치 분산분석 - 그리고 사후분석  (0) 2021.09.14
R데이터분석 - 데이터 불러오기 오류 해결 | read.csv | invalid multibyte string  (10) 2021.08.23
[데이터분석] 공공데이터 사이트 정리 | 국내 무료데이터 총집합  (0) 2021.08.20
회귀분석 - R데이터분석을 위한 통계학 공부  (0) 2021.08.16
  1. 상위 5%의 값을 제외하는 함수를 작성해봅시다. 
'데이터분석과 머신러닝' 카테고리의 다른 글
  • R데이터분석 | 분산분석, 사후분석으로 지역별통계량 분석
  • R데이터분석 | 일원배치 분산분석 - 그리고 사후분석
  • R데이터분석 - 데이터 불러오기 오류 해결 | read.csv | invalid multibyte string
  • [데이터분석] 공공데이터 사이트 정리 | 국내 무료데이터 총집합
히어로맛쿠키
히어로맛쿠키
  • 히어로맛쿠키
    yeny_lab
    히어로맛쿠키
  • 전체
    오늘
    어제
    • 분류 전체보기 (389)
      • 미분류글 (32)
        • ㅇ (2)
      • JAVA (84)
        • Effective Java (1)
        • Application (21)
      • 컴퓨터구조 & OS (28)
      • 자료구조 + 알고리즘 (43)
      • Database (12)
      • 컴파일러 (10)
      • 수학 (33)
        • 미분방정식 (12)
      • 데이터분석과 머신러닝 (38)
      • 기타 (59)
      • yyeeennyy (25)
  • 공지사항

    • ^o^/♡
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
히어로맛쿠키
R데이터분석 | 상위n% 제외하기

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.