R데이터분석 | 박스플롯에서 이상치 확인

2021. 9. 15. 03:26·데이터분석과 머신러닝

각 지역별 학생수대비 학원수 비율입니다. 

 

이런 박스플롯이 나왔네요. 이상치들이 눈에 띕니다. 

특히 서울에 이상치들이 많이 튀어나와있네요. 

경북 인천 전남은 비율이 아래로 쭉 내려간 세부행정구역들이 있는지 제1분위수가 비교적 아래로 분포하고요. 

 

각 이상치들이 어느 행정구역인지 궁금합니다. 

 

아래와 같은 코드를 통해 파악해볼까요?

 

 

먼저 서울의 이상치 확인입니다.

아래 두개 이상치는 '중구'와 '종로구'였습니다.

위 3개 이상치는 '마포구', '서초구', '강남구'네요.

 

 

이어서 울산의 저 동떨어진 하나의 이상치 집단(행정구역)은 어디일까요?

울산의 '남구'라고 합니다. 따로 조사해보아야겠어요

이상치는 아니지만 울산의 낮은 학원수 비율을 보이는 지역은,

북구, 동구 ... 입니다. 

 

 

저기 강원의 동떨어진 이상치 한개도 의아해요.. 한번 볼게요

강원도 '강릉시'입니다. 여기가 학생인구대비 학원수가 강원내부에서 비교적 많은가봐요.

 

이상치는 아니지만 강원의 낮은 학원수 비율을 보이는 지역은,

정선군, 고성군, 화성군, 양구군 등.. 입니다. 

 

충남에도 살짝 이상치가 있네요. 어디일까요?

충남 '천안시'입니다.

이상치는 아니지만 충남의 낮은 학원수 비율을 보이는 지역은,

계룡시, 청양군, 금산군 등.. 입니다. 

 

 

전남도 하위 이상치가 보입니다. 

담양군이래요.

아래 비율을 보니까, 담양군, 신안군이 꽤 학원수비율이 낮고

진도군이 가장 높긴 하네요. 


일단 이상치를 보이는 지역 내부에서 상위, 하위 학원수비율 구도를 정리해보면 이렇습니다. 

 

서울 : 마포구 서초구 강남구 ( vs 중구, 종로구 )

울산 : 남구 ( vs 북구, 동구 )

강원 : 강릉시 ( vs 정선군 )

충남 : 천안시 ( vs 계룡시 )

전남 : ( vs 담양군, 신안군 )

 


지난시간에 선정한 '사교육비 상위, 하위 지역'을 눈여겨보기로 했었습니다. 

 

이렇게 눈여겨보기로 했죠?

상위지역 : 서울, 경기 | 세종 인천 대전 대구

하위지역 : 경북 | 강원 경남 충북

 

박스플롯에서 어떤 분포를 보이나 봅시다. 

일단 두드러지게 다른 지역과 유의한 차이가 있었던 

경기 서울 / 경북을 봅시다. 

 

경북은 아래꼬리가 특히 기네요?

사실 인천은 상위그룹에 넣었지만 인천도 나름 아래꼬리가 깁니다.

전남이 사실 하위그룹에 걸치는 경향이 있었는데, 그런 전남과 아래꼬리가 비슷하네요. 

사교육비 상위지역인 인천과 하위지역에 걸치는 전남이 사실 어떠한 행정구역에서는 비슷할 수 있습니다. 

경북, 인천, 전남의 사교육비 하위행정구역이 어디인지 보겠습니다.

경북의 울릉군 / 인천의 옹진군 / 전남의 담양군, 신안군이 사교육비 하위행정구역입니다. 

수치도 같이 참고해 보면 좋을 것 같습니다.


박스플롯을 보면 박스가 꽤 긴 집단들이 있는데, 이것도 지나치지 않고 확인해 보겠습니다. 

'꽤 긴' 박스만 골라 본다는 건 조금 애매하지만 일단 육안으로 길어보이는 것을 골라 확인해볼게요

 

네.. 수치와 행정구역 참고해서 앞으로 분석시에 참고하면 좋을 것 같습니다. 

 

지역 내에서 행정구역간 차이가 나네? => 혹시 정보격차와 상관관계는 있는지 한번 확인해볼 수 있겠네요. 

반응형

'데이터분석과 머신러닝' 카테고리의 다른 글

R데이터분석 | 지역별 교육측도와 정보측도(기기보유율)의 상관관계 | 양의상관관계  (0) 2021.09.21
R데이터분석 | 사교육측도 둘 사이의 상관관계 - 결론: 상관관계 없다.  (0) 2021.09.15
R데이터분석 | 분산분석, 사후분석으로 지역별통계량 분석  (0) 2021.09.15
R데이터분석 | 일원배치 분산분석 - 그리고 사후분석  (0) 2021.09.14
R데이터분석 | 상위n% 제외하기  (0) 2021.09.13
'데이터분석과 머신러닝' 카테고리의 다른 글
  • R데이터분석 | 지역별 교육측도와 정보측도(기기보유율)의 상관관계 | 양의상관관계
  • R데이터분석 | 사교육측도 둘 사이의 상관관계 - 결론: 상관관계 없다.
  • R데이터분석 | 분산분석, 사후분석으로 지역별통계량 분석
  • R데이터분석 | 일원배치 분산분석 - 그리고 사후분석
히어로맛쿠키
히어로맛쿠키
  • 히어로맛쿠키
    yeny_lab
    히어로맛쿠키
  • 전체
    오늘
    어제
    • 분류 전체보기 (389)
      • 미분류글 (32)
        • ㅇ (2)
      • JAVA (84)
        • Effective Java (1)
        • Application (21)
      • 컴퓨터구조 & OS (28)
      • 자료구조 + 알고리즘 (43)
      • Database (12)
      • 컴파일러 (10)
      • 수학 (33)
        • 미분방정식 (12)
      • 데이터분석과 머신러닝 (38)
      • 기타 (59)
      • yyeeennyy (25)
  • 공지사항

    • ^o^/♡
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
히어로맛쿠키
R데이터분석 | 박스플롯에서 이상치 확인

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.