각 지역별 학생수대비 학원수 비율입니다.
이런 박스플롯이 나왔네요. 이상치들이 눈에 띕니다.
특히 서울에 이상치들이 많이 튀어나와있네요.
경북 인천 전남은 비율이 아래로 쭉 내려간 세부행정구역들이 있는지 제1분위수가 비교적 아래로 분포하고요.
각 이상치들이 어느 행정구역인지 궁금합니다.
아래와 같은 코드를 통해 파악해볼까요?
먼저 서울의 이상치 확인입니다.
아래 두개 이상치는 '중구'와 '종로구'였습니다.
위 3개 이상치는 '마포구', '서초구', '강남구'네요.
이어서 울산의 저 동떨어진 하나의 이상치 집단(행정구역)은 어디일까요?
울산의 '남구'라고 합니다. 따로 조사해보아야겠어요
이상치는 아니지만 울산의 낮은 학원수 비율을 보이는 지역은,
북구, 동구 ... 입니다.
저기 강원의 동떨어진 이상치 한개도 의아해요.. 한번 볼게요
강원도 '강릉시'입니다. 여기가 학생인구대비 학원수가 강원내부에서 비교적 많은가봐요.
이상치는 아니지만 강원의 낮은 학원수 비율을 보이는 지역은,
정선군, 고성군, 화성군, 양구군 등.. 입니다.
충남에도 살짝 이상치가 있네요. 어디일까요?
충남 '천안시'입니다.
이상치는 아니지만 충남의 낮은 학원수 비율을 보이는 지역은,
계룡시, 청양군, 금산군 등.. 입니다.
전남도 하위 이상치가 보입니다.
담양군이래요.
아래 비율을 보니까, 담양군, 신안군이 꽤 학원수비율이 낮고
진도군이 가장 높긴 하네요.
일단 이상치를 보이는 지역 내부에서 상위, 하위 학원수비율 구도를 정리해보면 이렇습니다.
서울 : 마포구 서초구 강남구 ( vs 중구, 종로구 )
울산 : 남구 ( vs 북구, 동구 )
강원 : 강릉시 ( vs 정선군 )
충남 : 천안시 ( vs 계룡시 )
전남 : ( vs 담양군, 신안군 )
지난시간에 선정한 '사교육비 상위, 하위 지역'을 눈여겨보기로 했었습니다.
이렇게 눈여겨보기로 했죠?
상위지역 : 서울, 경기 | 세종 인천 대전 대구
하위지역 : 경북 | 강원 경남 충북
박스플롯에서 어떤 분포를 보이나 봅시다.
일단 두드러지게 다른 지역과 유의한 차이가 있었던
경기 서울 / 경북을 봅시다.
경북은 아래꼬리가 특히 기네요?
사실 인천은 상위그룹에 넣었지만 인천도 나름 아래꼬리가 깁니다.
전남이 사실 하위그룹에 걸치는 경향이 있었는데, 그런 전남과 아래꼬리가 비슷하네요.
사교육비 상위지역인 인천과 하위지역에 걸치는 전남이 사실 어떠한 행정구역에서는 비슷할 수 있습니다.
경북, 인천, 전남의 사교육비 하위행정구역이 어디인지 보겠습니다.
경북의 울릉군 / 인천의 옹진군 / 전남의 담양군, 신안군이 사교육비 하위행정구역입니다.
수치도 같이 참고해 보면 좋을 것 같습니다.
박스플롯을 보면 박스가 꽤 긴 집단들이 있는데, 이것도 지나치지 않고 확인해 보겠습니다.
'꽤 긴' 박스만 골라 본다는 건 조금 애매하지만 일단 육안으로 길어보이는 것을 골라 확인해볼게요
네.. 수치와 행정구역 참고해서 앞으로 분석시에 참고하면 좋을 것 같습니다.
지역 내에서 행정구역간 차이가 나네? => 혹시 정보격차와 상관관계는 있는지 한번 확인해볼 수 있겠네요.
'데이터분석과 머신러닝' 카테고리의 다른 글
R데이터분석 | 지역별 교육측도와 정보측도(기기보유율)의 상관관계 | 양의상관관계 (0) | 2021.09.21 |
---|---|
R데이터분석 | 사교육측도 둘 사이의 상관관계 - 결론: 상관관계 없다. (0) | 2021.09.15 |
R데이터분석 | 분산분석, 사후분석으로 지역별통계량 분석 (0) | 2021.09.15 |
R데이터분석 | 일원배치 분산분석 - 그리고 사후분석 (0) | 2021.09.14 |
R데이터분석 | 상위n% 제외하기 (0) | 2021.09.13 |