제가 사용한 데이터는 '지역별 초중고 사교육비'입니다.
일단 박스플롯을 그려서 이상치를 확인하고 제거했습니다. 이상치는 지역별 상위5% 제거했습니다.
그리고 다시 박스플롯을 그려서 훨씬 안정된 분포를 확인했고요!
boxplot 결과입니다
- 기본적으로 내장된 R boxplot을 통해 그렸고요, 디자인은 딱히 하진 않았습니다. 일단은 대충 해봅니다.
- 참고로 사교육비는 조사대상기간동안 지불한 사교육비입니다.
- 그리고 초기데이터에서만 지역별 상위값 5%를 제외했습니다. 아래 박스플롯을 확인해보세요~!
대충 보니 분포차이도 있고 평균차이도 있는 것 같네요.
일단 설명변수(독립변수)는 범주형인 지역(시도)이고,
반응변수(종속변수)는 연속형인 금액입니다.
지역에 따라서 금액평균차이가 있는지 분산분석을 실시하려고 합니다.
평균차이가 있는지 확인해보는게 분산분석이죠 ^o^
- 귀무가설: 평균차이가 있다.
- 대립가설: 평균차이가 없다.
주의해야할 것은, 여러 지역간에 한 지역만 평균차이가 있어도 평균차이가 있는 것입니다.
그래서 어떤 지역간에 어느정도로 평균차이가 있느냐는 분산분석 단독으로 판단할 수 없죠.
그래서 거의 필수적으로 분산분석 후에는 사후분석을 진행하는 것입니다.
사후분석에는 여러 종류가 있는데요,
본인이 분석할 데이터자료의 특징에 따라 방법이 달라집니다.
도움될만한 링크: https://m.blog.naver.com/statsol/221472155248
일단 저는 제임스 하웰(Games Howell)이라는 사후분석방법을 선택했습니다.
그 이유는 분석대상 데이터가 가지고 있는 특성이 이렇기 때문입니다.
- 데이터가 정규분포를 따른다 : 그래서 모수적 검정을 실시할 수 있었습니다.
- 표본(지역) 데이터 수가 상이하다
- 등분산 가정을 만족하지 않는다 : 만약 등분산이라면 Bonferroni 검정이 가능했겠지만, 등분산이 아니었습니다.
제 데이터셋으로는 Games Howell, Dunnett T3, Dunnett C, Tamhane T2 검정이 가능한 것 같은데, 일단 Games Howell 검정을 진행해봤습니다. (다른 것도 조만간 진행해 볼 것입니다. 그러나 Tamhane T2는 샘플이 많으면 1종오류가 높아지고, Dunnett T3은 표본수가 일치해야하며 집단별 표본수가 50개 이상일 때 Games Howell보다 1종오류가 높아진다고 하네요. 그리고 위 링크에 따르면 이중에서 Games-Howell을 일반적으로 추천한다고 합니다.)
각종 결과들을 확인해볼까요?
모든 결과는 지역별 금액 상위 5% 데이터를 제거한 것을 기반으로 산출했습니다.
먼저 기본적으로 확인할 평균값 오름차순입니다.
아까 boxplot에서도 평균값 차이를 눈으로 확인가능했는데요,
정확히 평균순위가 어떻게 되는지 보기위해 이렇게 수치로도 한번 보았습니다.
다음은,
일원배치 분산분석의 결과와 등분산 체크입니다
먼저 일원배치 분산분석의 결과입니다.
유의확률 값이 매우 낮네요. 일단 지역간의 금액평균에 차이가 있다고 확인했습니다.
곧이어 등분산 가정입니다.
levene.test의 결과도 유의확률 값이 매우 낮네요.
등분산 가정을 기각합니다. 등분산이 아니라고 봅니다.
방금 일원배치 분산분석을 통해 지역간 금액평균에 차이가 있음을 확인했습니다.
그러면 이제 어느 지역간에 서로 유의한 차이가 있는지 검정해야겠죠?
사후분석 차례입니다
아까 저는 제임스 하웰 사후분석을 선택했다고 했습니다.
결과입니다.
이렇게 주루루룩 결과가 나옵니다. 너무 길어서 모든 결과를 전부 첨부하지는 않겠습니다.
제가 사교육비 통계량들을 보는 이유는 사교육 관심측도 상위/하위 지역을 선정하기 위해서였습니다. 사교육 관심도를 판단할 측도로는 사교육비데이터와 학생인구대비 학원수 데이터로 정했습니다. 너무 사교육으로만 판단하는지 걱정이 되지만, 일단 사교육이라는 것 자체가 교육에 대한 관심이 불러일으킨 것이니.. 이러한 사교육 측도 두가지로 판단해보려고 합니다.
아무튼 이번에는 사교육비 측도를 통해 여기까지 결과를 봤으니, 이러한 결과들을 근거로 사교육비 상위, 하위 지역을 선정해보겠습니다.
아까 확인한 평균순위 표에서 주평균 사교육비 상위/하위 세지역씩 선정해보았습니다.
상위: 서울, 경기, 인천
하위: 경북, 경남, 강원
그리고 사후분석 결과를 통해 이 상위, 하위와 유의한 차이를 보이는 집단들을 확인했고요, 차이가 유의하지 않은 집단들을 확인했습니다. 각 상위, 하위 집단과 '유의한 차이가 있다고 볼 수 없는' 즉, 비슷한 통계량이라고 볼 수 있는 집단들을 확인한 결과는 다음과 같습니다. 괄호는 유의확률 값입니다.
상위:
- 서울: 모든 집단과 유의한 차이가 있다. 비슷한 집단이 없음.
- 경기: 인천(0.06), 세종(0.09)
- 인천: 경기(0.06), 대구(0.99), 대전(1), 부산(1), 세종(1)
하위:
- 경북: 경남(1), 강원(0.99), 충북(0.18), 전남(0.55)
- 경남: 경북(1), 강원(1), 전남(0.99), 충북(0.78)
- 강원: 충북(1), 전남(1), 경남(1), 경북(0.99), 충남(0.41), 전북(0.07)
저는 위 유의확률 값과 평균순위를 고려해 다음과 같이 판단했습니다.
상위 3집단중 서울은 다른지역과 전부 차이가 있었습니다. 유의확률이 모두 0.01 미만으로 나타났습니다.
경기지역의 경우, 유의수준을 0.05로 했을 때 경기지역과 인천, 세종지역은 차이가 있다고 볼 수 없습니다. 하지만 비슷하다고도 보기 어렵겠습니다. 특히 인천의 유의확률이 유의수준과 매우 가깝습니다.
인천의 경우, 유의확률이 0.06이라 경기와는 다소 차이가 있다고 보겠지만, 대전, 부산, 세종과는 유의확률이 무려 1입니다. 인천-대전-부산-세종을 비슷하다고 묶어야겠습니다.
하위 3집단을 봅시다. 하위1위인 경남은 하위 2,3위인 경남, 강원과 유의확률이 (1)과 (0.99)입니다. 비슷하다고 볼 수 있겠습니다. 전남과도 유의확률이 (0.55)로, 비슷하다고 볼 수 있겠습니다.
경남과 강원의 경우도 같이 보면 경북-경남-강원은 비슷하다고 볼 수 있겠습니다.
그리고 전남도 차이가 있다고 볼 수 없기 때문에 경북-경남-강원-전남으로 묶어도 될 것 같습니다.
충북은 1위인 경북과는 유의확률이 (0.18)로, 유의한 차이가 있다고 볼 수 없겠습니다. 경남과 강원과도 유의한 차이가 있다고 볼 수가 없습니다. 그래서 충북도 사교육비평균 하위지역에 같이 묶겠습니다. 그럼 경북-경남-강원-전남-충북까지는 같이 묶겠습니다.
사교육비 상위지역: 서울, 경기 | 세종, 인천, 대전, 부산, 대구
사교육비 하위지역: 경북, 경남, 강원 | 전남, 충북
이렇습니다. 상위와 하위를 딱 잘라 몇위로 나누기는 애매하네요..
이렇게 분석한 2019자료에 이어서 같은 방식으로 2020사교육비 자료도 분석해보았습니다.
https://splendidlolli.tistory.com/372
이제 사교육비 측도 말고 학생인구대비 학원수도 확인해봐야겠습니다.
제가 가지고 있는 사설학원 현황 데이터는 좋은 점이,
시도구분이 아니라 좀 더 세분화된 행정구(시,군,구)별로 분석가능하다는 겁니다.
결과가 굉~~장~~~~히 궁금하네요...
그런데 앞으로 할 게 너무 많아서 부담스럽네요...
이번학기에 복수전공을 시작했는데... 전공생에비해 구멍난 지식도 채워야하고..... 데이터활용대회도 준비해야하고...
바쁘게 지내보렵니다 팟팅!! >_<
'데이터분석과 머신러닝' 카테고리의 다른 글
R데이터분석 | 박스플롯에서 이상치 확인 (0) | 2021.09.15 |
---|---|
R데이터분석 | 분산분석, 사후분석으로 지역별통계량 분석 (0) | 2021.09.15 |
R데이터분석 | 상위n% 제외하기 (0) | 2021.09.13 |
R데이터분석 - 데이터 불러오기 오류 해결 | read.csv | invalid multibyte string (10) | 2021.08.23 |
[데이터분석] 공공데이터 사이트 정리 | 국내 무료데이터 총집합 (0) | 2021.08.20 |