
R데이터분석 | 일원배치 분산분석 - 그리고 사후분석
·
데이터분석과 머신러닝
제가 사용한 데이터는 '지역별 초중고 사교육비'입니다. 일단 박스플롯을 그려서 이상치를 확인하고 제거했습니다. 이상치는 지역별 상위5% 제거했습니다. 그리고 다시 박스플롯을 그려서 훨씬 안정된 분포를 확인했고요! boxplot 결과입니다 - 기본적으로 내장된 R boxplot을 통해 그렸고요, 디자인은 딱히 하진 않았습니다. 일단은 대충 해봅니다. - 참고로 사교육비는 조사대상기간동안 지불한 사교육비입니다. - 그리고 초기데이터에서만 지역별 상위값 5%를 제외했습니다. 아래 박스플롯을 확인해보세요~! 대충 보니 분포차이도 있고 평균차이도 있는 것 같네요. 일단 설명변수(독립변수)는 범주형인 지역(시도)이고, 반응변수(종속변수)는 연속형인 금액입니다. 지역에 따라서 금액평균차이가 있는지 분산분석을 실시하려..