yeny_lab

R데이터분석 | 분산분석, 사후분석으로 지역별통계량 분석

2021. 9. 15. 02:13·데이터분석과 머신러닝
728x90

아래 자료들은 

https://splendidlolli.tistory.com/368

 

R데이터분석 | 일원배치 분산분석 - 그리고 사후분석

제가 사용한 데이터는 '지역별 초중고 사교육비'입니다. 일단 박스플롯을 그려서 이상치를 확인하고 제거했습니다. 이상치는 지역별 상위5% 제거했습니다. 그리고 다시 박스플롯을 그려서 훨씬

splendidlolli.tistory.com

이와 같은 방법으로 진행했습니다. 단지 연도만 2020으로 바꿔본 결과입니다. 

2019와 2020에서 선정된 상위/하위 대상이 크게 다른지 보기 위해 같은 방식으로 진행했습니다.

위 포스팅에 과정을 상세히 써놓았으니 여기에는 사진만 투척하겠습니다.

 


 

 


 

상위: 서울 경기 대전

하위: 경북 충남 충북

 

 

이제 사후분석결과 고려합시다. 

 

사교육비평균 상위

서울: 모두와 유의한 차이 있다. 유의확률이 모두 0.01 아래다.

경기: 모두와 유의한 차이 있다. 유의확률이 모두 0.05 아래다. 

대전: 광주(0.08), 대구(0.56), 세종(1), 인천(1), 제주(0.55)

참고: 제주인천(0.93), 인천세종(1), 인천부산(0.14), 인천대구(0.94), 인천광주(0.35), 세종광주(0.78), 세종대구(0.99), 세종부산(0.56), 제주세종(0.99), 제주광주(1), 부산광주(1), 대전광주(0.08)

 

대전과 광주를 묶기에는 0.08이라서 애매하여 같이 묶지 않겠습니다.

대전, 세종, 인천과 제주까지는 0.55, 0.99, 0.93라서 같이 묶었습니다. 

 

서울 경기 | 대전 세종 인천 대구 제주 

 

 

사교육비평균 하위

경북: 충남(0.8)

충남: 충북(0.98), 전북(0.26), 전남(0.67), 경북(0.8), 경남(0.65), 강원(0.37)

충북: 강원(1), 경남(1), 전남(1), 전북(1), 충남(0.98)

참고: 충북과 경북 (0.02)

 

경북과 충북을 하나로 묶긴 애매하네요. 경북은 충남 이외의 다른 지역과 유의한 차이가 있습니다. 

 

경북 충남 | 충남 충북 경남 전남 강원 전북

 

 


선정한 대상을 2020, 2019 비교하겠습니다.

 

파랑: 2020

초록: 2019

 

상위지역

서울 경기 | 대전 세종 인천 대구 제주 

서울, 경기 | 세종, 인천, 대전, 부산, 대구

 

하위지역

경북 충남 | 충남 충북 경남 전남 강원 전북

경북, 경남, 강원 | 전남, 충북

 

 

상위지역에서 겹치는 부분만을 골라 정리해보면

서울, 경기 | 세종, 대전, 인천, 대구

 

하위지역에서 겹치는 부분만을 골라 정리해보면

경북 | 강원 경남 | 충북 전남

 

 

이렇게 약간 경향성이 보이긴 하네요. 일단 사교육비평균이라는 측도로 상위/하위 지역을 선정해보았습니다.

앞으로 서울, 경기지역 vs 경북지역을 관심 있게 관찰해야겠다는 결론은 확실히 얻었네요.  

 

 


 

2019, 2020년 자료 두개를 합쳐서 낸 통계분석도 그냥 재빨리 해봅시다.. 

고고.. 

 

다시한번.. 파악해봅시다..

 


상위: 서울, 경기, 인천, 대전

하위: 경북, 경남, 충남, 충북

 

이제 또 분산분석을 고려한 결과를 봅시다.

 

상위지역

서울: 모든 집단과 유의한 차이가 있다. 모두 유의확률값이 0.01아래

경기: 모든 집단과 유의한 차이가 있다. 모두 유의확률값이 0.01아래

인천: 세종(1) 부산(0.32) 대전(1) 대구(0.66)

대전: 인천(1), 세종(1), 대구(0.88), 부산(0.62)

 

서울 경기 | 인천 대전 세종 대구 부산

 

 

 

하위지역

경북: 모든 집단과 유의한 차이가 있다. 모두 유의확률값이 0.01아래 

경남: 강원(1), 전남(1), 충남(1), 충북(1), 

충남: 경남(1), 강원(1), 전남(1), 전북(0.4), 충북(1)

충북: 충남(1), 전북(0.48), 전남(1), 경남(1), 강원(1)

 

경북 | 경남 충남 충북 강원 전남 | 전북

 

이렇게 나오네요.. 넵

 


상위지역 정리

서울, 경기 | 세종, 대전, 인천, 대구

서울 경기 | 인천 대전 세종 대구 부산

 

하위지역 정리

경북 | 강원 경남 | 충북 전남

경북 | 경남 충남 충북 강원 전남 | 전북

 

흠..

 

 

상위지역 : 서울, 경기 | 세종 인천 대전 대구

이정도로 기준을 세우고요

 

하위지역 : 경북 | 강원 경남 충북

이정도로 기준을 세워야겠군요

 

 

 

728x90

'데이터분석과 머신러닝' 카테고리의 다른 글

R데이터분석 | 사교육측도 둘 사이의 상관관계 - 결론: 상관관계 없다.  (0) 2021.09.15
R데이터분석 | 박스플롯에서 이상치 확인  (0) 2021.09.15
R데이터분석 | 일원배치 분산분석 - 그리고 사후분석  (0) 2021.09.14
R데이터분석 | 상위n% 제외하기  (0) 2021.09.13
R데이터분석 - 데이터 불러오기 오류 해결 | read.csv | invalid multibyte string  (10) 2021.08.23
'데이터분석과 머신러닝' 카테고리의 다른 글
  • R데이터분석 | 사교육측도 둘 사이의 상관관계 - 결론: 상관관계 없다.
  • R데이터분석 | 박스플롯에서 이상치 확인
  • R데이터분석 | 일원배치 분산분석 - 그리고 사후분석
  • R데이터분석 | 상위n% 제외하기
히어로맛쿠키
히어로맛쿠키
  • 히어로맛쿠키
    yeny_lab
    히어로맛쿠키
  • 전체
    오늘
    어제
    • 분류 전체보기 (389)
      • 미분류글 (32)
        • ㅇ (2)
      • JAVA (84)
        • Effective Java (1)
        • Application (21)
      • 컴퓨터구조 & OS (28)
      • 자료구조 + 알고리즘 (43)
      • Database (12)
      • 컴파일러 (10)
      • 수학 (33)
        • 미분방정식 (12)
      • 데이터분석과 머신러닝 (38)
      • 기타 (59)
      • yyeeennyy (25)
  • 공지사항

    • ^o^/♡
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
히어로맛쿠키
R데이터분석 | 분산분석, 사후분석으로 지역별통계량 분석
상단으로

티스토리툴바