데이터분석과 머신러닝

사교육비평균통계량과 학원수비율의상관관계를 분석해보았는데요. 상관관계가 없습니다. 이상치 집단을 제거하나 안하나 상관관계는 없습니다. 사교육비평균이랑 학생인구수대비학원수비율 둘 다 교육에 대한 관심도를 보이는 측도로 사용될 줄 알았는데, 둘이 크게 상관관계는 없나보네요. 이상치제거전: 이상치제거후: 그럼 이런거 해볼까요? 사교육참여여부율~학원수비율 상관관계, 유료인강지불여부율~학원수비율 상관관계 분석이요. 먼저 사교육참여여부율은 2019~2020 사교육비 데이터를 종합합 결과로 분석해봅시다. - 시도별 사교육참여여부율과 학원수비율 : 결론적으로 상관관계는 없다고 봅니다. - 시도별 유료인강지불여부율과 학원수비율 : 결론적으로 상관관계는 없다고 봅니다. 아... 도대체 어떤 사교육 측도 두개를 같이 봐야 사..
각 지역별 학생수대비 학원수 비율입니다. 이런 박스플롯이 나왔네요. 이상치들이 눈에 띕니다. 특히 서울에 이상치들이 많이 튀어나와있네요. 경북 인천 전남은 비율이 아래로 쭉 내려간 세부행정구역들이 있는지 제1분위수가 비교적 아래로 분포하고요. 각 이상치들이 어느 행정구역인지 궁금합니다. 아래와 같은 코드를 통해 파악해볼까요? 먼저 서울의 이상치 확인입니다. 아래 두개 이상치는 '중구'와 '종로구'였습니다. 위 3개 이상치는 '마포구', '서초구', '강남구'네요. 이어서 울산의 저 동떨어진 하나의 이상치 집단(행정구역)은 어디일까요? 울산의 '남구'라고 합니다. 따로 조사해보아야겠어요 이상치는 아니지만 울산의 낮은 학원수 비율을 보이는 지역은, 북구, 동구 ... 입니다. 저기 강원의 동떨어진 이상치 한..
아래 자료들은 https://splendidlolli.tistory.com/368 R데이터분석 | 일원배치 분산분석 - 그리고 사후분석 제가 사용한 데이터는 '지역별 초중고 사교육비'입니다. 일단 박스플롯을 그려서 이상치를 확인하고 제거했습니다. 이상치는 지역별 상위5% 제거했습니다. 그리고 다시 박스플롯을 그려서 훨씬 splendidlolli.tistory.com 이와 같은 방법으로 진행했습니다. 단지 연도만 2020으로 바꿔본 결과입니다. 2019와 2020에서 선정된 상위/하위 대상이 크게 다른지 보기 위해 같은 방식으로 진행했습니다. 위 포스팅에 과정을 상세히 써놓았으니 여기에는 사진만 투척하겠습니다. 상위: 서울 경기 대전 하위: 경북 충남 충북 이제 사후분석결과 고려합시다. 사교육비평균 상위 ..
제가 사용한 데이터는 '지역별 초중고 사교육비'입니다. 일단 박스플롯을 그려서 이상치를 확인하고 제거했습니다. 이상치는 지역별 상위5% 제거했습니다. 그리고 다시 박스플롯을 그려서 훨씬 안정된 분포를 확인했고요! boxplot 결과입니다 - 기본적으로 내장된 R boxplot을 통해 그렸고요, 디자인은 딱히 하진 않았습니다. 일단은 대충 해봅니다. - 참고로 사교육비는 조사대상기간동안 지불한 사교육비입니다. - 그리고 초기데이터에서만 지역별 상위값 5%를 제외했습니다. 아래 박스플롯을 확인해보세요~! 대충 보니 분포차이도 있고 평균차이도 있는 것 같네요. 일단 설명변수(독립변수)는 범주형인 지역(시도)이고, 반응변수(종속변수)는 연속형인 금액입니다. 지역에 따라서 금액평균차이가 있는지 분산분석을 실시하려..
상위 5%의 값을 제외하는 함수를 작성해봅시다. 참고로 제가 가지고 있는 데이터프레임은 '지역별 사교육비금액 데이터'입니다. 설문조사 대상이 지불하는 일주일 일반교과 사교육비 액수 데이터가 담겨있습니다. 지금부터 저는 지역별로 지불 상위 5%인 사람들을 NA처리하려 합니다. 다음은 금액값의 상위 5%를 제외해주는 함수입니다. 일단 함수의 인자 a로는 어느 지역의 상위%를 다룰지 설정해주기 위해 '지역명'을 넣겠습니다. 참고로 초등학생 사교육비금액이 담긴 제 데이터프레임 이름은 초등박스플롯입니다. (오로지 박스플롯을 그리기 위한 데이터프레임이었기 때문에 그냥 그렇게 정했습니다.) 상위5 % filter(시도==a & is.na(금액)) %>% dplyr::summarise(건수=n())) # 시도명이 a인..
R 데이터분석이 처음이다보니 데이터를 불러오는 것만에서도 각종 오류를 만났다. 종합적으로는 인코딩 문제인 걸 알겠는데, 이 문제를 깊이 이해하지는 못하겠다. read.csv의 속성에서 이리저리 encoding, fileEncoding설정을 바꿔갔다. Default text encoding은 UTF-8설정을 유지했다. 그런데 표시되는 오류의 문구만 조금씩 달라질 뿐, 계속 어떤 부분에서 자꾸만 어긋났다. 다음은 내가 만난 오류들이다. Error in type.convert.default(data[[i]], as.is = as.is[i], dec = dec, : invalid multibyte string at '? ' Error in make.names(col.names, unique = TRUE) : i..
공공데이터를 통해 어떤 분석을 하려고 한다면 다음과 같은 사이트에서 각종 데이터를 검색해 얻을 수 있습니다. 조사 분야에 따라 얻고자하는 데이터의 종류가 다르겠지만 널리 알려진 공공데이터 제공 사이트를 소개해보려 합니다. 그리고 공공데이터 사이트에 익숙해지고 싶다면 직접 접속하여 이것저것 확인해보고 눌러보는 것이 도움이 됩니다. 손에 익히면 원하는 데이터를 다운로드받기 쉽습니다. 직접 해 보세요! 1. 공공데이터포털 https://www.data.go.kr/ 공공데이터 포털: 공공기관이 생성하거나 취득해서 관리 하에 있는 공공데이터를 총집합하여 제공합니다. 2. KOSIS 국가통계포털 https://kosis.kr/index/index.do KOSIS 국가통계포털: 통계청이 제공하는 "국내, 국제, 북한..
통계학을 살짝 공부할 일이 생겼다. 엄밀하게 공부하지는 않고 데이터분석을 목적으로 필요한 내용을 공부해야 한다. 한달 안에 어떤 유의미한 데이터 분석을 해내야 한다. 그래서 그때까지 배우는 데이터분석을 위한 통계학 지식들을 정리하고자 한다. 수치적 계산은 R프로그램이 다 해주므로, 간단한 개념, 그리고 어떤 사례에 어떤 분석이 적합한지 이해하고 넘어가는 것이 학습의 목적이다. 회귀분석(regression)이란? 한 변수를 이용해 다른 변수를 예측, 설명하기에 용이한 분석방법이다. 다시 말해 두 변수 사이의 관계를 모형화하는 것이다. 어떤 현상이 다른 현상에 미치는 영향을 알고 싶을 경우 회귀분석을 실시한다. 이때 회귀직선식이라는 개념을 알아야 한다. 어렵게 생각하지 말자. 두 변수의 관계를 나타내주는 직..
히어로맛쿠키
'데이터분석과 머신러닝' 카테고리의 글 목록 (4 Page)