자꾸 생각나는 체리쥬빌레

드디어 교육관련측도와 정보격차측도의 상관관계를 하나 찾았다. 거의 맨땅에 헤딩하려니까 힘들다.. 앞으로 언제 어떻게 의미있는 분석결과를 보게될지 막막하기도 하다. 발표까지 8일 남았다. 일단 모든 지역에 대한 산점도는 아래와 같다. 일단 이 상관분석 결과는 의미가 없었다. 하지만 나는 의미있는 결과를 봐야 했다. 세종, 부산과 같은 결과를 제외하면 어느 정도 양의 상관관계처럼 보이는데, 실제로 제외하면 어떨지 궁금했다. 일단 지난 시간에 나는 사교육비 지출이 많은 상위지역과 하위지역을 선정한 바 있다. 사교육비상위지역: 서울, 경기 | 세종, 인천, 대전, 대구 사교육비하위지역: 경북 | 강원, 경남, 충북 그렇다면 이 상위지역과 하위지역에 포함시키지 않은 나머지는 일단 위 산점도 결과에서 제외시키고 보..

사교육비평균통계량과 학원수비율의상관관계를 분석해보았는데요. 상관관계가 없습니다. 이상치 집단을 제거하나 안하나 상관관계는 없습니다. 사교육비평균이랑 학생인구수대비학원수비율 둘 다 교육에 대한 관심도를 보이는 측도로 사용될 줄 알았는데, 둘이 크게 상관관계는 없나보네요. 이상치제거전: 이상치제거후: 그럼 이런거 해볼까요? 사교육참여여부율~학원수비율 상관관계, 유료인강지불여부율~학원수비율 상관관계 분석이요. 먼저 사교육참여여부율은 2019~2020 사교육비 데이터를 종합합 결과로 분석해봅시다. - 시도별 사교육참여여부율과 학원수비율 : 결론적으로 상관관계는 없다고 봅니다. - 시도별 유료인강지불여부율과 학원수비율 : 결론적으로 상관관계는 없다고 봅니다. 아... 도대체 어떤 사교육 측도 두개를 같이 봐야 사..

각 지역별 학생수대비 학원수 비율입니다. 이런 박스플롯이 나왔네요. 이상치들이 눈에 띕니다. 특히 서울에 이상치들이 많이 튀어나와있네요. 경북 인천 전남은 비율이 아래로 쭉 내려간 세부행정구역들이 있는지 제1분위수가 비교적 아래로 분포하고요. 각 이상치들이 어느 행정구역인지 궁금합니다. 아래와 같은 코드를 통해 파악해볼까요? 먼저 서울의 이상치 확인입니다. 아래 두개 이상치는 '중구'와 '종로구'였습니다. 위 3개 이상치는 '마포구', '서초구', '강남구'네요. 이어서 울산의 저 동떨어진 하나의 이상치 집단(행정구역)은 어디일까요? 울산의 '남구'라고 합니다. 따로 조사해보아야겠어요 이상치는 아니지만 울산의 낮은 학원수 비율을 보이는 지역은, 북구, 동구 ... 입니다. 저기 강원의 동떨어진 이상치 한..

아래 자료들은 https://splendidlolli.tistory.com/368 R데이터분석 | 일원배치 분산분석 - 그리고 사후분석 제가 사용한 데이터는 '지역별 초중고 사교육비'입니다. 일단 박스플롯을 그려서 이상치를 확인하고 제거했습니다. 이상치는 지역별 상위5% 제거했습니다. 그리고 다시 박스플롯을 그려서 훨씬 splendidlolli.tistory.com 이와 같은 방법으로 진행했습니다. 단지 연도만 2020으로 바꿔본 결과입니다. 2019와 2020에서 선정된 상위/하위 대상이 크게 다른지 보기 위해 같은 방식으로 진행했습니다. 위 포스팅에 과정을 상세히 써놓았으니 여기에는 사진만 투척하겠습니다. 상위: 서울 경기 대전 하위: 경북 충남 충북 이제 사후분석결과 고려합시다. 사교육비평균 상위 ..

집에서 강의듣다가 점심때를 놓쳐서 매우 배고픈 상태로 부엌에 나왔다 그치만 집에 먹고싶은 건 하나도 없고 ㅜ.ㅜ 아침도 허술하게 먹은 터라 단백질좀 챙겨야 할 것 같아서 계란요리를 찾아봤다. 그러다 알게된 이 레시피!! > 팬에 버터 > 소금과 설탕1/3스푼 + 계란3개에 우유 반컵 잘 풀어 섞기 > 팬에 붓고 넓은 도구로 스윽 스윽 > 덜익은듯한 느낌인 채로 접시에 붓기 + 후추 그런데 3개는 혼자먹기에 좀 물리네.. 앞으로 1개~2개 해야겠다 https://youtu.be/jZR4H_Cl7L0 ㄴ 이겁니다 백선생늼.. 항상 감사합니다..

제가 사용한 데이터는 '지역별 초중고 사교육비'입니다. 일단 박스플롯을 그려서 이상치를 확인하고 제거했습니다. 이상치는 지역별 상위5% 제거했습니다. 그리고 다시 박스플롯을 그려서 훨씬 안정된 분포를 확인했고요! boxplot 결과입니다 - 기본적으로 내장된 R boxplot을 통해 그렸고요, 디자인은 딱히 하진 않았습니다. 일단은 대충 해봅니다. - 참고로 사교육비는 조사대상기간동안 지불한 사교육비입니다. - 그리고 초기데이터에서만 지역별 상위값 5%를 제외했습니다. 아래 박스플롯을 확인해보세요~! 대충 보니 분포차이도 있고 평균차이도 있는 것 같네요. 일단 설명변수(독립변수)는 범주형인 지역(시도)이고, 반응변수(종속변수)는 연속형인 금액입니다. 지역에 따라서 금액평균차이가 있는지 분산분석을 실시하려..

상위 5%의 값을 제외하는 함수를 작성해봅시다. 참고로 제가 가지고 있는 데이터프레임은 '지역별 사교육비금액 데이터'입니다. 설문조사 대상이 지불하는 일주일 일반교과 사교육비 액수 데이터가 담겨있습니다. 지금부터 저는 지역별로 지불 상위 5%인 사람들을 NA처리하려 합니다. 다음은 금액값의 상위 5%를 제외해주는 함수입니다. 일단 함수의 인자 a로는 어느 지역의 상위%를 다룰지 설정해주기 위해 '지역명'을 넣겠습니다. 참고로 초등학생 사교육비금액이 담긴 제 데이터프레임 이름은 초등박스플롯입니다. (오로지 박스플롯을 그리기 위한 데이터프레임이었기 때문에 그냥 그렇게 정했습니다.) 상위5 % filter(시도==a & is.na(금액)) %>% dplyr::summarise(건수=n())) # 시도명이 a인..

합병정렬의 시간복잡도는 O(NlogN)(또는 세타(NlogN)) 이 사실은 다들 알고 있을 겁니다.그리고 이 O(NlogN)이라는 복잡도를 어떻게 따지느냐? 다들 한번쯤 해봤을 것입니다.혹시 깔끔한 이해 없이 지나갔다면 다시 한번 천천히 해봅시다그 전에! 분할정렬 자체에 대한 개념이 모호하신 분은 이 포스팅을 읽고 다시 돌아오는 것을 추천합니다.시작!! 아래 그림 많이 보셨을 겁니다. 합병정렬!!이 합병정렬의 복잡도가 왜 NlogN인지 차근차근 설명할텐데요,순서대로 사고하면서 천천히 해봅시다먼저, 절반으로 분할해가는 과정을 봅시다.- 초기 배열의 요소수는 N개입니다.- 분할정렬 함수의 인자로는 "배열", "p", "r"이 들어옵니다. p는 분할대상인 요소가 시작하는 인덱스였죠. 초기 함수의 인자로 0이 ..

합병 정렬 (Merge sort)이란? 분할정복알고리즘 중 하나입니다. 일단 분할정복법이 뭔지 먼저 설명하는 게 좋을 듯합니다. 분할정복 (Divide and Conquer) 분할정복은 다음의 3단계로 이루어집니다. 1. Divide --- 문제를 subproblem으로 나눕니다. 2. Conquer --- 그 subproblem을 재귀적으로 주루룩 정복합니다. 이때 Base case까지 다다르게 됩니다. Base case란, subproblem이 충분히 작으면 그냥 아주 쉽게, 거의 그 자체 풀리는 수준의 케이스입니다. 3. Combine --- 2단계에서 subproblem들을 정복해 해답을 얻었습니다. 이 답들을 Combine해서 맨 처음의 original problem의 해답으로 얻어냅니다. 이것..

티스토리툴바