통계학을 살짝 공부할 일이 생겼다.
엄밀하게 공부하지는 않고 데이터분석을 목적으로 필요한 내용을 공부해야 한다. 한달 안에 어떤 유의미한 데이터 분석을 해내야 한다. 그래서 그때까지 배우는 데이터분석을 위한 통계학 지식들을 정리하고자 한다. 수치적 계산은 R프로그램이 다 해주므로, 간단한 개념, 그리고 어떤 사례에 어떤 분석이 적합한지 이해하고 넘어가는 것이 학습의 목적이다.
회귀분석(regression)이란?
한 변수를 이용해 다른 변수를 예측, 설명하기에 용이한 분석방법이다. 다시 말해 두 변수 사이의 관계를 모형화하는 것이다. 어떤 현상이 다른 현상에 미치는 영향을 알고 싶을 경우 회귀분석을 실시한다.
이때 회귀직선식이라는 개념을 알아야 한다. 어렵게 생각하지 말자. 두 변수의 관계를 나타내주는 직선이다. 다음의 그래프에서 보이는 직선이 회귀직선이다.
중요한 것은 두 변수 사이에 직선관계가 있기에 회귀직선식을 그어 볼 수 있는 것이다. 회귀분석을 실시할 데이터들은 4가지 가정을 만족해야만 하는데, 변수 사이에 직선관계(선형관계)가 있어야 한다는 것이 중요한 가정 중 하나이다.
참고: 회귀분석의 4가지 가정
1. 반응변수와 설명변수간의 선형관계
2. 반응변수의 등분산성
3. 반응변수의 정규분포
4. 반응변수값의 독립
변수들간에 직선관계가 있다고 판단되는 표본 데이터에 회귀분석을 실행하면 회귀직선을 그어볼 수 있는 것이다.
통계적 추정이라는 것이 표본을 통해 모집단의 특성을 추정하는 것이다. 그래서 회귀분석이란, 우리가 가지고 있는 표본을 분석해서 실제 해당 변수들간의 직선관계를 추정하는 방법이다.
즉, 원래 두 변수가
라는 직선관계를 가지고 있다고 하자.
하지만 사실 우리가 가지고 있는 표본을 통해서 이 값들을 정확히 알아낼 수는 없다. 베타1, 베타0, y값을 알 길이 없다는 것이다. 가지고 있는 데이터를 통해 실제 직선관계가 어떤지 추정해보는 것이 회귀분석이다.
자 그러면 회귀분석의 결과,
라는 직선관계식을 얻는데, 여기서 b1, b0, y햇은 실제의 변수들간의 관계인 베타1, 베타0, y를 잘 추정한 값이다. y햇은 y의 추정치임을 확실히 알고 가자. 여기서 아까 식과는 다르게 오차항 입실론이 사라졌는데, 이것은 잔차 개념과 연관이 있다. 여기서 설명을 자세히 하지는 않겠다.
중요한 참고:
회귀직선을 그을 때는 잔차가 최소이도록 긋는다.
이를 위해 "최소제곱법"을 사용해 회귀직선을 추정한다.
단순회귀분석과 다중회귀분석
단순회귀분석의 모형에서는 변수(설명변수)가 하나이고, 다중회귀분석의 모형에서는 변수(설명변수)가 둘 이상이다.
ㅡ 단순회귀분석
"유아의 키와 팔목두께의 상관관계" 그리고 "몸무게와 팔목두께의 상관관계"를 각각 알아본다고 하자.
먼저, "팔목두께~유아의 키"의 회귀직선식 예시를 보자.
y가 팔목두께, x1이 유아의 키를 나타내는 변수라고 하자. 그리고 실제 데이터를 활용해 분석해보면 다음과 같은 회귀모형이 나온다. (지금 수치는 신경쓰지 않아도 된다. 식의 구조만 보자.)
y햇=2.7+1.6*x1
그리고, "팔목두께~몸무게"의 회귀직선식 예시를 보자.
y가 팔목두께, x2가 몸무게를 나타내는 변수라고 하자.
y햇=7.8+0.8*x2
이렇게 변수간 상관관계를 직선식에서 볼 수 있다.
ㅡ 다중회귀분석
이번에는 "팔목두께"에 "유아의 키와 몸무게"가 미치는 영향을 알아보고자 한다. 변수(설명변수)가 키, 몸무게로 2가지인 경우이므로 다중회귀분석을 실시한다.
"팔목두께~키, 몸무게" 회귀직선식의 예시를 보자.
y햇=14.1-0.16height+1.40weight
단순회귀분석의 회귀직선식과 비교했을 때 더욱 많은 요인들이 들어가 있는 것을 알 수 있다.
사실 다중회귀분석은 중첩요인을 통제하는 방법으로 볼 수 있다. 맨 처음에 팔목두께와 유아의 키의 상관관계를 따져보자고 했을 때 어떠한 결과를 이끌어냈을 것이다. 하지만 여기에 몸무게라는 속성을 기준으로 또 나누어본다면, 몸무게 또한 팔목두께에 영향을 미침을 분석해낼 수도 있다. 위의 단순회귀분석에서 팔목두께와 몸무게의 상관관계(회귀직선식)을 보았듯이, 직선관계가 존재한다. 그러나 몸무게라는 속성은 키와 팔목두께의 상관관계만을 분석하고자 했을 때 중요한 요인으로 겉으로 드러나있지는 않지만 분명히 팔목두께에 상관이 있는 속성이다. 우리는 이러한 중첩요인을 파악할 줄 알아야 한다. 그래서 몸무게라는 속성도 따로 분리해내에 회귀분석의 설명변수로 추가해 따져보면, y햇=14.1-0.16height+1.40weight라는 관계성을 찾아낼 수 있다.
참고: 중첩요인을 통제하는 방법은 층화, 가중평균, 다중회귀분석이 있다. 다중회귀분석이 일반적이다.
회귀모형에서 유의할 점
마지막으로 간단히 언급하고 넘어갈 것은, 회귀모형에서 유의해야할 점(함정에 빠질 수 있는 것들)이다.
키워드를 적어둘 테니 필요하다면 알아서 검색해서 지식을 얻자.
- 외삽법 : 주어진 자료의 범위 밖에서 모형을 이용해 예측하는 것이다. 즉, 10년동안 집값이 계속 증가한다고 해서 100년 뒤에도 집값이 비슷하게 상승할 것이라는 예측을 하는 것이다. 굉장히 위험한 사고방식이다.
- 이상점 : 대부분의 데이터 분포의 맥락과 벗어나있는 점을 이상점(이상치)라고 한다. 이런 이상점들을 제외하고 회귀분석을 해야할 것인가, 포함하고 회귀분석을 해야 할 것인가는 주어진 문제에 따라 다르다. 이상점은 크게 2종류가 있는데, 하나는 high leverage point고, 다른 하나는 influential point다. 하나의 이상치에는 이러한 두 종류가 모두 해당될 수도 있다.
조언해주시고픈 내용은 언제든 댓글 부탁드립니다 (- -) (_ _) 꾸벅.. 감사합니다
'데이터분석과 머신러닝' 카테고리의 다른 글
R데이터분석 | 분산분석, 사후분석으로 지역별통계량 분석 (0) | 2021.09.15 |
---|---|
R데이터분석 | 일원배치 분산분석 - 그리고 사후분석 (0) | 2021.09.14 |
R데이터분석 | 상위n% 제외하기 (0) | 2021.09.13 |
R데이터분석 - 데이터 불러오기 오류 해결 | read.csv | invalid multibyte string (10) | 2021.08.23 |
[데이터분석] 공공데이터 사이트 정리 | 국내 무료데이터 총집합 (0) | 2021.08.20 |