회귀 분석
기계 학습과 데이터 마이닝 |
---|
통계학에서 회귀 분석(回歸分析, 영어: regression analysis)은 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다.
회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링등의 통계적 예측에 이용될 수 있다. 그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다. 특히 통계 소프트웨어의 발달로 분석이 용이해져서 결과를 쉽게 얻을 수 있지만 분석 방법의 선택이 적절했는지 또한 정보 분석이 정확한지 판단하는 것은 연구자에 달려 있다.
전개
[편집]하나의 종속변수와 하나의 독립변수 사이의 관계를 분석할 경우를 단순회귀분석(영어: simple regression analysis), 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(영어: multiple regression analysis)이라고 한다.
회귀 모형 적합도
[편집]회귀모형의 적합도는 잔차 검정을 통해 확인한다. 잔차 검정은 정규성과 등분산성 가정을 만족하는지에 대한 검토 과정이다. 잔차의 정규성은 Shaprio-Wilk 검정 또는 Kolmogolov-Smirnov 검정을 통해서 실시하며, 회귀분석에서도 등분산성 방법으로는 Breusch-Pagan test, Goldfeld-Quandt test, Cook-Weisberg test 그리고 White test가 있다.
역사
[편집]회귀(영어: regress 리그레스[*])의 원래 의미는 옛날 상태로 돌아가는 것을 의미한다. 영국의 유전학자 프랜시스 골턴은 부모의 키와 아이들의 키 사이의 연관 관계를 연구하면서 부모와 자녀의 키사이에는 선형적인 관계가 있고 키가 커지거나 작아지는 것보다는 전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세웠으며 이를 분석하는 방법을 "회귀분석"이라고 하였다. 이러한 경험적 연구 이후, 칼 피어슨은 아버지와 아들의 키를 조사한 결과를 바탕으로 함수 관계를 도출하여 회귀분석 이론을 수학적으로 정립하였다.
회귀분석과 분산분석
[편집]어떤 변수가 다른 변수에 의하여 설명된다고 보고 그 함수 관계를 조사하는 통계적인 해석 기법인 회귀분석(regression analysis)은 실험 집단 간에 어떠한 차이가 존재하는지 밝히는 데 적용하는 검정 기법인 분산 분석(analysis of variance, ANOVA)과 함께 매우 실용적인 연구방법론의 주요한 도구이다.
같이 보기
[편집]참고 문헌
[편집]- William H. Kruskal and Judith M. Tanur, ed. (1978), "Linear Hypotheses," International Encyclopedia of Statistics. Free Press, v. 1,
- Evan J. Williams, "I. Regression," pp. 523–41.
- Julian C. Stanley, "II. Analysis of Variance," pp. 541–554.
- Lindley, D.V. (1987). "Regression and correlation analysis," New Palgrave: A Dictionary of Economics, v. 4, pp. 120–23.
- Birkes, David and Dodge, Y., Alternative Methods of Regression. ISBN 0-471-56881-3
- Chatfield, C. (1993) "Calculating Interval Forecasts," Journal of Business and Economic Statistics, 11. pp. 121–135.
- Draper, N.R.; Smith, H. (1998). 《Applied Regression Analysis》 3판. John Wiley. ISBN 0-471-17082-8.
- Fox, J. (1997). Applied Regression Analysis, Linear Models and Related Methods. Sage
- Hardle, W., Applied Nonparametric Regression (1990), ISBN 0-521-42950-1
- Meade, N. and T. Islam (1995) "Prediction Intervals for Growth Curve Forecasts" Journal of Forecasting, 14, pp. 413–430.
- A. Sen, M. Srivastava, Regression Analysis — Theory, Methods, and Applications, Springer-Verlag, Berlin, 2011 (4th printing).
- T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Vieweg+Teubner, ISBN 978-3-8348-1022-9.
- Malakooti, B. (2013). Operations and Production Systems with Multiple Objectives. John Wiley & Sons..
각주
[편집]외부 링크
[편집]- “Regression analysis”. 《Encyclopedia of Mathematics》 (영어). Springer-Verlag. 2001. ISBN 978-1-55608-010-4.
- “Regression”. 《Encyclopedia of Mathematics》 (영어). Springer-Verlag. 2001. ISBN 978-1-55608-010-4.
- Weisstein, Eric Wolfgang. “Regression”. 《Wolfram MathWorld》 (영어). Wolfram Research.