데이터 분석

선형회귀분석에서 잔차 쉬운 설명(+ 잔차 정규성, 독립성, 등분산성)

The Ohgorithm 2026. 1. 19. 15:06

선형회귀분석에서 **잔차(residual)**는 회귀분석의 핵심이에요.
아주 쉽게 말하면 예측이 얼마나 빗나갔는지를 나타내는 값이에요.



1. 잔차란?
회귀분석은
👉 “x로 y를 예측하는 직선”을 그리는 것
하지만 실제 값은 직선 위에 딱 맞게 놓이지 않죠.
잔차 = 실제값 − 예측값
예시
실제 시험점수: 90점
회귀식이 예측한 점수: 85점
잔차 = 90 − 85 = +5
→ 모델이 5점 덜 예측함


2. 왜 잔차가 중요해?
회귀분석이 제대로 작동하는지 확인하려면
잔차가 “이상한 패턴 없이 깨끗해야” 해요.
그래서 아래 3가지를 검사합니다.




① 잔차의 정규성 (Normality)
잔차가 종모양으로 퍼져 있어야 함
잔차들이
너무 한쪽으로 치우치지 않고
가운데(0)를 중심으로
종모양으로 퍼져 있으면 좋음
📌 이유
→ 그래야 t검정, F검정 같은 통계적 검정 결과를 믿을 수 있음
비유
시험 오차가
대부분 0 근처에 몰려 있고
큰 오차는 드물게 나오는 상태




② 잔차의 독립성 (Independence)
잔차끼리 서로 영향 주면 안 됨
앞의 잔차가 다음 잔차에 영향을 주면 안 돼요.
❌ 나쁜 예
오늘 오차가 크면 내일도 계속 크게 나오는 패턴
시간순 데이터에서 흔함
📌 이유
→ 잔차가 서로 연결돼 있으면
회귀식이 현실을 왜곡해서 설명함




③ 잔차의 등분산성 (Homoscedasticity)
잔차의 퍼짐이 일정해야 함
x가 작을 때나 클 때나
잔차의 크기가 비슷해야 해요.
❌ 나쁜 예
처음엔 오차가 작다가
뒤로 갈수록 오차가 점점 커짐 (깔때기 모양)
📌 이유
→ 오차가 커지는 구간에서 예측 신뢰도가 떨어짐


한 줄 요약
조건 - 의미 - 쉽게 말하면
정규성 - 잔차 분포가 종모양 - 오차가 자연스럽게 퍼짐
독립성 - 잔차끼리 독립 - 오차가 서로 영향 없음
등분산성 - 잔차 퍼짐이 일정 - 구간마다 예측 정확도 동일


진짜 핵심 한 문장
좋은 회귀모형 = 잔차가 랜덤하고, 규칙 없고, 고르게 퍼진 상태