선형회귀분석에서 **잔차(residual)**는 회귀분석의 핵심이에요.
아주 쉽게 말하면 예측이 얼마나 빗나갔는지를 나타내는 값이에요.

1. 잔차란?
회귀분석은
👉 “x로 y를 예측하는 직선”을 그리는 것
하지만 실제 값은 직선 위에 딱 맞게 놓이지 않죠.
잔차 = 실제값 − 예측값
예시
실제 시험점수: 90점
회귀식이 예측한 점수: 85점
잔차 = 90 − 85 = +5
→ 모델이 5점 덜 예측함
2. 왜 잔차가 중요해?
회귀분석이 제대로 작동하는지 확인하려면
잔차가 “이상한 패턴 없이 깨끗해야” 해요.
그래서 아래 3가지를 검사합니다.

① 잔차의 정규성 (Normality)
잔차가 종모양으로 퍼져 있어야 함
잔차들이
너무 한쪽으로 치우치지 않고
가운데(0)를 중심으로
종모양으로 퍼져 있으면 좋음
📌 이유
→ 그래야 t검정, F검정 같은 통계적 검정 결과를 믿을 수 있음
비유
시험 오차가
대부분 0 근처에 몰려 있고
큰 오차는 드물게 나오는 상태

② 잔차의 독립성 (Independence)
잔차끼리 서로 영향 주면 안 됨
앞의 잔차가 다음 잔차에 영향을 주면 안 돼요.
❌ 나쁜 예
오늘 오차가 크면 내일도 계속 크게 나오는 패턴
시간순 데이터에서 흔함
📌 이유
→ 잔차가 서로 연결돼 있으면
회귀식이 현실을 왜곡해서 설명함

③ 잔차의 등분산성 (Homoscedasticity)
잔차의 퍼짐이 일정해야 함
x가 작을 때나 클 때나
잔차의 크기가 비슷해야 해요.
❌ 나쁜 예
처음엔 오차가 작다가
뒤로 갈수록 오차가 점점 커짐 (깔때기 모양)
📌 이유
→ 오차가 커지는 구간에서 예측 신뢰도가 떨어짐
한 줄 요약
조건 - 의미 - 쉽게 말하면
정규성 - 잔차 분포가 종모양 - 오차가 자연스럽게 퍼짐
독립성 - 잔차끼리 독립 - 오차가 서로 영향 없음
등분산성 - 잔차 퍼짐이 일정 - 구간마다 예측 정확도 동일
진짜 핵심 한 문장
좋은 회귀모형 = 잔차가 랜덤하고, 규칙 없고, 고르게 퍼진 상태
'데이터 분석' 카테고리의 다른 글
| 비지도학습 모델 쉬운 설명(+ 군집분석, 연관성 분석, 인공신경망, 오토인코더) (2) | 2026.01.19 |
|---|---|
| 지도학습 회귀 모델 쉬운 설명 (+ 의사결정트리, 선형회귀분석, 다중회귀분석) (0) | 2026.01.19 |
| 지도학습 분류모델 이해하기 쉬운 설명(+ 의사결정트리, 랜덤포레스트, 인공신경망, 서포트벡터머신, 로지스틱 회귀분석) (0) | 2026.01.19 |
| 지도학습 분류모델 쉬운 설명(+ 의사결정트리, 랜덤포레스트, 인공신경망, 서포트벡터머신, 로지스틱 회귀분석) (0) | 2026.01.19 |
| 파이썬 데이터 분석에서 isnull()과 isna()의 차이? (0) | 2025.10.21 |