데이터 분석

Boxplot 예시를 통해 설명(+ 장바구니 이탈 여부 예측 문제)

The Ohgorithm 2025. 10. 15. 22:15

다음 중 옳은 것을 고르시오.

1. registered 사용자가 guest보다 평균과 중앙값 모두 높고 이상치도 많다.

2. guest 사용자는 registered 보다 체류 시간이 약간 더 길며, 평균과 중앙값 모두 더 높다.

3. 두 그룹의 중앙값은 같지만, guest는 이상치가 많아 평균만 더 높다.

4. guest는 이상치가 없고 registered는 이상치로 인해 중앙값이 낮아졌다.

 

 

________________________________________________________________________________________________

✅ 2번이 옳습니다.

2. guest 사용자는 registered 보다 체류 시간이 약간 더 길며, 평균과 중앙값 모두 더 높다.

  • 그래프에서 **guest의 중앙값(가운데 선)**이 registered보다 약간 위쪽에 있습니다.
    → 중앙값이 더 높음.
  • 상자의 위치(분포 중심)도 guest가 살짝 위에 있어, 평균값도 더 높을 가능성이 큼.
  • 즉, guest가 전반적으로 사이트에 조금 더 오래 머무는 경향이 있습니다.

❌ 1번 (틀린 이유)

registered 사용자가 guest보다 평균과 중앙값 모두 높고 이상치도 많다.

  • 실제로는 guest의 중앙값이 더 높음.
  • 이상치 개수는 두 그룹 모두 비슷하거나 오히려 guest 쪽이 약간 많습니다.
    → “registered가 이상치도 많다”는 부분이 잘못됨.

❌ 3번 (틀린 이유)

두 그룹의 중앙값은 같지만, guest는 이상치가 많아 평균만 더 높다.

  • 중앙값이 같지 않습니다.
    → guest 중앙값이 더 높음.
  • 평균이 더 높은 이유를 ‘이상치 때문’이라고 한 것도 틀림.
    실제로 guest의 체류 시간이 전반적으로 높기 때문이지, 이상치 영향 때문만은 아닙니다.

❌ 4번 (틀린 이유)

guest는 이상치가 없고 registered는 이상치로 인해 중앙값이 낮아졌다.

  • guest도 아래쪽과 위쪽에 **이상치(동그라미)**가 있습니다.
  • 중앙값은 이상치의 영향을 거의 받지 않습니다(중앙값은 극단값에 민감하지 않음).
    → “이상치로 인해 중앙값이 낮아졌다”는 설명이 틀림.

정답 요약: 2번

guest 사용자가 registered 사용자보다 체류 시간이 약간 더 길며,
평균과 중앙값 모두 조금 더 높다.