
다음 중 옳은 것을 고르시오.
1. registered 사용자가 guest보다 평균과 중앙값 모두 높고 이상치도 많다.
2. guest 사용자는 registered 보다 체류 시간이 약간 더 길며, 평균과 중앙값 모두 더 높다.
3. 두 그룹의 중앙값은 같지만, guest는 이상치가 많아 평균만 더 높다.
4. guest는 이상치가 없고 registered는 이상치로 인해 중앙값이 낮아졌다.
________________________________________________________________________________________________
✅ 2번이 옳습니다.
2. guest 사용자는 registered 보다 체류 시간이 약간 더 길며, 평균과 중앙값 모두 더 높다.
- 그래프에서 **guest의 중앙값(가운데 선)**이 registered보다 약간 위쪽에 있습니다.
→ 중앙값이 더 높음. - 상자의 위치(분포 중심)도 guest가 살짝 위에 있어, 평균값도 더 높을 가능성이 큼.
- 즉, guest가 전반적으로 사이트에 조금 더 오래 머무는 경향이 있습니다.
❌ 1번 (틀린 이유)
registered 사용자가 guest보다 평균과 중앙값 모두 높고 이상치도 많다.
- 실제로는 guest의 중앙값이 더 높음.
- 이상치 개수는 두 그룹 모두 비슷하거나 오히려 guest 쪽이 약간 많습니다.
→ “registered가 이상치도 많다”는 부분이 잘못됨.
❌ 3번 (틀린 이유)
두 그룹의 중앙값은 같지만, guest는 이상치가 많아 평균만 더 높다.
- 중앙값이 같지 않습니다.
→ guest 중앙값이 더 높음. - 평균이 더 높은 이유를 ‘이상치 때문’이라고 한 것도 틀림.
실제로 guest의 체류 시간이 전반적으로 높기 때문이지, 이상치 영향 때문만은 아닙니다.
❌ 4번 (틀린 이유)
guest는 이상치가 없고 registered는 이상치로 인해 중앙값이 낮아졌다.
- guest도 아래쪽과 위쪽에 **이상치(동그라미)**가 있습니다.
- 중앙값은 이상치의 영향을 거의 받지 않습니다(중앙값은 극단값에 민감하지 않음).
→ “이상치로 인해 중앙값이 낮아졌다”는 설명이 틀림.
✅ 정답 요약: 2번
guest 사용자가 registered 사용자보다 체류 시간이 약간 더 길며,
평균과 중앙값 모두 조금 더 높다.
'데이터 분석' 카테고리의 다른 글
| Keras Sequential 모델에서 input_shape를 써야 하는 이유 — 한눈에 보는 차이와 구조 비교 (0) | 2025.10.16 |
|---|---|
| UserWarning: X has feature names 경고 해결법 — StandardScaler 사용 시 꼭 알아야 할 포인트 (0) | 2025.10.16 |
| 데이터프레임과 시리즈 차이(+ 파이썬, 데이터 분석) (0) | 2025.10.12 |
| 데이터프레임 괄호 2개와 괄호 1개 차이(+ 데이터프레임과 시리즈 차이) (0) | 2025.10.11 |
| 스케일링 변환(+ 파이썬, 정규화 Normalization, 표준화 Standardization, scikit-learn 홈페이지 참조) (0) | 2025.10.10 |