데이터 분석

지도학습 분류모델 이해하기 쉬운 설명(+ 의사결정트리, 랜덤포레스트, 인공신경망, 서포트벡터머신, 로지스틱 회귀분석)

The Ohgorithm 2026. 1. 19. 14:05

🤖 지도학습 분류모델이란?
👉 정답이 있는 데이터로 컴퓨터를 훈련시키는 방법이야.
예를 들어,
“이 메일은 스팸이다 / 아니다”처럼
정답이 있는 예시를 많이 보여주면
컴퓨터가 규칙을 스스로 찾는 것이야.


1️⃣ 의사결정트리 (Decision Tree)
🌳 조건을 따라 내려가는 나무 구조
키가 160cm 이상인가?
시험 점수가 80점 이상인가?
숙제를 했는가?
이런 질문을 순서대로 따라가면서
마지막에 결과를 정해.
📌 장점: 이해하기 쉽다
📌 단점: 너무 단순하면 실수하기 쉽다


2️⃣ 랜덤 포레스트 (Random Forest)
🌲🌲🌲 여러 개의 결정트리가 모여서 판단
결정트리 하나는 틀릴 수 있어서
여러 개의 트리를 만들고 다수결로 결정해.
📌 장점: 정확도가 높다
📌 단점: 왜 그런 결과가 나왔는지 설명하기 어렵다


3️⃣ 인공신경망 (Neural Network)
🧠 사람의 뇌를 흉내 낸 모델
신경세포처럼 생긴 노드들이 연결되어 있고
틀릴 때마다 연결 강도를 조금씩 바꾸면서 배워.
👉 데이터가 많을수록 점점 똑똑해짐
📌 사진 인식, 음성 인식에 많이 사용됨




4️⃣ 서포트 벡터 머신 (SVM)
📏 데이터를 가장 잘 나누는 선(경계)을 찾는 모델
고양이와 강아지를 나눌 때
서로 가장 멀리 떨어지게 선을 그림
이 선을 결정 경계라고 불러
📌 데이터가 적어도 성능이 좋음
📌 계산이 조금 어려움


5️⃣ 로지스틱 회귀 (Logistic Regression)
📊 확률로 분류하는 모델
결과를 0~1 사이 확률로 계산해서
0.5 이상이면 1
아니면 0
👉 “스팸일 확률이 90%”처럼 말할 수 있어
📌 빠르고 해석하기 쉬움
📌 복잡한 문제엔 약함
✨ 한눈에 정리


모델 - 핵심 개념
의사결정트리 - 조건 따라 분류
랜덤포레스트 - 여러 트리 투표
신경망 - 반복 학습
SVM - 최적의 경계선
로지스틱 회귀 - 확률 기반 분류