tak's data blog
classification(분류) 본문
이번 시간에는 분류에대해서 간단히 정리해보는 시간을 가지겠습니다.
분류의 종류로는 크게 두가지가 있습니다.
1. Binary classification(이진 분류)
두 가지 정답으로 이루어진 것들을 분류하는 것으로 0, 1과 같이 2진 법으로 분류 하는 방법입니다. 구분하고자 하는 결과 값이 2가지인 경우
ex) 어떤 사진이 개의 사진인지 / 고양이의 사진인지 구분하는 것
ex) 메일이 스팸메일인지 / 그냥 메일인지 구분하는 것
Binary classification에 사용되는 알고리즘이 logistic regressin이다.
2. Multi-label Classification (Multinomial Classification, soft max, 다중 분류)
이진 분류처럼 0과 1만이 아닌 x,y,z와 같이 세가지 이상의 정답으로 이루어진 것들을 분류하는 것.
ex) 손으로 쓴 숫자를 봤을 때, 0~9까지 어떤 숫자인지 맞추는 것 (MNIST 데이터)
ex) 이미지를 봤을 때, 사람의 이미지인지 / 동물의 이미지인지 / 식물인지 분류하는 것.
다양한 분류 모델
1) logistic regression
linear classifier이므로 선형성을 가지지 않는 데이터에 대해서는 부합하지 않을 수 있다. 너무 큰 차원의 데이터에는 잘 맞지 않을 수 있다.
label이 없는 모델에도 사용 가능, 변수들 간 상호 작용 확인 가능
2) knn
데이터가 입력 될 때, 기존의 데이터와 새 데이터를 비교해 새로운 데이터와 가장 인접한 데이터 k개를 선정한다. k값에 의해 결정된 분류를 입력된 데이터의 분류로 확정한다.
비슷한 속성(카테고리)을 가지는 데이터끼리 가까이에 위치
거리를 측정할 때 유클라디안 거리 계산법을 사용하여 거리를 측정
장점
1. 정확도가 비교적 높다.
2. 알고리즘이 간단하여 구현이 쉽다.
3. 수치 기반 데이터 분류 작업에서 성능이 좋다.
단점
1. 학습 데이터의 양이 많으면 분류 속도가 느려진다.
2. 차원(벡터)의 크기가 크면 계산량이 많아진다.
'머신러닝' 카테고리의 다른 글
추천시스템(Recommendation system) 유사도(similarity) (0) | 2021.03.26 |
---|---|
추천시스템(Recommendation system) (1) | 2021.03.26 |
Decision Tree(의사결정나무) (0) | 2021.03.02 |
Model training(모델 훈련) (0) | 2021.02.10 |
머신러닝이란? (0) | 2021.01.26 |