목록머신러닝 (7)
tak's data blog
GMM 개념GMM은 데이터 포인트가 평균과 분산이 다른 여러 가우시안 분포의 혼합에서 생성된다고 가정합니다. 가우시안 분포를 사용하여 클러스터링 함으로써 Kmeans 모델을 확장시키고, 군집의 평균뿐만 아니라 공분산도 고려하며 타원체 모양을 모델링할 수 있습니다. 특히 이러한 특징으로 이상탐지 분야에서 많이 활용되고 있습니다. *학습내용에 대한 출처: https://www.youtube.com/watch?v=NNwkDi-2xVQ 위와 같은 방식은 GMM에서 모수 추정이라고 하는데, 모수 추정은 대표적으로 2가지를 추정합니다.개별 정규분포의 평균과 분산각 데이터가 어떤 정규분포에 해당되는지의 확률이러한 모수 추정을 위해 GMM은 EM알고리즘 방법을 사용합니다. 이러한 과정을 진행하기 전에 우리는 다음과..
지난 추천시스템 설명에 이어서 user collaborative filtering의 유사도에 대해서 살펴보겠습니다. collaborative filtering이란 사용자를 고려하는 방식으로, 취향이 비슷한 집단에서 누군가 선호한 아이템을 아직 접하지 않았다면 그 아이템을 추천하는 방식입니다. 사용자 기반 사용자 기반의 협업 필터링에서의 유사도는 두 사용자가 얼마나 유사한 항목(아이템)을 선호했는지를 기준으로 합니다. 사용자 기반에서는 한 사용자가 평가한 영화들의 점수들을 벡터로 나타낼 수 있다. 두 사용자 간의 유사도는 두 벡터 간의 유사도로 정의할 수 있는데, 이 유사도를 구하기 위해서 다양한 방법이 사용될 수 있습니다. 1) 코사인 유사도(cosine similarity) 평점들을 '벡터'로 생각하고..
BOAZ에서 adv프로젝트로 추천시스템을 구현하는 과정을 가지고 있습니다. coursera 추천시스템 강의를 공부하면서 까먹지 않기 위해 블로그에 기록하도록 하겠습니다! 2월부터 3월까지 총 5주차의 강의를 청강하면서 영어로만 되어있어 이해하는 과정에서 시간이 더 걸려서 완벽히 이해하진 못했지만, 강의와 구글링을 통해서 얻은 핵심내용만 정리하겠습니다! 주요 참고 블로그 : lsjsj92.tistory.com/563 추천 시스템(Recommendation system)이란? - content based filtering, collaborative filtering 포스팅 개요 이번 포스팅은 추천 시스템(recommedation system)에 대해서 알아봅니다. 또한, 추천 시스템에는 컨텐츠 기반 필터링(..
벌써 5주차인데요 이번엔 Decision Tree(의사결정나무)에 대해서 다뤄보도록 하겠습니다! 기본 개념 및 구조 - Decision Tree(의사결정나무)는 데이터의 feature에서 패턴을 찾는 머신러닝 모델 - supervised learning model (지도학습 모델 중 하나) - 분류, 회귀, 다중출력 작업이 가능하다. - 매우 복잡한 데이터 셋도 학습 가능 - randomforest의 기본 구성 요소 (특정 feature를 바탕으로 작은 그룹들로 나누는 과정을 반복하여 더 이상 나눌 수 없는 지점(리프 노드)에 도달 시킨다.) 예측 단계에서 unlabeled 데이터를 의사결정나무에 통과시켜 리프노드에 도달하면, 해당 노드에서 제일 많이 포함된 label이 unlabeled 데이터의 lab..
머신러닝 리뷰의 모든 내용은 핸즈온 머신러닝을 기반으로합니다!! 지난 시간 분류(classification)에 이어서 오늘은 model training에 대해서 살펴보도록 하겠습니다. 가장 간단한 모델 중 하나인 linear regression부터 시작하겠습니다. 이 모델을 훈련시키는데는 두가지 방법이 있습니다. 1. 직접 계산가능한 공식을 사용하여 훈련 세트에 가장 잘 맞는 모델 파라미터를 구한다. 2. 경사 하강법(GD)라 불리는 반복적인 최적화 방식을 사용하여 파라미터를 조금씩 바꾸면서 비용함수를 최소화시킨다. 기본 개념 -> 가중치의 합과 bias로 이루어진 선형 모델(최적의 파라미터를 찾아 모델에 적합시켜 예측값을 구하자) 정규 방정식 - training set에 가장 잘맞는(비용함수를 최소화)..
이번 시간에는 분류에대해서 간단히 정리해보는 시간을 가지겠습니다. 분류의 종류로는 크게 두가지가 있습니다. 1. Binary classification(이진 분류) 두 가지 정답으로 이루어진 것들을 분류하는 것으로 0, 1과 같이 2진 법으로 분류 하는 방법입니다. 구분하고자 하는 결과 값이 2가지인 경우 ex) 어떤 사진이 개의 사진인지 / 고양이의 사진인지 구분하는 것 ex) 메일이 스팸메일인지 / 그냥 메일인지 구분하는 것 Binary classification에 사용되는 알고리즘이 logistic regressin이다. 2. Multi-label Classification (Multinomial Classification, soft max, 다중 분류) 이진 분류처럼 0과 1만이 아닌 x,y,z와..
스스로도 머신러닝에대해 공부하면서 자주 까먹고 헷갈리는 부분이 많아 BOAZ에서 머신러닝 스터디를 계기로 복습할겸 내용을 정리해보도록 하겠습니다. 1. 머신러닝의 기본 개념 - 데이터에서부터 학습할 수 있는 시스템을 만드는 것! - 자동화 - 사용 분야 : 복잡한 문제와 대량의 데이터에서 인사이트 도출, 많은 수동 조정과 규칙이 필요한 경우 (모델링을 통한 과정 간소화) - 데이터 마이닝 : 겉으로 보이지 않는 패턴을 발견하는 것 머신러닝의 종류 1) 학습하는 동안의 감독 형태나 정보량에 따른 분류 1. 지도 학습 : 정답을 알려주며 학습을 시키는 방법. 예를 들어 자동차 사진을 주고(input data) 이 사진을 자동차(label data)라고 지칭하는 학습법이다. 크게 회귀(regression)와 ..