안녕하세요. 이번 포스트에선 Support Vector Machine에 대해 다뤄보고자 합니다. 개인적으론 머신 러닝 파트에서 가장 중요하다 생각되어, 조금 더 열심히 정리해 보았습니다.잘못된 부분 등이 있다면 언제든 피드백 부탁드립니다.Support Vector Machine ?Support Vector Machine, 줄여서 SVM은 분류, 회귀 및 이상 탐지 과제 모두 수행 가능한 ML 모델입니다.전통적인 ML 모델들 사이에서 성능이 매우 뛰어난 편에 속하며, 강건한 성능의 모델을 만들기에 적합합니다. 이러한 강건한 성능은 SVM 모델의 학습 방식에서 나타나는 특징이라고 할 수 있습니다.지금까지 SVM에 대한 내용을 다룰 때, 위 이미지와 같은 형태로 설명하는 자료들을 자주 볼 수 있었습니다.다음 ..
Machine Learning
안녕하세요. 이번 포스트에선 데이터의 시각화 등을 위해 사용되는 대표적인 차원 축소 방법인 PCA에 대해 다뤄보겠습니다. 뜬금 없이 PCA에 대한 내용이 나와서, 약간 서순이 안맞는다 느낄 수 있지만 .. 모두 다 리뷰할 예정입니다 .. 거두절미하고 어려운 내용은 최대한 제외한 시각적인 자료로 설명할 예정이니 찬찬히 읽어보는 것을 추천드립니다!분산이란?PCA를 다루기 이전에, 가장 먼저 다뤄볼 개념은 데이터의 퍼진 정도를 의미하는 분산입니다. X축을 기준으로 쭉 펴진 1차원 데이터를 분석할 때, 가장 먼저 눈에 들어오는건 데이터가 퍼진 정도일겁니다. 기초적인 통계 정보지만 PCA에선, 이렇게 데이터가 퍼진 정도를 가장 기본으로 합니다. 이처럼 분산이라는 것은 데이터가 퍼진 정도를 나타내고, 위의 이미지..
이번 포스트에선 선형 회귀와 함께 근본으로 다루어지는 로지스틱 회귀에 대해 다뤄보고자 합니다. 선형 회귀가 값의 예측, 즉 회귀에 대한 모델이었다면 로지스틱 회귀는 분류에 대한 문제를 해결합니다.로지스틱 회귀라는 이름이지만, 분류에 사용되는 모델인 것을 명심해주시길 바랍니다. 글을 읽어주시며, 이해가 잘 안되시거나 잘못된 설명이 존재하는 경우 언제든 피드백 부탁드립니다.로지스틱 회귀(Logistic Regression)란?선형 회귀와 거의 유사하게 동작하지만, 임의의 입력 데이터의 범주를 구분하기 위해 사용됩니다.그렇기에 어떤 값이 아닌, 입력 데이터를 기반으로 데이터를 이진 분류를 목적으로 합니다.왼쪽 이미지와 같이 잘 분리되어있는 2개의 데이터 군집이 있을 때, 이를 Class라고 합니다.Class ..
이번 포스트에선 머신 러닝의 가장 기본인 선형 회귀에 대해 다뤄보고자 합니다. 로지스틱 회귀와 함께 가장 중요한 개념이라 생각하며, 반드시 이해하고 넘어가야 한다고 생각합니다. 설명이 잘못되었거나, 이해가 어려운 경우 언제든 피드백 부탁드립니다.선형 회귀란?어떠한 데이터가 있을 때, 이 데이터를 가장 잘 설명하는 하나의 직선을 찾는 과정을 의미합니다. 이러한 직선을 통해 우리는 새로운 데이터가 입력되었을 때, 값을 대략적으로 추정할 수 있게됩니다. 그렇다면 선형 회귀에서 데이터를 가장 잘 설명하는 하나의 직선이란 무엇일까요?좋은 직선인지를 알기 위해선 만들어진 직선이 데이터를 얼마나 잘 설명하는지에 대한 점수가 있어야 합니다. 이를 잔차(Residual)라고 하며, 직선과 실제 값 사이의 차이를 의미합니..
Confusion Matrix 평가 지표는 특정 범주를 구분하도록 학습된 분류 모델의 예측 성능 평가를 위해 사용됩니다. 분류 모델의 예측 성능에 대해 정답/오답의 형태로도 표현할 순 있지만, 이는 데이터에 따라 많은 오류를 갖습니다. 그렇기에 여러 지표를 기반으로 분류 모델의 성능을 객관적으로 나타내고자 할 때, Confusion Matrix를 사용합니다. Confusion Matrix는 분류 모델이 도출한 "확률"과 "임계값"을 기반으로 산출되는 행렬 형태의 지표입니다. 새로운 데이터 X에 대해, 모델은 0~1 사이의 확률을 도출하며, 일반적으로 0.5의 임계값을 통해 0/1로 변환합니다. 이 과정에서 실제 정답과 모델의 예측값으로 산출되는 4가지 정보가 있는데, 이를 TP, TN, FP, FN ..