목록Computer/Machine Learning (19)
BASHA TECH
차원 축소 개요 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것이다. 일반적으로 차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀이게 되고, 희소한 구조를 가지게 된다. 수백 개 이상의 피처로 구성된 데이터 세트의 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 도한 피처가 많을 경우 개별 피처간에 상관관계가 높을 가능성이 크다. 선형 회귀와 같은 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 다중 공선성 문제로 모델의 예측 성능이 저하된다. 이렇게 매우 많은 다차원의 피처를 차원 축소해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있다. 또한 차원 축소를 할 경우 학습 데이터..
1. 회귀 소개 : 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법. (오차가 minimize 되는 것을 찾는다.) 여러 개의 독립변수와 한 개의 종속변수 같의 상관관계를 모델링하는 기법을 통칭한다. 머신러닝 관점에서 보면 독립변수는 피처에 해당되며 종속변수는 결정 값이다. 따라서 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다. 회귀는 회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수 있다. 회귀에서 가장 중요한 것은 회귀 계수(w: weight)이다. 이 회귀 계수가 선형인지 아닌지에 따라 선형 회귀와 비선형 회귀로 나눌 수 있다. 그리고 독립변수의 개수..
1. 분류(Classification)의 개요 지도 학습은 명시적인 정답이 있는 데이터(레이블)가 주어진 상태에서 학습하는 머신러닝 방식. 지도 학습의 대표적인 유형인 분류는 학습 데이터로 주어진 데이터의 피처와 레이블 값 (결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것. 즉, 기존 데이터가 어떤 레이블에 속하는 지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것이다. 앙상블은 서로 다른/또는 같은 알고리즘을 단순히 결합한 형태도 있으나, 일반적으로는 배깅과 부스팅 방식으로 나뉜다. 배깅 방식의 대표인 랜덤 포레스트는 뛰어난 예측 성능, 상대적으로 빠른 수행 시..
머신러닝 프로세스 : 데이터 가공/변환 ->모델 학습/예측 -> 평가' 성능 평가 지표는 모델이 분류인지 회귀인지에 따라 여러 종류로 나뉜다. - 회귀 : 대부분 실제 값과 예측값의 오차 평균값에 기반한다. 예를 들어 오차에 절댓값을 씌운 뒤(절댓값을 씌웠을 때 미분 안됨. 그래서 신경망 모델에서 사용 안한다) 평균 오차를 구하거나 오차의 제곱 값에 루트를 씌운 뒤 평균 오차를 구하는 방법과 같이 기본적으로 예측 오차를 가지고 정규화 수준을 재가공하는 방법이 회귀의 성능 평가 지표 유형이다. 1. 정확도 (Accuracy) 직관적으로 모델 예측 성능을 나타내는 평가 지표. 하지만 이진 분류의 경우 데이터의 구성에 따라 ML 모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지 ..
1. 사이킷런 소개와 특징 2. 첫 번때 머신러닝 만들어 보기 1) 데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리 2) 모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킴 3) 예측 수행 : 학습 된 ML 모델을 이용해 테스트 데이터의 분류를 예측 4) 평가 : 이렇게 예측된 결과값과 테스트 데디터의 실제 결과값을 비교해 ML 모델 성능을 평가 3. 사이킷런의 기반 프레임워크 익히기 1) Estimator 이해 및 fit( ), predict( ) 메소드 ML 모델 학습을 위해 fit( ), 학습된 모델의 예측을 위해 predict( ) 사이킷 런에서 분류 알고리즘을 구현한 클래스를 Classifier, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭..
1. 추천 시트템의 개요와 배경 - 추천 시스템의 개요 - 온라인 스토어의 필수 요소, 추천 시스템 - 추천 시스템의 유형 2. 콘텐츠 기반 필터링 추천 시스템 3. 최근접 이웃 협업 필터링 4. 잠재요인 협업 필터잉 - 잠재 요인 협업 필터링의 이해 - 행렬 분해의 이해 - 확률적 경사 하강법을 이용한 행렬 분해 5. 콘텐츠 기반 필터링 실습 - TMDB 5000 영화 데이터 세트 - 장르 속성을 이용한 영화 콘텐츠 기반 필터링 - 데이터 로딩 및 가공 - 장르 콘텐츠 유사도 측정 - 장르 콘텐츠 필터링을 이용한 영화 추천 6. 아이템 기반 최근접 이웃 협업 필터링 시습 - 데이터 가공 및 변환 - 영화 간 유사도 산출 - 아이템 기반 최근접 이웃 협업 필터링으로 개인화 된 영화 추천
NLP이냐 텍스트 분석이냐? 1. 텍스트 분석 이해 - 텍스트 분석 수행 프로세스 - 파이썬 기반의 NLP, 텍스트 분석 패키지 2. 텍스트 사전 준비 작업 (텍스트 전처리) - 텍스트 정규화 - 클렌징 - 텍스트 토큰화 - 스톱 워드 제거 - Stemming가 Lemmatization 3. Bag of Words - BOW - BOW의 피처 벡터화 - 사이킷런의 Count 및 TF-IDF 벡터화 구현 : CountVectorizer, TfidVectorizer - BOW 벡터화를 위한 희소 행렬 - 희소 행렬 - COO 형식 - 희소 행렬 - CSR 형식 4. 텍스트 분류 실습 - 20 뉴스 그룹 분류 - 텍스트 정규화 - 피처 벡터화 변환과 머신러닝 모델 학습/예측/평가 - 사이킷런 파이프라인 사용 ..
1. K-평균 알고리즘 이해 - 사이킷런 KMeans 클래스 소개 - K-평균을 이용한 붓꽃 데이터 세트 군집화 - 군집화 알고리즘 테스트를 위한 데이터 생성 2. 군집 평가 - 실루엣 분석의 개요 - 붓꽃 데이터 세트를 이용한 군집 평가 - 군집별 평균 실루엣 계수의 시각화를 통한 군집 개수 최적화 방법 3. 평균 이동 - 평균 이동의 개요 4. GMM (Gaussian Mixture Model) - GMM 소개 - GMM을 이용한 붓꽃 데이터 세트 군집화 - GMM과 K-평균의 비교 5. DBSCAN - DBSCAN 개요 - DBSCAN 적용하기 - 붓꽃 데이터 세트 - DBSCAN 적용하기 - make_circles( ) 데이터 세트 6. 군집화 실습 - 고객 세그먼테이션 - 고객 세그먼테이션의 정..
1. 차원 축소 (Dimension Reduction) 개요 2. PCA (Principal Component Analysis) 3. LDA (Linear Discriminant Analysis) 4. SVD (Singular Value Decomposition) 5. NMF (Non-Negative Matrix Factorization) 가장 중요한 키워드: 잠재적 요소 (Latent Factor) 매우 많은 차원을 가지고 있는 이미지나 텍스트에서 특정 부위(데이터의 답을 잘 설명해주는 피처)를 찾고 함축된 잠재적인 의미를 뽑아냄 => 차원 축소를 통해 데이터를 잘 설명해줄 수 있는 잠재적 요소를 추출
1. 회귀 소개 2. 단순 선형 회귀를 통한 회귀 이해 3. 비용 최소화 하기 - 경사 하강법 (Gradient Descent) 소개 4. 사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측 - LinearRegression 클래스 - Ordinary Least Squares - 회귀 평가 지표 - LinearRegression을 이용해 보스턴 주택 가격 회귀 구현 5. 다항 회귀와 과(대)적합/과소적합 dlgo - 다항 회귀 이해 - 다항 회귀를 이용한 과소적합 및 과적합 이해 - 편향-분산 트레이드오프(Bias-Variance Trade off) 6. 규제 선형 모델 - 릿지, 라쏘, 엘라스틱넷 - 규제 선형 모델의 개요 - 릿지 회귀 - 라쏘 회귀 - 엘라스틱넷 회귀 - 선형 회..