목록Computer/Machine Learning (19)
BASHA TECH
terminal > conda install py-xgboost xg boost 버전 확인 import xgboost print(xgboost.__version__) conda install lightgbm /////////////////////////// conda update -n base -c defaults conda light gbm 버전 확인 import lightgbm print(lightgbm.__version__)
앙상블 학습의 유형은 3가지로 나누어진다. Voting, Bagging, Boosting 보팅과 배깅은 여러개의 분류기(앙상블)가 투표를 통해 최정 예측 결과를 결정하는 방식이다. 차이점은 보팅(Voting) => 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합 보팅 유형 - Soft Voting : 확률(따라서 오차가 나온다.) predict_proba / 비슷하게 Softmax 알고리즘이 있음 (각각의 오차를 구하는 알고리즘) - Hard Voting : 다수결 배깅(Bagging) => 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만, 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행해 보팅을 수행함. 대표적인 배깅 방식이 바로 랜덤 포레스트 알고리즘(RF)임. 주로 이걸 더 많이 씀. ..
1. 분류(Classification)의 개요 2. 결정 트리 - 결정 트리 모델의 특징 - 결정 트리 파라미터 - 결정 트리 모델의 시각화 - 결정 트리 과적합(Overfitting) - 결정 트리 실습 - 사용자 행동 인식 데이터 세트 3. 앙상블 학습 - 앙상블 학습 개요 - 보팅 유형 - 하드 보팅(Hard Voting)과 소프트 보팅(Soft Voting) - 보팅 분류기(Voting Classifier) 4. 랜덤 포레스트 - 랜덤 포레스트의 개요 및 실습 - 랜덤 포레스트 하이퍼 파라미터 및 튜닝 - GBM의 개요 및 실습 5. GBM(Gradient Boosting Machine) - GBM 하이퍼 파라미터 소개 - XGBoost 개요 6. XGBoost(eXtra Gradient Boos..
# 데이터 로딩, 확인 import pandas as pd import numpy as np import matplotlib.pyplot as plt # feature 확인 feature_name_df = pd.read_csv( "../data/human_activity/features.txt" , header = None , sep = '\s+' # white space => 공백, \, \t , names = ['column_indext', 'column_name'] ) feature_name_df.head() # 컬럼명을 10개 추출 type(feature_name_df.iloc[:,1]) feature_name_df.iloc[:,1][:10] # 중복 여부 확인 feature_dup_df = fe..
# library import import numpy as np import pandas as pd import matplotlib.pyplot as plt # 데이터 분리 from sklearn.model_selection import train_test_split # 점수(평가 지표) from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score from sklearn.metrics import f1_score, confusion_matrix, precision_recall_curve, roc_curve # 정규화(표준화) from sklearn.preprocessing import StandardScal..
1. 정확도 2. 오차행렬 3. 정밀도와 재현율 4. F1 score 5. ROC score 6. 피마 인디언 당뇨병 예측 7. 정리 정밀도와 재현율은 상관 관계 하지만 오차가 적고, TP가 크면 재현율, 정밀도 모두 높은 수치가 나올 수 있음. 그래서 정확도가 중요한 것임. 오차 중심으로 봐라 => 오차행렬 FN이 떨어짐 => 재현율 ↓, 오차↓ => 정밀, 재현 ↓ # 피마 인디언 당뇨병 예측 # library import import numpy as np import pandas as pd import matplotlib.pyplot as plt # 데이터 분리 from sklearn.model_selection import train_test_split # 점수(평가 지표) from sklearn..
1. 사이킷런 소개와 특징 2. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기 3. 사이킷런의 기반 프레임워크 익히기 - Estimator 이해 및 fit(), predict() 메소드 - 사이킷런의 주요 모듈 - 내장된 예제 데이터 세트 4. Model Selection 모듈 소개 - 학습 / 테스트 데이터 세트 분리 - train_test_split() - 교차 검증 - GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에 5. 데이터 전처리 - 데이터 인코딩 - 피처 스케일리과 정규화 - StandardScaler - MiniMaxScaler - 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점 6. 사이킷런으로 수행하는 데이터의 스케일링 변환 시 유의점 7. 정..
1. 머신러닝의 개념 - 머신러닝의 분류 - 데이터 전쟁 - 파이썬과 R 기반의 머신러닝 비교 2. 파이썬 머신러닝 생태계를 구성하는 주요 패키지 - 파이썬 머신러닝을 위한 S/W 설치 3. 넘파이 - 넘파이 ndarray 개요 - ndarray의 데이터 타입 - ndarray를 편리하게 생성하기 - arange, zeros, ones - ndarray의 차원과 크기를 변경하는 reshape() - 넘파이의 ndarray의 데이터 세트 선택하기 - 인덱싱(Indexing) - 행렬의 정렬 - sort()와 argsort() - 선형대수 연산 - 행렬 내적과 전치 행렬 구하기 4. 데이터 핸들링 - 판다스 - 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API - DataFrame과 리스트, ..
https://visualstudio.microsoft.com/ko/downloads/ Visual Studio Tools 다운로드 - Windows, Mac, Linux용 무료 설치 Visual Studio IDE 또는 VS Code를 무료로 다운로드하세요. Windows 또는 Mac에서 Visual Studio Professional 또는 Enterprise Edition을 사용해 보세요. visualstudio.microsoft.com Anaconda Prompt>> conda create -n ml-dev python=3.9 (base) C:\Windows\system32>conda create -n ml-dev python=3.9 Collecting package metadata (current..