BASHA TECH
데이터 분석 하는 과정 정리 본문
1. 데이터 셋 확인
- 데이터가 어떻게 구성되어있는지 확인한다.
- null data가 존재한다면 확인 후 수정해야함.
2. 탐색적 데이터 분석 (EDA: Exploratory Data Analysis)
- 여러 feature들을 개별적으로 분석하고, feature들 간의 상관관계를 확인한다.
- 여러 시각화 툴을 이용하여 insight를 얻기.
3. 특성 공학 (Feature Engineering)
- 모델을 만들기 전에 모델의 성능을 높힐 수 있도록 feature들을 engineering하기.
- engineering 하는 방법에는 one-hot enconding, class 나누기, 구간으로 나누기, 텍스트 데이터 처리 등이 있다.
4. 모델 개발 및 학습
- sklearn, keras을 사용해 모델을 만든다.
파이썬에서 머신러닝을 할 땐 sklearn을 사용하면 수많은 알고리즘을 일관된 문법으로 사용할 수 있다.
keras는 딥러닝을 개발 할 때 모델에 집중할 수 있도록 해준다. 물론 딥러닝을 위해 tensorflow, pytorch등을 할 수도 있음.
- 학습된 모델이 어떤 것을 학습하였는지 확인한다.
5. 모델 예측 및 평가
- Train set을 가지고 모델을 학습 시킨후, Test set을 가지고 prediction한다.
- 그리고 예측 성능이 원하는 수준인지 판단다.
- 풀려는 문제에 따라 모델을 평가하는 방식도 달라진다.
참고:
https://www.kaggle.com/code/daehungwak/guide-kor-dg/notebook
'Computer > Pandas' 카테고리의 다른 글
pivot, groupby (1) | 2022.10.05 |
---|---|
Predict survival on the Titanic 타이타닉 생존자 예측 예제 2 (0) | 2022.10.05 |
Predict survival on the Titanic 타이타닉 생존자 예측 예제 1 (1) | 2022.10.04 |
셀프 주유소 가격 분석 (1) | 2022.10.04 |
네이버 매크로 예제 (0) | 2022.10.04 |