BASHA TECH

데이터 분석 하는 과정 정리 본문

Computer/Pandas

데이터 분석 하는 과정 정리

Basha 2022. 10. 5. 17:56
728x90

1. 데이터 셋 확인

- 데이터가 어떻게 구성되어있는지 확인한다.

- null data가 존재한다면 확인 후 수정해야함.

 

2. 탐색적 데이터 분석 (EDA: Exploratory Data Analysis)

- 여러 feature들을 개별적으로 분석하고, feature들 간의 상관관계를 확인한다.

- 여러 시각화 툴을 이용하여 insight를 얻기.

 

3. 특성 공학 (Feature Engineering)

- 모델을 만들기 전에 모델의 성능을 높힐 수 있도록 feature들을 engineering하기.

- engineering 하는 방법에는 one-hot enconding, class 나누기, 구간으로 나누기, 텍스트 데이터 처리 등이 있다.

 

4. 모델 개발 및 학습

- sklearn, keras을 사용해 모델을 만든다.

  파이썬에서 머신러닝을 할 땐 sklearn을 사용하면 수많은 알고리즘을 일관된 문법으로 사용할 수 있다. 

  keras는 딥러닝을 개발 할 때 모델에 집중할 수 있도록 해준다. 물론 딥러닝을 위해 tensorflow, pytorch등을 할 수도 있음.

- 학습된 모델이 어떤 것을 학습하였는지 확인한다.

 

5. 모델 예측 및 평가

- Train set을 가지고 모델을 학습 시킨후, Test set을 가지고 prediction한다.

- 그리고 예측 성능이 원하는 수준인지 판단다.

- 풀려는 문제에 따라 모델을 평가하는 방식도 달라진다.

 

참고: 

https://www.kaggle.com/code/daehungwak/guide-kor-dg/notebook

 

[GUIDE, KOR, DG] 데이터 분석 어떻게 시작해야 하나요?

Explore and run machine learning code with Kaggle Notebooks | Using data from 2019 1st ML month with KaKR

www.kaggle.com

 

 

728x90
반응형
Comments