BASHA TECH

Ch8. 텍스트 분석 본문

Computer/Machine Learning

Ch8. 텍스트 분석

Basha 2022. 10. 28. 16:43
728x90

NLP이냐 텍스트 분석이냐?

1. 텍스트 분석 이해

- 텍스트 분석 수행 프로세스

- 파이썬 기반의 NLP, 텍스트 분석 패키지

 

2. 텍스트 사전 준비 작업 (텍스트 전처리) - 텍스트 정규화

- 클렌징

- 텍스트 토큰화

- 스톱 워드 제거

- Stemming가 Lemmatization

 

3. Bag of Words - BOW

- BOW의 피처 벡터화

- 사이킷런의 Count 및 TF-IDF 벡터화 구현 : CountVectorizer, TfidVectorizer

- BOW 벡터화를 위한 희소 행렬

- 희소 행렬 - COO 형식

- 희소 행렬 - CSR 형식

 

4. 텍스트 분류 실습 - 20 뉴스 그룹 분류

- 텍스트 정규화

- 피처 벡터화 변환과 머신러닝 모델 학습/예측/평가

- 사이킷런 파이프라인 사용 및 GridSearchCV와의 결합

 

5. 감성 분석

- 감성 분석 소개

- 지도학습 기반 감성 분석 실습 - IMDB 영화평

- 비지도 학습 기반 감성 분석 소개

- SentiWordNet을 이용한 감성 분석

- VADER를 이용한 감성 분석

 

6. 토픽 모델링 (Topic Modeling) - 20 뉴스 그룹

 

7. 문서 군집화 소개와 실습 (Opinion Review 데이터 세트)

- 문서 군집화 개념

- Opinion Review Data Set를 이용한 문서 군집화 수행하기

- 군집별 핵심 단어 추출하기

 

8. 문서 유사도

- 문서 유사도 측정 방법 - 코사인 유사도

- 두 벡터 사잇각

- Opinion Review Data Set를 이용한 문서 유사도 측정

 

9. 한글 텍스트 처리 - 네이버 영화 평점 감성 분석

- 한글 NLP 처리의 어려움

- KoNLPy 소개

- 데이터 로딩

 

10. 텍스트 분석 실습 - 캐글 Mercari Price Suggestion Callenge

- 데이터 전처리

- 피처 인코딩과 피처 벡터화

- 릿지 회귀 모델 구축 및 평가

- LightGBM 회귀 모델 구축과 앙상블을 이용한 최종 예측 평가

 

11. 정리

8.6 토픽 모델링(Topic Modeling) - 20 뉴스그룹.ipynb
0.01MB
8.7 문서 군집화 소개와 실습(Opinion Review 데이터 세트).ipynb
0.18MB
8.8 문서 유사도 .ipynb
0.04MB
8.9 한글 텍스트 처리 _ 네이버 영화 평점 감성 분석.ipynb
0.01MB
8.10 Text Analysis 실습 _ 캐글 Mercari Price Suggestion Challenge.ipynb
0.04MB
8.2 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화_8.3 Bag of Words _ BOW.ipynb
0.01MB
8.4 텍스트 분류 실습 _ 20 뉴스그룹 분류.ipynb
0.01MB
8.5 감성 분석.ipynb
0.05MB

 

 

 

728x90
반응형

'Computer > Machine Learning' 카테고리의 다른 글

Ch 2. 머신러닝 복습 : 사이킷런으로 시작하는 머신러닝  (0) 2023.04.20
Ch09. 추천 시스템  (0) 2022.11.15
Ch7. 군집화  (0) 2022.10.24
Ch6. 차원 축소  (0) 2022.10.24
Ch5. 회귀  (0) 2022.10.20
Comments