BASHA TECH
Ch8. 텍스트 분석 본문
NLP이냐 텍스트 분석이냐?
1. 텍스트 분석 이해
- 텍스트 분석 수행 프로세스
- 파이썬 기반의 NLP, 텍스트 분석 패키지
2. 텍스트 사전 준비 작업 (텍스트 전처리) - 텍스트 정규화
- 클렌징
- 텍스트 토큰화
- 스톱 워드 제거
- Stemming가 Lemmatization
3. Bag of Words - BOW
- BOW의 피처 벡터화
- 사이킷런의 Count 및 TF-IDF 벡터화 구현 : CountVectorizer, TfidVectorizer
- BOW 벡터화를 위한 희소 행렬
- 희소 행렬 - COO 형식
- 희소 행렬 - CSR 형식
4. 텍스트 분류 실습 - 20 뉴스 그룹 분류
- 텍스트 정규화
- 피처 벡터화 변환과 머신러닝 모델 학습/예측/평가
- 사이킷런 파이프라인 사용 및 GridSearchCV와의 결합
5. 감성 분석
- 감성 분석 소개
- 지도학습 기반 감성 분석 실습 - IMDB 영화평
- 비지도 학습 기반 감성 분석 소개
- SentiWordNet을 이용한 감성 분석
- VADER를 이용한 감성 분석
6. 토픽 모델링 (Topic Modeling) - 20 뉴스 그룹
7. 문서 군집화 소개와 실습 (Opinion Review 데이터 세트)
- 문서 군집화 개념
- Opinion Review Data Set를 이용한 문서 군집화 수행하기
- 군집별 핵심 단어 추출하기
8. 문서 유사도
- 문서 유사도 측정 방법 - 코사인 유사도
- 두 벡터 사잇각
- Opinion Review Data Set를 이용한 문서 유사도 측정
9. 한글 텍스트 처리 - 네이버 영화 평점 감성 분석
- 한글 NLP 처리의 어려움
- KoNLPy 소개
- 데이터 로딩
10. 텍스트 분석 실습 - 캐글 Mercari Price Suggestion Callenge
- 데이터 전처리
- 피처 인코딩과 피처 벡터화
- 릿지 회귀 모델 구축 및 평가
- LightGBM 회귀 모델 구축과 앙상블을 이용한 최종 예측 평가
11. 정리
'Computer > Machine Learning' 카테고리의 다른 글
Ch 2. 머신러닝 복습 : 사이킷런으로 시작하는 머신러닝 (0) | 2023.04.20 |
---|---|
Ch09. 추천 시스템 (0) | 2022.11.15 |
Ch7. 군집화 (0) | 2022.10.24 |
Ch6. 차원 축소 (0) | 2022.10.24 |
Ch5. 회귀 (0) | 2022.10.20 |