목록분류 전체보기 (264)
BASHA TECH
1. LSTM 을 이용한 로이터 뉴스 카테고리 분류하기 2. LSTM과 CNN의 조합을 이요한 영화 리뷰 분류하기 3. 어텐션을 사용한 신경망
1. 텍스트의 토큰화 (분리) : 텍스트를 잘게 나누기 => 단어별, 문장별, 형태소별 (의미 있는 최소 단위로) 2. 단어의 원-핫 인코딩 단어가 숫자로 바뀜 : Vectorize 3. 단어 임베딩 4. 텍스트를 읽고 긍,부정 예측하기
1. 이미지를 인식하는 원리 2. 딥러닝 기본 프레임 만들기 이미지 데이터는 펼치면 (flatten) 데이터 손실이 남 => bc, 이지 상하 관계가 깨지기 때문. 3. 컨볼루션 신경망 이미지 데이터의 상하좌우 관계 모두 파악. 4. Max Pooling, Drop Out, Flatten 5. 컨볼루션 신경망 실행하기
1. 데이터 파악하기 2. 결측치, 카테고리 변수 처리하기 => 문자형이 categorical 한지 부터 따져볼 필요성이 있다. 3. 속성별 관련도 추출하기 4. 주택 가격 예측 모델
1. 데이터의 확인과 검증셋 validation set같은 경우 data set 나눠서 안 함 2. 모델 업데이트하기 epochs => 전체 데이터를 한번 학습에 사용한 것 : 1 epoch 만약, 전체 Data를 50번 사용 하면, 50 epochs 3. 그래프로 과적합 확인하기 4. 학습의 자동 중단 EarlyStopping() 함수 : 학습이 진행되어도 테스트셋 오차가 줄어들지 않으면 학습을 자동으로 멈추게 하는 함수 => callback
1. 데이터 확인과 예측 실행 2. 과적합 이해 하기 과적합(overfitting) => Tuning 하면 됨 과소적합(underfitting) => 목표부터 다시 따져봐야함. 최악의 경우 프로젝트 처음부터 다시 해야할 수도. . . ㅠㅠ 3. 학습셋과 테스트셋 딥러닝의 경우 일반화 성능을 올릴려면 데이터 양이 관건. (이것이 우선되어야.) 따라서 데이터에 따라서 딥러닝이 아닌 랜덤포레스트, XGBoost, SVM 등 다른 알고리즘이 더 좋은 성능을 보일 수도 있다. 4. 모델 저장과 재사용 model.save('./data/model/my_model).hdf5) => hdf5 : 대용량 초고속 (이진 파일 포맷) 5. K겹 교차 검증 (K-CV)
1. 다중 분류 문제 2. 상관도 그래프 3. one-hot encoding 4. soft max 5. 아이리스 품종 예측의 실행
1. 딥러닝과 데이터 => 질도 양도 모두 높아야함 2. 피마 인디언 데이터 분석하기 3. 판다스를 활용한 데이터 조사 데이터를 잘 파악하는 것이 기술의 1단계!!!! 4. 중요한 데이터 추출하기 5. 피마 인디언의 당뇨병 예측 실행
신경망 구성 : 아래로 갈 수록 복잡하고 어려움. => keras 사용 -> 고수준 library => class 상속 -> 신경망 구성 => function 방식 -> 저수준 library 1. 모델의 정의 2. 입력층, 은닉층, 출력층 3. 모델 컴파일 대표적인 오차를 구하는 함수 : - 평균 제곱 계열 (선형 회귀 모델) - 교차 엔트로피 계열 (다항분류, 이항분류) 4. 모델 실행하기