목록Computer/Reinforcement Learning (5)
BASHA TECH
DQL Agent from collections import deque from tensorflow.keras.optimizers import Adam, RMSprop class DQLAgent: def __init__(self, gamma=0.95, hu=24, opt=Adam, # hu가 노드의 수 opt: optimizer의 약자 lr=0.001, finish=False): # lr이 머지. . . ? => ask self.finish = finish # epsilon => 탐색(무작위)을 할 비율. 무작위를 얼마나 할거냐? self.epsilon = 1.0 # 1) 초기 탐색(무작위) 비율 self.epsilon_min = 0.01 # 2) 최소 탐색 비율 # 무작위가 약간은 있어야함. 0 이면 ..
policy network를 찾는다. 정책을 찾아내는 신경망. 정책에 따라 행위가 달라짐.> 1단계 - 카트폴 게임은 분류 문제로 풀 수도 있다. - 4개의 환경 상태값은 특징값이 되고, 해당 특징값에 대응하는 올바른 라벨값은 행위가 된다. - 신경망 에이전트는 환경(ex. 게임, 주식시장)과 상화작용하면서 특징값 및 라벨값을 수집한다. - 이 데이터셋이 점차적으로 증가하면서 신경망 에이전트는 환경 상태에 대한 올바른 행위를 학습할 수 있게 된다. - 이런 경우 신경망은 정책에 대해 기술하고, 에이전트는 새로운 경험을 기반으로 정책을 수정한다. import logging # 실행되는 상태를 저장 import tensorflow as tf tf.get_logger().setLevel(logging.ERRO..
- 카트폴 문제는 완전한 형태의 강화 학습 접근법이나 신경망이 필요하지 않다. - 차원 축소를 활용하여 특별한 정책을 정한다. - 환경 상태를 정의하는 파라미터 4개(state임)를 선형조합(dot=> 내적)하여 하나의 실숫값으로 축소 # 고정된 시드값 무작위 가중치 설정 np.random.seed(100) # 무작위 가중치 설정 weights = np.random.random(4) * 2 - 1 weights # 환경 초기화 state = env.reset() # 환경에서 state 추출 state # 초기 상태값 # 상태와 가중치의 내적 s = np.dot(state[0], weights) # np.dot => 내적 => 단일 값(schalar) 추출. # 단일값 크기따라 영향이 생긴다. print(..
Imports import os import math import random import numpy as np import pandas as pd from pylab import plt, mpl plt.style.use('seaborn') mpl.rcParams['savefig.dpi'] = 300 mpl.rcParams['font.family'] = 'serif' np.set_printoptions(precision=4, suppress=True) os.environ['PYTHONHASHSEED'] = '0' Cartpole Environment import gym print(gym.__version__) => 0.26.2 version # 고정된 시드값을 가진 환경 객체 # 카트폴에는 환경, 상태,..
1. 기본 개념 - 환경 (Environment) - 환경(environment)는 풀고자 하는 문제를 말한다. - 환경은 플레이하는 컬퓨터 게임일 수도 있고 매매하는 금융시장일 수 있다. - 상태 (State) => 특정 시점의 상태(값), 1개의 row를 의미 할 수 있다. - 환경의 현재 상활을 묘사하는 것과 관련된 모든 파라미터를 의미 - 컴퓨터 게임에서는 픽셀 단위의 전체 화면이 될 수 있으며, 금융 시장에서는 현재와 과거의 모든 가격 및 이동 평균선 거시경제 변수 등의 금융지표 등이 될 수 있다 - 에이전트 (Agent) - **환경과 상호작용**하면서 학습하는 강화 학습 알고리즘의 모든 요소를 말한다. - 게임에서는 게임을 플레이하는 플레이어로 나타나고, 금융시장에서는 시장이 오를 것인지 내..