BASHA TECH
1. Reinforcement Learning - RL의 정의 본문
728x90
1. 기본 개념
- 환경 (Environment)
- 환경(environment)는 풀고자 하는 문제를 말한다.
- 환경은 플레이하는 컬퓨터 게임일 수도 있고 매매하는 금융시장일 수 있다.
- 상태 (State) => 특정 시점의 상태(값), 1개의 row를 의미 할 수 있다.
- 환경의 현재 상활을 묘사하는 것과 관련된 모든 파라미터를 의미
- 컴퓨터 게임에서는 픽셀 단위의 전체 화면이 될 수 있으며, 금융 시장에서는 현재와 과거의 모든 가격 및 이동 평균선 거시경제 변수 등의 금융지표 등이 될 수 있다
- 에이전트 (Agent)
- **환경과 상호작용**하면서 학습하는 강화 학습 알고리즘의 모든 요소를 말한다.
- 게임에서는 게임을 플레이하는 플레이어로 나타나고, 금융시장에서는 시장이 오를 것인지 내릴 것인지 베팅하는 트레이더를 나타낼 수 있다.
- 행위 (Action)
- 에이전트는(제한된 수의) 허용 가능한 행위(action)중 하나를 선택하여 실행한다.
- 게임의 경우 오른쪽 또는 왼쪽으로 움직이는 것이 허용 가능 행위가 될 수 있으며, 금융시장에서는 매도 혹은 매수가 행위가 된다.
- 스텝 (Step)
- 에이전트의 행위가 주어지면 환경의 상태가 바뀐다. 이러한 상태 변화의 한 단계를 스텝이라고 한다.
- 스텝의 개념은 두 순간 간의 균질적인이거나 비균질적인 시간 구간이다.
- 금융시장 환경과 상호작용하는 자동 트레이딩봇에서는 좀더 길고 비균질적인 시간 구간을 사용할 수 있다.
- 보상 (Reward)
- **에이전트가 선택한 행위에 따라 보상 혹은 벌칙을 준다.**
- 금융 시장에서는 이익(혹은 손실)이 표준적인 보상(혹은 벌칙)이다.
- 목표
- 목표는
- **에이전트가 현재 보상이 최대가 되는 행위를 학습하는 것.**
- **에이전트가 미래 보상이 최대가 되는 행위를 학습하는 것.**
(미래의 보상을 학습 시키는 것 => Q Learning)
- 금융에서는 누적된 매매 손익일 수 있다.
- 정책 => 분류 문제로 볼 수 있다. => 신경망이 적용 될 수 있다.
- 정책(policy)은 특정한 환경 상태세서 에이전트가 어떤 행위를 취하는가를 결정하는 규칙
- 세번 연속 가격이 오르는 것을 관찰한 봇은 정책에 따라 시장에서 매도로 결정할 수 있다.
- 에피소드 (Episode)
- 환경의 초기 상태로부터 성공 혹은 실패가 될 때까지 겪는 일련의 스텝 집합을 의미
- 금융에서는 시작부터 끝까지 혹은 파산까지를 의미할 수 있다.
(스텝이 반복되서 에피소드가 생김. 많은 스텝들이 들어갈 수 있다)
728x90
반응형
'Computer > Reinforcement Learning' 카테고리의 다른 글
5. Reinforcement Learning - Q Learning (0) | 2022.11.23 |
---|---|
4. Reinforcement Learning - 신경망 에이전트 사용 (1) | 2022.11.23 |
3. Reinforcement Learning - 몬테카를로 에이전트 (0) | 2022.11.23 |
2. Reinforcement Learning - CartPole 예제 (1) | 2022.11.23 |
Comments