koos808

Practical Deep Reinforcement Learning Approach for Stock Trading 논문 리뷰 본문

논문/금융 관련 논문

Practical Deep Reinforcement Learning Approach for Stock Trading 논문 리뷰

koos808 2020. 12. 15. 13:56
728x90
반응형

※ 논문 : Practical Deep Reinforcement Learning Approach for Stock Trading

※ Columbia University  // NIPS 2018 Workshop

 

이번에 리뷰할 논문은 NIPS 2018 Workshop에서 발표한 논문입니다.

이 논문은 DDPG를 사용하여 stock trading 전략을 optimize한 논문인데요. DDPG를 사용했다는 것 외에는 별다른 점은 없습니다.

 

※ 1. Abstract

1) We explore the potential of deep reinforcement learning to optimize stock trading strategy and thus maximize investment return.

 

2) 30 stocks are selected as our trading stocks and their daily prices are used as the training and trading market environment.

 

3) The agent’s performance is evaluated and compared with Dow Jones Industrial Average and the traditional min-variance portfolio allocation strategy.

 

4) The proposed deep reinforcement learning approach is shown to outperform the two baselines in terms of both the Sharpe ratio and cumulative returns.

 

우선, 이 논문은 stock trading 전략을 optimize하여 투자 return을 최대화하기 위한 심층 강화 학습의 potential을 탐구하는 논문입니다.

 

30 종의 주식을 거래 주로 선정하고 그 daily price를 학습 및 trading market environment로 활용합니다.

 

Agent의 퍼포먼스는 다우 존스 industrial average랑 전통적인 min-variance portfolio 할당 전략과 비교되어 평가를 했습니다.

 

마지막으로 제안된 Deep Reinforcement LearningSharpe ratio과 누적 수익의 측면에서 두 개의 기준선을 능가하는 것으로 나타났습니다.

 

※ 2. Introduction

수익 극대화는 주식의 잠재적 수익 및 risk에 대한 추정치를 기반으로 합니다.

 

기존의 전통적인 접근 방식으로는 두 단계로 설명을 할 수가 있다고 합니다. 먼저 주식의 기대 수익률과 주가의 covariance matrix를 계산합니다.

 

그런 다음 포트폴리오의 고정 위험에 대한 수익을 극대화하거나 다양한 수익에 대한 위험을 최소화해서 최상의 포트폴리오 할당을 찾습니다. 최종적으로, 최상의 포트폴리오 할당을 따라서 최상의 거래 전략을 추출하는 방식으로 해왔습니다.

 

그러나 관리자가 각 시간 단계에서 내린 결정을 수정하고 예를 들어 거래 비용을 고려하려는 경우 이 접근 방식은 구현하기가 매우 복잡 할 수 있다는 단점이 있습니다.

 

또 다른 방법으로는 MDP로 모델링하고 dynamic 프로그래밍을 사용하여 최적의 전략을 찾는 것입니다. 그런데 모델의 확장성은 주식 시장을 다룰 때 큰 state space로 인해서 많은 제약사항이 있습니다.


-Motivated by the above challenges, we explore a deep reinforcement learning algorithm, namely Deep Deterministic Policy Gradient (DDPG), to find the best trading strategy in the complex and dynamic stock market.

 

앞서 설명한 여러 방법들의 제약사항을 보완하기 위해 DDPG라는 DRL 알고리즘을 사용하고, 이를 통해 최고의 trading 전략을 찾았다고 주장했습니다.


-This algorithm consists of three key components:

-(i) actor-critic framework that models large state and action spaces

-(ii) target network that stabilizes the training process

-(iii) experience replay that removes the correlation between samples and increases the usage

 

이 알고리즘은 크게 세 가지 주요 구성 요소로 구성됩니다.

첫 번째는 큰 stateaction space를 모델링하는 actor-critic framework입니다.

두 번째는 학습 과정을 안정화하는 target network 부분이고, 마지막으로는 experience replay 부분인데 이를 사용해서 샘플 간의 correlation을 제거하고 데이터의 사용량을 증가시켰습니다.


※ 3. Problem Statement

 

다음으로는, 문제 설명입니다

 

우선 stock trading 프로세스를 MDP로 모델링한 다음, maximization problem에 대하여 trading 목표를 공식화했습니다.

 

아래 그림과 같이 MDP로 모델링했는데, 하나의 시작 포트폴리오 value가 있고, 세 개의 가능한 포트폴리오 value로 연결되는 세 개의 action으로 구성됩니다. 주식 가격이 바뀌면 “hold”가 다른 포트폴리오 가치로 이어질 수 있습니다.

 

그리고 t 시점에서 t+1시점으로 stock price가 바뀌게 됩니다.


다음으로는 세부적인 사항입니다.

 

1) State[p,h,b]로 구성이 되어있는데, p는 주식 가격 information을 포함하는 집합을 의미합니다.

h는 주식 보유량, b는 나머지 잔액을 의미합니다. 그리고 D는 시장에서 고려하는 주식의 수를 의미하고 Z+라는 것은 음이 아닌 정수를 나타냅니다.

 

2) Actiona로 표기됩니다. 모든 D 주식에 대한 action set입니다. 각 주식에 대한 action에는 sell, buy, holding 3개의 action으로 구성되어 있습니다.

 

3) Rewardr(s,a,s`)로 표기됩니다. action astate s에서 수행되고 새로운 상태 s`에 도달하는데, 이 때 포트폴리오 value의 변화를 나타냅니다. 포트폴리오 value는 모든 보유 주식과 잔액의 합계입니다.

 

4) policystate s에서의 action의 확률 분포입니다.

 

5) 마지막으로는, action-value function Q 파이(s,a)policy 파이를 따르는 state s에서 action a에 의해 달성되는 expected reward입니다


-The dynamics of the stock market is described as follows.

-We use subscript to denote time t, and the available actions on stock d are

 

주식 시장의 dynamics는 위 그림과 같이 설명됩니다. 여기서 첨자 ttime을 의미하며, stock d에 대해 가능한 action은 다음과 같다.

 

매도는 현재 보유 주식 h에서 매도할 수 있는데 이 때 k는 정수입니다. , t시점의 주식 보유량 h_t에서 k개를 매도하면 t+1 시점에서의 주식 보유량 h_t+1이 됩니다. 이와 동일한 방법으로 홀딩과 매수를 이해하시면 됩니다.


다음으로는 여러 가지 가정에 대한 내용이 설명하겠습니다.

 

모든 매입 한 주식은 포트폴리오 가치의 마이너스 잔고가 되어서는 안된다는 점에 유의해야 한다고 합니다.

 

p zerotime 0시의 주가로 설정되고 b_0 거래에 사용 가능한 초기 자금입니다.

hQπ(s,a)0으로 초기화되고 π(s)는 모든 state의 모든 actionuniformly distribute됩니다.

그런 다음 Qπ는 외부 환경과의 interacting을 통해 학습됩니다.

 

벨만 방정식에 따라서, action a_t에 대한 expected rewardreward에 다음 state s_t+1expected reward를 더해서 계산합니다.

 

그리고 discounted factor도 또한 감마(γ)로 지정했습니다.

 

앞서 말씀 드렸듯이 trading 목표는 return의 극대화입니다.

 

모델의 Markov 속성으로 인해 문제는 Q function을 최대화하는 정책을 최적화하는 것으로 끝낼 수 있습니다.

action-value function이 정책 결정자에게 알려지지 않았고 환경과의 상호 작용을 통해 학습해야하기 때문에 이 문제는 매우 어렵습니다. 따라서 저자들은 이 문제를 해결하기 위해 DRL method를 사용합니다.


※ 4. A Deep Reinforcement Learning Approach

이 논문에서는 DDPG 알고리즘을 사용해서 투자 수익을 극대화 시켰습니다.

 

-We employ a DDPG algorithm to maximize the investment return.

-DDPG maintains an actor network and a critic network.

 

DDPGexperience replay buffer R을 사용하여 전환을 저장하고 모델을 업데이트하며 경험 샘플 간의 상관 관계를 효과적으로 줄일 수 있습니다.

 

또한 DDPG 논문에서도 설명되어 있듯이, soft target updatenoise processOrnstein-Uhlenbeck process를 사용했습니다.

 

신경망 학습에서 state/observation에 포함되는 여러 값들의 절대값의 order of magnitude문제에 의한 학습 성능 저하를 막기 위해 사용하는 batch normalization도 적용했습니다.


critic networkactor networkexperience buffer로부터의 transitions에 의해 업데이트 된 후, target actor network target critic network를 업데이트합니다.

 

앞서 얘기 했듯이, soft target update를 진행하는데, 8번에서 보시면 exploration nosie를 주었습니다.

 


※ 5. Experiment

※ Experimental Setting and Results of Stock Trading

-We build the environment by setting 30 stocks data as a vector of daily stock prices over which the DDPG agent is trained.

-Four metrics are used to evaluate our results: final portfolio value, annualized return, annualized standard error and the Sharpe ratio.

 

DDPG 에이전트를 학습할 수 있도록 30개의 주식 데이터를 일일 주가 벡터로 설정해서 환경을 구축합니다.

30개의 주식을 선택했고 주식의 가격이 매일 갱신될 때마다 주식시장 학습을 하는 환경에 사용했다고 했습니다.

 

결과를 평가하기 위해 최종 포트폴리오 가치, 연간 수익, 연간 표준 오차 및 Sharpe ratio의 네 가지 메트릭이 사용되었습니다. annualized standard error는 모델의 robust함을 보여주기 위함이라고 했습니다.

 

 

DDPG 전략이 다우 존스 산업 평균과 min-variance 포트폴리오 할당을 크게 능가하는 것을 볼 수 있습니다.

 

table 1에서는 DDPG 전략은 연간 수익률 25.87%를 달성하며, 이는 다우 존스 산업 평균의 16.40 % min-variance 포트폴리오 할당의 15.93%보다 훨씬 높습니다.

 

샤프 ratio도 훨씬 더 높기 때문에 DDPG 전략이 riskreturnbalance를 유지하는 데 있어 모두 좋은 성능을 보였습니다.


※ 6. Conclusions

본 논문에서는 DDPG (Deep Deterministic Policy Gradient) 에이전트가 주식 거래 전략을 학습 할 수 있는 가능성을 모색했습니다.

 

결과는 우리의 숙련 된 에이전트가 누적 수익률에서 다우 존스 산업 평균 및 최소 분산 포트폴리오 할당 방법보다 우월함을 보여줍니다.

 

Sharpe 비율에 대한 비교는 우리의 방법이 위험과 수익의 균형을 잡는 데 있어서 다른 방법보다 훨씬 견고함을 보여줍니다.

 

미래의 연구는 더 정교한 모델을 탐구하고, 더 큰 규모의 데이터를 다루고, 지능적인 행동을 관찰하고 예측 계획을 통합하는 흥미로운 일이 될 것입니다.

 

 

 


 

728x90
반응형
Comments