假設切入的是 dqn
dqn 成功的關鍵之一是 experience replay,玩遊戲 okay,不見得適合直接套用在交易,交易的經驗是會失效的,或者再加一些機制
dqn network 學的是 q value,是一個迭代的值,不是那麼直觀,換句話說,可能不知道 network 學到了什麼,overfiting 時不容易解
看內文,喜歡 rl 的原因是可以幫你決定進出場,一個 regression network 定義一下 loss function 也可以,例如
network output p 當成是持有部位的變化
c 是漲跌變化
loss function 可以是 - p * c
network 的 output 就可以幫你決定進出場
沒人知道交易是雞還是牛,所以那把刀好用很難說,不管如何手上那把刀要用順一點
rl 是一把不太好使的刀,deepmind 的論文都能充分理解,使起來會比較遊刃有餘