fix reward to one episode #9

qrh1 · 2018-10-29T11:40:23Z

Rewards should not discounted across different episodes. maybe episodes and steps are confused here?

titu1994 · 2018-10-29T15:12:23Z

for t in reversed(range(0, rewards.size)):
            if rewards[t] != 0:
                running_add = 0
            running_add = running_add * self.discount_factor + rewards[t]
            discounted_rewards[t] = running_add
        return discounted_rewards[-1]

This us the discounted reward, which returns your values anyway.

qrh1 · 2018-10-30T06:53:42Z

hi Somshubra, I still don't get it, could you please expain more?
In my understanding, each action is a step, the 8 actions is a episode. In RL, we usually discout rewards for history steps, but for each independent episode, rewards are caculated independent.

fix reward to one episode

a010f2c

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix reward to one episode #9

fix reward to one episode #9

qrh1 commented Oct 29, 2018

titu1994 commented Oct 29, 2018

qrh1 commented Oct 30, 2018

fix reward to one episode #9

Are you sure you want to change the base?

fix reward to one episode #9

Conversation

qrh1 commented Oct 29, 2018

titu1994 commented Oct 29, 2018

qrh1 commented Oct 30, 2018