Double-Dueling-dqn 분석
Double-Dueling-dqn 분석 핵심 3가지 Conv Network 사람이 화면을 보고 플레이 하는것처럼, 합성곱 신경망을 통해 학습 Experience Replay 과거 경험했던 히스토리를 기반으로, 일정 주기마다 학습한다. Correlation 현상 완화 Sperate network Q Target을 따로 두어, 일정 주기마다 Main-Q Network를 업데이트한다. Atari이후 DQN 을 개선하기 위한여러가지 방법들이 나왔으며, 그중 하나는 Dueling이다. Dueling Q-Table의 Q(가치)값을 아래처럼 2개로 나눌 수 있다. 어떤 행동을 하지 않아도, 그 상태에 자체의 가치 해당 State에서 행동을 함으로 서 얻는 가치 self.streamAC,self.streamVC = t..