태그 보관물: reinforcement-learning

reinforcement-learning

선형 함수 근사법을 사용하여 가중치를 Q 값에 맞추는 방법 종종 사용됩니다. 조회 테이블을 사용할 수

강화 학습에서 선형 함수 근사법은 큰 상태 공간이 존재할 때 종종 사용됩니다. 조회 테이블을 사용할 수 없게 될 때.

의 형태 선형 함수로 근사 값으로 주어진다

Q−

Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,

여기서 는 가중치이고 f i 는 피쳐입니다.

wi

fi

기능은 사용자가 미리 정의합니다. 내 질문은 가중치가 어떻게 할당됩니까?

나는 읽기 / 일부 강의 슬라이드를 다운로드 한 기능 근사치 학습. 그들 대부분은 선형 회귀에 관한 슬라이드를 가지고 있습니다. 슬라이드 일 뿐이므로 불완전한 경향이 있습니다. 두 주제 사이의 연결 / 관계가 무엇인지 궁금합니다.

Q−


답변

f(s,a)

Q(s,a)

Q(s,a)

w

다음은 를 학습하기위한 일반적인 알고리즘입니다.

Q(s,a)

  • w=(w1,w2,....,wn)

  • 각 에피소드마다 :


    1. s←


    2. a←

      π

      ϵ


    3. a

      r

      s′


    4. w←w+α(r+γ∗maxa′Q(s′,a′)−Q(s,a))∇→wQ(s,a)


    5. s←s′

    될 때까지 2-5를 반복하십시오.

    s

어디 …


  • α∈[0,1]


  • γ∈[0,1]


  • maxa′Q(s′,a′)

    a′

    s′

    Q(s′,a)


  • ∇→wQ(s,a)

    Q(s,a)

    w

    (f1(s,a),...,fn(s,a))

매개 변수 / 가중치 업데이트 (4 단계)는 다음과 같은 방식으로 읽을 수 있습니다.


  • (r+γ∗maxa′Q(s′,a′))−(Q(s,a))

    Q(s,a)

    Q(s,a)

    r

    γ∗maxa′Q(s′,a′)


  • ∇→wQ(s,a)

    α

주 원천:

8 장 (전체 권장) 책의 값 근사

Q(s,a)

V(s)

e

더 많은 참조


답변