선형 함수 근사법을 사용하여 가중치를 Q 값에 맞추는 방법 종종 사용됩니다. 조회 테이블을 사용할 수

강화 학습에서 선형 함수 근사법은 큰 상태 공간이 존재할 때 종종 사용됩니다. 조회 테이블을 사용할 수 없게 될 때.

의 형태 선형 함수로 근사 값으로 주어진다 $Q -$

Q -

$Q-$

Q (s, a) = w_{1} f_{1} (s, a) + w_{2} f_{2} (s, a) + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

여기서 는 가중치이고 는 피쳐입니다. $w_{i}$

w_{i}

$w_i$ $f_{i}$

f_{i}

$f_i$

기능은 사용자가 미리 정의합니다. 내 질문은 가중치가 어떻게 할당됩니까?

나는 읽기 / 일부 강의 슬라이드를 다운로드 한 기능 근사치 학습. 그들 대부분은 선형 회귀에 관한 슬라이드를 가지고 있습니다. 슬라이드 일 뿐이므로 불완전한 경향이 있습니다. 두 주제 사이의 연결 / 관계가 무엇인지 궁금합니다. $Q -$

Q -

$Q-$

$f (s, a)$

f (s, a)

$f(s,a)$ $Q (s, a)$

Q (s, a)

$Q(s,a)$ $Q (s, a)$

Q (s, a)

$Q(s,a)$ $w$

w

$w$

다음은 를 학습하기위한 일반적인 알고리즘입니다. $Q (s, a)$

Q (s, a)

$Q(s,a)$

어디 …

매개 변수 / 가중치 업데이트 (4 단계)는 다음과 같은 방식으로 읽을 수 있습니다.

주 원천:

8 장 (전체 권장) 책의 값 근사 $Q (s, a)$

Q (s, a)

$Q(s,a)$ $V (s)$

V (s)

$V(s)$ $e$

e

$e$

더 많은 참조

How IT