지도 학습의 정의는 강화 된 학습 의 하위 집합 인 것 같습니다 (환경의 다른 정보와는 대조적으로) 레이블이 지정된 데이터를 기반으로하는 특정 유형의 보상 기능이 있습니다. 이것이 정확한 묘사입니까?
답변
지도 학습 문제가 동등한 강화 학습 문제로 제기 될 수 있다는 것은 사실입니다. 상태는 입력 데이터에 해당합니다. 동작이 출력 예측과 일치하게합니다. 지도 학습에 사용되는 손실 기능의 부정으로 보상을 정의하십시오. 기대되는 보상을 극대화하십시오. 대조적으로, 강화 학습 문제는 일반적으로지도 학습 문제로 제기 될 수 없습니다. 따라서 이러한 관점에서지도 학습 문제는 강화 학습 문제의 하위 집합입니다.
그러나 일반적인 강화 학습 알고리즘을 사용하여지도 학습 문제를 해결하려는 것은 무의미합니다. 이 모든 것은 문제를보다 쉽게 해결할 수있는 구조를 버리는 것입니다. 강화 학습에서는지도 학습과 관련이없는 다양한 문제가 발생합니다. 또한지도 학습은 일반 강화 학습 환경에 적용되지 않는 접근 방식의 이점을 활용할 수 있습니다. 따라서 필드간에 공통된 기본 원칙과 공유 기법이 있지만 일반적으로 감독 학습이 일종의 강화 학습으로 논의되는 것은 아닙니다.
참고 문헌
Barto and Dietterich (2004) . 강화 학습 및지도 학습과의 관계.