RMSProp, Adam 및 SGD가있는 네트워크를 사용하여 EMNIST 검증 세트에 대한 실험을 수행하고 있습니다. L2 정규화 (1e-05 페널티)뿐만 아니라 SGD (학습률 0.1) 및 탈락 (0.1 탈락 확률)으로 87 % 정확도를 달성하고 있습니다. RMSProp 및 Adam을 사용하여 동일한 정확한 구성과 0.001의 초기 학습 속도를 테스트 할 때 85 %의 정확도와 훨씬 덜 부드러운 훈련 곡선을 달성하고 있습니다. 나는이 행동을 설명하는 방법을 모른다. 훈련 곡선에서 매끄러움이 부족하고 정확도가 낮고 오류율이 높은 이유는 무엇입니까?
답변
온라인으로 몇 가지 기사와 Keras 문서를 조사한 후 RMSProp 옵티 마이저를 반복 신경망에 권장하는 것이 좋습니다. https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209
확률 적 그라디언트 디센트는 각 배치 사이의 학습 속도와 운동량을 활용하여 필자의 경우 손실 함수 정보를 기반으로 모델의 가중치를 최적화하는 것으로 보입니다.
최적화 알고리즘에 대한 추가 정보 는 http://ruder.io/optimizing-gradient-descent/index.html 을 제안 합니다.