태그 보관물: rule-of-thumb

rule-of-thumb

학습 속도와 숨겨진 레이어 수의 관계? 학습률 사이에 경험의 규칙이 있습니까? 네트워크가 깊을수록

신경망의 깊이와 학습률 사이에 경험의 규칙이 있습니까? 네트워크가 깊을수록 학습률이 낮아야한다는 것을 알았습니다.

맞다면 왜 그럴까요?



답변

이 질문에 대한 답이 여기 있습니다 :

신경망에서 학습률이 숨겨진 계층 크기에 비례해야합니까? 그들은 서로 영향을 미쳐야 하는가?

짧은 대답은 그렇습니다. 관계가 있습니다. 비록 관계가이 사소한 것은 아니지만, 숨겨진 층의 수가 증가함에 따라 최적화 표면이 더 복잡해 지므로 학습률이 일반적으로 더 우수하다는 것을 알 수 있습니다. 학습률이 낮 으면 로컬 최소 점을 고수하는 것이 가능하지만 복잡한 표면 및 높은 학습률보다 훨씬 낫습니다.


답변