신경망의 맥락에서 학습률과 체중 감량의 차이는 무엇입니까?
답변
학습 속도는 업데이트 단계가 가중치의 현재 값에 미치는 영향을 결정하는 매개 변수입니다. 가중치 감소는 가중치 업데이트 규칙에서 추가 용어로, 다른 업데이트가 예약되지 않은 경우 가중치가 지수 적으로 0으로 감소합니다.
따라서 우리가 최소화하려는 비용 또는 오류 함수 있다고 가정 해 봅시다. 그라디언트 디센트는 E 에서 가장 가파른 디센트 방향으로 가중치 w 를 수정하라고 알려줍니다 :
w i ← w i − η ∂ E
w
E
η
wi
과적 합을 피하기 위해 모델의 자유 매개 변수 수를 효과적으로 제한하기 위해 비용 함수를 정규화 할 수 있습니다. 이를 수행하는 쉬운 방법은 가중치보다 0 평균 가우시안을 도입하는 것입니다. 이는 비용 함수를 로 변경하는 것과 같습니다.
E~(w)=E(w)+λ2w2λ
E
−ηλwi
답변
@ mrig ‘s answer (+1) 외에도 많은 신경망을 실제로 적용하려면 Levenberg-Marquardt (소형 네트워크) 또는 Scaled 켤레 그라데이션 하강 (중형)과 같은 고급 최적화 알고리즘을 사용하는 것이 좋습니다 네트워크가 더 빠르기 때문에 학습 속도를 설정할 필요가 없습니다 (두 알고리즘 모두 기본적으로 곡률과 경사도를 사용하여 학습 속도를 조정합니다). 괜찮은 신경망 패키지 또는 라이브러리는 이러한 메소드 중 하나를 구현할 것입니다. 아마도 사용되지 않는 패키지 일 것입니다. MATLAB 용 NETLAB 라이브러리를 사용하는데, 이는 훌륭한 키트입니다.
답변
나는 간단한 용어 :
learning_rate : 신경망 모델이 문제를 얼마나 빨리 또는 느리게 학습 하는지 제어합니다.
심판 : https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/
wight_decay : 과적 합 을 피하기 위해 사용되는 정규화 기술입니다.
심판 : https://metacademy.org/graphs/concepts/weight_decay_neural_networks