태그 보관물: gradient-descent

gradient-descent

신경망에서 왜 다른 메타 휴리스틱보다 그라데이션 방법을 사용합니까? 메타 휴리스틱 스와 달리 그래디언트 방법 (예

깊고 얕은 신경망을 훈련 할 때 왜 다른 메타 휴리스틱 스와 달리 그래디언트 방법 (예 : 그래디언트 디센트, 네 스테 로프, 뉴턴-라프 슨)이 일반적으로 사용됩니까?

메타 휴리스틱 스 (metaheuristics) 란 로컬 소소한 상황에 빠지지 않도록 개발 된 시뮬레이션 어닐링, 개미 식민지 최적화 등과 같은 방법을 의미합니다.



답변

@Dikran Marsupial의 답변 연장 ….

NYU의 Yan LeCunn 그룹의 Anna Choromanska와 그녀의 동료들은 2014 AISTATS 논문 “다층 망의 손실 표면” 에서이를 다루고 있습니다. 랜덤 매트릭스 이론과 일부 실험을 사용하여 다음과 같이 주장합니다.

  • 대규모 네트워크의 경우 대부분의 로컬 최소값은 동일하며 테스트 세트에서 유사한 성능을 제공합니다.

  • 소규모 네트워크의 경우 “나쁜”(높은 값) 로컬 최소값을 찾을 확률은 0이 아니며 네트워크 크기에 따라 빠르게 줄어 듭니다.

  • 훈련 세트에서 전체 최소값을 찾는 데 어려움을 겪는 것은 (많은 좋은 현지 훈련 중 하나와 달리) 실제로 유용하지 않으며 과적 합으로 이어질 수 있습니다.

[논문의 2 페이지부터]

이 관점에서 세계 최소값을 찾기 위해 헤비급 접근 방식을 배치해야 할 이유가 없습니다. 새로운 네트워크 토폴로지, 기능, 데이터 세트 등을 시험해 보는 데 더 나은 시간이 소요될 것입니다.

즉, 많은 사람들이 SGD를 보강하거나 대체하는 것에 대해 생각했습니다. 상당히 현대적인 표준에 의해 상당히 작은 네트워크의 경우, 이러한 개선 된 metahuristics는 Mavrovouniotis와 Yang (2016) 이 개미 식민지 최적화 + 백프로 프 가 여러 벤치 마크 데이터 세트에서 수정되지 않은 백프로 프를 능가 한다는 것을 보여줍니다 (많은 아니지만). Rere el al. (2015) 는 CNN을 훈련시키기 위해 시뮬레이션 어닐링을 사용하고 초기에 검증 세트에서 성능이 더 우수하다는 것을 발견했습니다. 그러나 10 에포크 이후에도 성능의 매우 작은 (및 테스트되지 않은) 차이는 남아 있습니다. 에포크 당 더 빠른 수렴 시간은 또한 에포크 당 상당히 많은 양의 계산 시간에 의해 상쇄되므로, 이는 시뮬레이트 어닐링에 대한 명백한 승리가 아닙니다.

이러한 휴리스틱이 네트워크를 초기화하는 데 더 나은 작업을 수행 할 수 있으며 올바른 경로로 지정되면 모든 최적화 프로그램이 수행합니다. Sutskever et al. Geoff Hinton 그룹의 (2013)은 2013 ICML 논문 에서 이와 같은 주장을하고있다 .


답변

국소 최소값은 종종 제안되는 것처럼 신경망에 큰 문제는 아닙니다. 로컬 최소값 중 일부는 네트워크의 대칭으로 인한 것입니다 (즉, 숨겨진 뉴런을 퍼 뮤트하고 기능을 떠날 수 있음)변경되지 않은 네트워크. 필요한 것은 글로벌 최소값보다 좋은 로컬 최소값을 찾는 것입니다. 신경망과 같이 매우 유연한 모델을 적극적으로 최적화하면 데이터를 과적 합하는 방법이 될 수 있으므로 시뮬레이션 어닐링을 사용하여 훈련 기준의 글로벌 최소값을 찾는 것은 신경망을 악화시키는 경향이 있습니다. 지역 하강으로 끝나는 경사 하강에 의해 훈련 된 것보다 일반화 성능. 이러한 휴리스틱 최적화 방법을 사용하는 경우 정규화 항을 포함시켜 모델의 복잡성을 제한하는 것이 좋습니다.

… 또는 대안으로 예를 들어 커널 방법 또는 방사형 기저 함수 모델을 사용하면 문제가 덜 발생할 수 있습니다.


답변