태그 보관물: optimization

optimization

CNN이 사라지는 그라디언트 문제를 피하는 방법 있다는 것을 알고 있지만 CNN에서 어떻게 피할

나는 convoloutional 신경 네트워크에 대해 많은 것을 읽었으며 그들이 사라지는 기울기 문제를 어떻게 피하는지 궁금해하고있었습니다. 나는 딥 신념 네트워크가 단일 레벨 자동 인코더 또는 다른 사전 훈련 된 얕은 네트워크를 쌓아서이 문제를 피할 수 있다는 것을 알고 있지만 CNN에서 어떻게 피할 수 있는지 모르겠습니다.

Wikipedia 에 따르면 :

“위에서 언급 한”소멸 구배 문제 “에도 불구하고 GPU의 뛰어난 처리 능력으로 인해 많은 계층을 가진 딥 피드 포워드 신경망에서 일반 역 전파를 실현할 수 있습니다.”

GPU 처리로이 문제가 해결되는 이유를 모르겠습니다.



답변

소멸 구배 문제는 우리가 구배 하강과 함께 작은 학습 속도를 사용해야하며, 수렴하기 위해서는 많은 작은 단계가 필요합니다. 각 단계마다 시간이 오래 걸리는 느린 컴퓨터가있는 경우 문제가됩니다. 하루에 더 많은 단계를 수행 할 수있는 빠른 GPU가 있다면 이것은 문제가되지 않습니다.

소실 그라디언트 문제를 해결하는 방법에는 여러 가지가 있습니다. CNN의 가장 큰 효과는 S 자형 비선형 단위에서 정류 선형 단위로 전환 한 것입니다. 오차 가 가중치 w i j ~ y j 만 에 의존 하는 간단한 신경망을 고려한다면 , 여기서

E

wij

yj

yj=f(iwijxi),

그 그라디언트는

wijE=Eyjyjwij=Eyjf(iwijxi)xi.

만약 로지스틱 시그 모이 드 함수이고, F는 큰 입력뿐만 아니라 입력의 작고 0에 가까울 것이다. 경우 f는 정류 수단은 선형이며

f

f

f


유도체는 포지티브 입력에 대한 부정적인 입력 제로 1이다. 또 다른 중요한 기여는 가중치를 올바르게 초기화하는 것입니다. 이 문서는 문제를 더 자세히 이해하기위한 좋은 자료 인 것 같습니다 (아직 읽지는 않았지만).

f(u)=max(0,u),

http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf


답변