태그 보관물: gradient-descent

gradient-descent

CNN이 사라지는 그라디언트 문제를 피하는 방법 있다는 것을 알고 있지만 CNN에서 어떻게 피할

나는 convoloutional 신경 네트워크에 대해 많은 것을 읽었으며 그들이 사라지는 기울기 문제를 어떻게 피하는지 궁금해하고있었습니다. 나는 딥 신념 네트워크가 단일 레벨 자동 인코더 또는 다른 사전 훈련 된 얕은 네트워크를 쌓아서이 문제를 피할 수 있다는 것을 알고 있지만 CNN에서 어떻게 피할 수 있는지 모르겠습니다.

Wikipedia 에 따르면 :

“위에서 언급 한”소멸 구배 문제 “에도 불구하고 GPU의 뛰어난 처리 능력으로 인해 많은 계층을 가진 딥 피드 포워드 신경망에서 일반 역 전파를 실현할 수 있습니다.”

GPU 처리로이 문제가 해결되는 이유를 모르겠습니다.



답변

소멸 구배 문제는 우리가 구배 하강과 함께 작은 학습 속도를 사용해야하며, 수렴하기 위해서는 많은 작은 단계가 필요합니다. 각 단계마다 시간이 오래 걸리는 느린 컴퓨터가있는 경우 문제가됩니다. 하루에 더 많은 단계를 수행 할 수있는 빠른 GPU가 있다면 이것은 문제가되지 않습니다.

소실 그라디언트 문제를 해결하는 방법에는 여러 가지가 있습니다. CNN의 가장 큰 효과는 S 자형 비선형 단위에서 정류 선형 단위로 전환 한 것입니다. 오차 가 가중치 w i j ~ y j 만 에 의존 하는 간단한 신경망을 고려한다면 , 여기서

E

wij

yj

yj=f(iwijxi),

그 그라디언트는

wijE=Eyjyjwij=Eyjf(iwijxi)xi.

만약 로지스틱 시그 모이 드 함수이고, F는 큰 입력뿐만 아니라 입력의 작고 0에 가까울 것이다. 경우 f는 정류 수단은 선형이며

f

f

f


유도체는 포지티브 입력에 대한 부정적인 입력 제로 1이다. 또 다른 중요한 기여는 가중치를 올바르게 초기화하는 것입니다. 이 문서는 문제를 더 자세히 이해하기위한 좋은 자료 인 것 같습니다 (아직 읽지는 않았지만).

f(u)=max(0,u),

http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf


답변