NN에서 숨겨진 레이어 활성화 기능의 선택은 사용자의 필요 에 따라 달라져야한다는 것을 다른 곳에서 읽었습니다 .
내 질문은 필요한 것이 무엇인지 어떻게 알 수 있습니까? 입력 레이어의 범위를 기준으로합니까? 예를 들어 입력 레이어의 전체 값 범위를 포괄 할 수있는 함수를 사용하거나 입력 레이어의 분포를 반영하는 기능을 사용합니까 (가우스 함수)? 또는 필요한 문제 / 도메인과 관련이 있으며이 선택을하려면 경험 / 판단이 필요합니까? 또는 단순히 “가장 교차 검증 된 최소 훈련 오류를 제공하는 것”입니까?
답변
LeCun은 효율적인 Backprop 섹션 4.4 에서 이에 대해 설명합니다 . 동기는 입력을 0 평균으로 정규화하기위한 동기와 유사합니다 (섹션 4.3). 탄화 활성화 함수의 평균 출력은 평균 출력이 양수 여야하는 시그 모이 드보다 제로에 가깝습니다.
답변
질문의 첫 번째 단락에서 언급 할 필요 는 숨겨진 계층 활성화 기능이 아니라 출력 계층 활성화 기능과 관련이 있습니다. 0에서 1까지의 출력 범위를 갖는 것이 편리하므로 직접 확률을 나타낼 수 있습니다. 그러나 tanh 출력 레이어 활성화 기능이있는 네트워크 IIRC는 로지스틱 출력 레이어 활성화 기능이있는 네트워크로 간단하게 변환 할 수 있으므로 실제로는 그다지 중요하지 않습니다.
IIRC 숨겨진 단위로 로지스틱 활성화 기능보다는 tanh를 사용하는 이유는 역 전파를 사용하여 가중치를 변경하면 숨겨진 레이어 뉴런의 출력과 활성화 함수의 파생물에 따라 달라집니다. 함수를 사용하면 동시에 0으로 설정할 수 있으며 숨겨진 레이어 단위가 정지 될 수 있습니다.
요컨대, 숨겨진 레이어 활성화 기능에 tanh를 사용하고 출력에 원하는 제약 조건을 적용하기 위해 출력 레이어 활성화 기능을 선택했습니다 (일반적인 선택 : 선형-제약 없음, 물류-출력은 0과 1 사이이며 지수-출력은 엄격하게 양수 임).
답변
사용할 수 있습니다
1.7159×탄(엑스×(2/삼))숨겨진 레이어에. 이 시그 모이 드는 2 차 도함수의 최대 값을 갖는다
−1과
+1점근 적 한계는
[−1.5,+1.5]. 이렇게하면 의사 결정 경계 근처의 지점에서 네트워크가 더 정확 해집니다.
목적으로 시그 모이 드를 선택하는 일반적인 개념은 규칙에 따라 하나를 선택하는 것입니다. 출력 값은 포인트 범위 내에 있으며, 시그 모이 드 함수의 2 차 미분을 최대로 만듭니다.