탄화 활성화 기능 대 시그 모이 드 활성화 기능 tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right)

tanh 활성화 기능은 다음과 같습니다.

t a n h (x) = 2 \cdot σ (2 x) - 1

여기서 , 시그 모이 드 함수로서 정의된다 : . $σ (x)$

σ(x)

σ (x) = e x 1 + e x

질문 :

이 두 가지 활성화 기능 (tanh vs. sigma)을 사용하는 것이 정말 중요합니까?
어떤 경우에 어떤 기능이 더 좋습니까?

답변

예, 기술적 인 이유로 중요합니다. 기본적으로 최적화를 위해. LeCun 등의 Efficient Backprop 를 읽을 가치가 있습니다.

선택의 두 가지 이유가 있습니다 (데이터를 정규화했다고 가정하면 매우 중요합니다).

더 강한 그라디언트 : 데이터가 0을 중심으로하기 때문에 미분 값이 더 높습니다. 이를 확인하려면 tanh 함수의 미분을 계산하고 해당 범위 (출력 값)가 [0,1]인지 확인하십시오.

tanh 함수의 범위는 [-1,1]이고 sigmoid 함수의 범위는 [0,1]입니다.

그라디언트의 편견을 피하십시오. 이것은 논문에서 잘 설명되어 있으며 이러한 문제를 이해하기 위해 그것을 읽을 가치가 있습니다.

답변

많은 @jpmuc 감사합니다! 귀하의 답변에서 영감을 얻어, 나는 tanh 함수와 표준 시그 모이 드 함수의 미분을 별도로 계산하고 플로팅했습니다. 여러분과 공유하고 싶습니다. 여기 내가 가진 것입니다. 이것은 tanh 함수의 미분입니다. [-1,1] 사이의 입력에 대해서는 [0.42, 1] 사이의 미분이 있습니다.

이것은 표준 시그 모이 드 함수 f (x) = 1 / (1 + exp (-x))의 미분입니다. [0,1] 사이의 입력에 대해 [0.20, 0.25] 사이의 도함수를 갖습니다.

분명히 tanh 함수는 더 강한 그라디언트를 제공합니다.

How IT

언제든지 물어보세요.

탄화 활성화 기능 대 시그 모이 드 활성화 기능 tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right)

답변

답변

답변