Why NON-LINEAR Activation functions in Hidden Layer

Activate Function Scope Formular
ReLU Most popular in hidden layer of NN [0,+∞] Max(0,z) 比Tanh & Sigmod快得多,bez ReLU 没有斜率接近0时减慢学习速度;
Leaky ReLU Hidden Layer Max(0.01z,z)
Tanh Hidden Layer [-1,1] 相当于sigmod下移
Sigmoid useless or output layer (0,1) 最多仅用于输出层
noted: Tanh = (ezez)/(ez+ez)(e^{z} - e^{-z})/(e^{z} + e^{-z})

AndrewNG 在3.7 lesson ,解释了为什么要NON-LINEAR activate function

如果在深层网络中,在hidden layer一直用线性激活函数,那跟没有hidden layer 效果一样,因为多个linear function整合起来是一个线性函数是一样的效果,除了一些有关压缩的极少情况。所以一般大多都用non-linear function in Hidden layer .

隐藏层多数用非线性activate function,这样才会收敛

results matching ""

    No results matching ""