Powered by GitBook

Why NON-LINEAR Activation functions in Hidden Layer

Activate Function		Scope	Formular
ReLU	Most popular in hidden layer of NN	[0,+∞]	Max(0,z)	比Tanh & Sigmod快得多,bez ReLU 没有斜率接近0时减慢学习速度；
Leaky ReLU	Hidden Layer		Max(0.01z,z)
Tanh	Hidden Layer	[-1,1]		相当于sigmod下移
Sigmoid	useless or output layer	(0,1)		最多仅用于输出层

noted: Tanh = $(e^{z} - e^{-z})/(e^{z} + e^{-z})$

AndrewNG 在3.7 lesson ,解释了为什么要NON-LINEAR activate function

如果在深层网络中，在hidden layer一直用线性激活函数，那跟没有hidden layer 效果一样，因为多个linear function整合起来是一个线性函数是一样的效果,除了一些有关压缩的极少情况。所以一般大多都用non-linear function in Hidden layer .

隐藏层多数用非线性activate function,这样才会收敛

results matching ""

No results matching ""