# 机器学习激活函数

Published Dec. 4, 2020, 8:43 p.m. by kkk

keras中，激活函数的应用用两种方式：通过构建激活函数层；初始化层时传递激活函数作为参数。

model.add(layers.Dense(64))
# or
model.add(layers.Dense(64, activation='relu'))

## ReLU

def relu(x):
return np.maximum(x, 0)

# tf
tf.nn.relu(x)
tf.keras.activations.relu(x)

## LeakyReLU

def leakyrelu(x, gamma):
return np.maximum(x, 0) + np.minimum(0, gamma * x)

# tf
tf.nn.leaky_relu(x, alpha=0.2)
tf.keras.activations.relu(x, alpha=0.2)

## ELU

def elu(x):
return np.maximum

# tf
tf.keras.activations.elu(x, alpha=1.0)

## SELU

• 输入特征需要标准化

• 隐藏层权重必须采用LeCun Initialization

• 网络架构必须是序列型，在非序列性网络（如RNN）中使用的话不能确保自正则化，也不会一定优于其它激活函数的训练效果
• 原论文只证明了所有隐藏层都是密集层（Dense）时，能够自正则化，其它类型的网络不确定

$$SELU = \cases{ scale * x & x>0\\ scale * alpha * (e^x - 1), & x <=0 }$$

def selu(x):
return np.maximum(x, 0) + np.minimum(0, scale * alpha * (np.exp(x)-1))

# tf
tf.nn.selu(x)
tf.keras.activations.selu(x)

# 层中
tf.keras.layers.Dense(64, kernel_initializer='lecun_normal', activation='selu')

## tanh

def tanh(x):
return np.tanh(x)

# tf
tf.nn.tanh(x)
tf.keras.activations.tanh(x)

## Sigmoid

• 导数易饱和，当输入过大或者过小时，导数都向0饱和，导致层数增加后，开始层的参数变化非常微小
• 平均值为0.5，而不是0

$$Sigmoid(x) = \frac{1}{1+e^{-x}}$$

def sigmoid(x):
return 1 / (1 + np.exp(-x))

# tf
tf.nn.sigmoid(x)
tf.keras.activations.sigmiod(x)

## Softmax

# 输入为2阶张量
def sigmoid(x):
fra = np.exp(x)
div = np.sum(fra, axis=1)
return fra / div

# tf
tf.nn.softmax(x)
tf.keras.activations.softmax(x)

## Softplus

def softplus(x):
return np.log(1+np.exp(x))

# tf
tf.nn.softmax(x)
tf.keras.activations.softmax(x)

## Softsign

def softsign(x):
return x / (np.abs(x) + 1)

# tf
tf.nn.softsign(x)
tf.keras.activations.softsign(x)

## Swish

def swish(x, beta):
sig = 1 / (1 + np.exp(-beta * x))
return x * sig

# tf
# 都是默认beta=1，且不提供beta的参数调节
tf.nn.swish(x)
tf.keras.activations.swish(x)

