① 优点:? 是为解决“ReLU死亡”问题的尝试,在计算导数时允许较小的梯度;
? 非饱和的公式 , 不包含指数运算,计算速度快 。
② 缺点:? 无法避免梯度爆炸问题; (没有体现优于ReLU)
? 神经网络不学习 α 值 。
(7)指数线性单元 ELU (Exponential Linear Units)
① 优点:? 能避免“死亡 ReLU” 问题;
? 能得到负值输出,这能帮助网络向正确的方向推动权重和偏置变化;
? 在计算梯度时能得到激活,而不是让它们等于 0 。
② 缺点:? 由于包含指数运算,所以计算时间更长;
? 无法避免梯度爆炸问题; (没有体现优于ReLU)
? 神经网络不学习 α 值 。
(8)Maxout(对 ReLU 和 Leaky ReLU的一般化归纳)
① 优点:? 拥有ReLU的所有优点(线性和不饱和)
? 没有ReLU的缺点(死亡的ReLU单元)
? 可以拟合任意凸函数
② 缺点 :参数数量增加了一倍 。难训练,容易过拟合
(9)Swish
① 优点:? 在负半轴也有一定的不饱和区 , 参数的利用率更大
? 无上界有下界、平滑、非单调
? 在深层模型上的效果优于 ReLU
每个层都包含一定数量的单元(units) 。增加层可增加神经网络输出的非线性 。
(1)输入层:就是接收原始数据,然后往隐层送
(2)输出层:神经网络的决策输出
(3)隐藏层:神经网络的关键 。把前一层的向量变成新的向量,让数据变得线性可分 。
(1)结构:仅包含输入层和输出层 , 直接相连 。
(2)作用:仅能表示 线性可分 函数或决策,且一定可以在有限的迭代次数中收敛 。
(3)局限:可以建立与门、或门、非门等,但无法建立更为复杂的异或门(XOR),即两个输入相同时输出1,否则输出0 。(“AI winter”)
(1)目的:拟合某个函数(两层神经网络可以逼近任意连续函数)
(2)结构:包含输入层、隐藏层和输出层,由于从输入到输出的过程中不存在与模型自身的反馈连接 , 因此被称为“前馈” 。(层与层之间全连接)
(3)作用: 非线性 分类、聚类、预测等,通过训练,可以学习到数据中隐含的知识 。
(4)局限:计算复杂、计算速度慢、容易陷入局部最优解,通常要将它们与其他网络结合形成新的网络 。
(5)前向传播算法(Forward Propagation)
① 方法:从左至右逐级依赖的算法模型,即网络如何根据输入X得到输出Y,最终的输出值和样本值作比较 , 计算出误差。
② 目的:完成了一次正反向传播,就完成了一次神经网络的训练迭代 。通过输出层的误差,快速求解对每个ω、b的偏导 , 利用梯度下降法,使Loss越来越小 。
② 局限:为使最终的误差达到最?。欢闲薷牟问?,但神经网络的每条连接线上都有不同权重参数,修改这些参数变得棘手 。
(6)误差反向传播(Back Propagation)
① 原理:梯度下降法求局部极值
② 方法:从后往前,从输出层开始计算 L 对当前层的微分,获得各层的误差信号,此误差信号即作为修正单元权值的依据 。计算结束以后,所要的两个参数矩阵的 梯度 就都有了 。
③ 局限:如果激活函数是饱和的,带来的缺陷就是系统迭代更新变慢,系统收敛就慢,当然这是可以有办法弥补的,一种方法是使用 交叉熵函数 作为损失函数 。
(1)原理:随着网络的层数增加 , 每一层对于前一层次的抽象表示更深入 。在神经网络中,每一层神经元学习到的是前一层神经元值的更抽象的表示 。通过抽取更抽象的特征来对事物进行区分,从而获得更好的区分与分类能力 。
推荐阅读
- 主播怎么在直播间发表情包,主播怎么在直播间发表情包呢
- jquery右侧导航,js导航栏左右滑动
- flutterweb相互调用,flutter和webview交互
- postgreSQL判断表为空,plsql判断是否为空
- php表单匹配数据库 php表单显示数据库内容
- 幼师如何利用微信视频号,幼师视频号名字怎么取好听
- postgresql比较大小写,plsql大小写
- linux命令改密码,linux 改密码 命令
- c语言库函数编写方法 c语言库函数实现