机器学习|【进阶版】机器学习之神经网络与深度学习基本知识和理论原理（07）神经网络|激活函数|深度学习

- 欢迎订阅本专栏，持续更新中~
- - 本专栏前期文章介绍！
  - 机器学习配套资源推送
  - 进阶版机器学习文章更新~
  - 点击下方下载高清版学习知识图册
  - 神经网络
  - - 神经元模型
    - 感知机与多层网络
    - BP神经网络算法
    - 全局最小与局部最小
    - 深度学习
  - 神经网络具有非线性切分能力
  - 随机初始化模型参数
  - 激活函数
  - 为什么使用激活函数?
  - 激活函数有哪些性质？
  - 正向传播与反向传播(BP)
  - 随机梯度下降法(SGD)
  - - mini-batch梯度下降
  - 调节 Batch_Size 对训练效果影响到底如何？
  - 神经网络是端到端的网络
  - softmax分类器
  - - 什么是softmax
    - softmax的计算
    - 交叉熵损失函数

欢迎订阅本专栏，持续更新中~ 【机器学习|【进阶版】机器学习之神经网络与深度学习基本知识和理论原理（07）】本专栏包含大量代码项目，适用于毕业设计方向选取和实现、科研项目代码指导，每一篇文章都是通过原理讲解+代码实战进行思路构建的，如果有需要这方面的指导可以私信博主，获取相关资源及指导！
本专栏前期文章介绍！
机器学习算法知识、数据预处理、特征工程、模型评估——原理+案例+代码实战
机器学习之Python开源教程——专栏介绍及理论知识概述
机器学习框架及评估指标详解
Python监督学习之分类算法的概述
数据预处理之数据清理，数据集成，数据规约，数据变化和离散化
特征工程之One-Hot编码、label-encoding、自定义编码
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
特征选取之单变量统计、基于模型选择、迭代选择
机器学习八大经典分类万能算法——代码+案例项目开源、可直接应用于毕设+科研项目
机器学习分类算法之朴素贝叶斯
【万字详解·附代码】机器学习分类算法之K近邻（KNN）
《全网最强》详解机器学习分类算法之决策树（附可视化和代码）
机器学习分类算法之支持向量机
机器学习分类算法之Logistic 回归（逻辑回归）
机器学习分类算法之随机森林（集成学习算法）
机器学习分类算法之XGBoost（集成学习算法）
机器学习分类算法之LightGBM（梯度提升框架）
机器学习自然语言、推荐算法等领域知识——代码案例开源、可直接应用于毕设+科研项目
【原理+代码】Python实现Topsis分析法（优劣解距离法）
机器学习推荐算法之关联规则（Apriori）——支持度；置信度；提升度
机器学习推荐算法之关联规则Apriori与FP-Growth算法详解
机器学习推荐算法之协同过滤（基于用户）【案例+代码】
机器学习推荐算法之协同过滤（基于物品）【案例+代码】
预测模型构建利器——基于logistic的列线图（R语言）
基于surprise模块快速搭建旅游产品推荐系统（代码+原理）
机器学习自然语言处理之英文NLTK（代码+原理）
机器学习之自然语言处理——中文分词jieba库详解（代码+原理）
机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵（代码+原理）
机器学习配套资源推送
专栏配套资源推荐——部分展示（有需要可去对应文章或者评论区查看，可做毕设、科研参考资料）
自然语言处理之文本分类及文本情感分析资源大全（含代码及其数据，可用于毕设参考！）
基于Word2Vec构建多种主题分类模型（贝叶斯、KNN、随机森林、决策树、支持向量机、SGD、逻辑回归、XGBoost…）
基于Word2Vec向量化的新闻分本分类.ipynb
智能词云算法（一键化展示不同类型的词云图）运行生成HTML文件
协同过滤推荐系统资源（基于用户-物品-Surprise）等案例操作代码及讲解
Python机器学习关联规则资源（apriori算法、fpgrowth算法）原理讲解
机器学习-推荐系统（基于用户）.ipynb
机器学习-推荐系统（基于物品）.ipynb
旅游消费数据集——包含用户id，用户评分、产品类别、产品名称等指标，可以作为推荐系统的数据集案例
进阶版机器学习文章更新~
【进阶版】机器学习之基本术语及模评估与选择概念总结（01）
【进阶版】机器学习之模型性能度量及比较检验和偏差与方差总结（02）
【进阶版】机器学习之特征工程介绍及优化方法引入（03）
【进阶版】机器学习之特征降维、超参数调优及检验方法（04）
【进阶版】机器学习之线性模型介绍及过拟合欠拟合解决方法岭回归、loss回归、elasticnet回归（05）
【进阶版】机器学习之决策树知识与易错点总结（06）
前期我们对机器学习的基础知识，从基础的概念到实用的代码实战演练，并且系统的了解了机器学习在分类算法上面的应用，同时也对机器学习的准备知识有了一个相当大的了解度，而且还拓展了一系列知识，如推荐算法、文本处理、图像处理。以及交叉学科的应用，那么前期你如果认真的了解了这些知识，并加以利用和实现，相信你已经对机器学习有了一个“量”的认识，接下来的，我将带你继续学习机器学习学习，并且全方位，系统性的了解和深入机器学习领域，达到一个“质”的变化。
点击下方下载高清版学习知识图册
机器学习Python算法知识点大全，包含sklearn中的机器学习模型和Python预处理的pandas和numpy知识点

文章图片

神经网络
在机器学习中，神经网络一般指的是“神经网络学习”，是机器学习与神经网络两个学科的交叉部分。所谓神经网络，目前用得最广泛的一个定义是“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”。
神经元模型神经网络中最基本的单元是神经元模型（neuron）。在生物神经网络的原始机制中，每个神经元通常都有多个树突（dendrite），一个轴突（axon）和一个细胞体（cell body），树突短而多分支，轴突长而只有一个；在功能上，树突用于传入其它神经元传递的神经冲动，而轴突用于将神经冲动传出到其它神经元，当树突或细胞体传入的神经冲动使得神经元兴奋时，该神经元就会通过轴突向其它神经元传递兴奋。神经元的生物学结构如下图所示，不得不说高中的生化知识大学忘得可是真干净…

文章图片

一直沿用至今的==“M-P神经元模型”正是对这一结构进行了抽象，也称“阈值逻辑单元“，其中树突对应于输入部分，每个神经元收到n个其他神经元传递过来的输入信号，这些信号通过带权重的连接传递给细胞体，这些权重又称为连接权==（connection weight）。细胞体分为两部分，前一部分计算总输入值（即输入信号的加权和，或者说累积电平），后一部分先计算总输入值与该神经元阈值的差值，然后通过激活函数（activation function）的处理，产生输出从轴突传送给其它神经元。M-P神经元模型如下图所示：

文章图片

与线性分类十分相似，神经元模型最理想的激活函数也是阶跃函数，即将神经元输入值与阈值的差值映射为输出值1或0，若差值大于零输出1，对应兴奋；若差值小于零则输出0，对应抑制。
但阶跃函数不连续，不光滑，故在M-P神经元模型中，也采用Sigmoid函数来近似， Sigmoid函数将较大范围内变化的输入值挤压到 (0,1) 输出值范围内，所以也称为挤压函数（squashing function）。

文章图片

将多个神经元按一定的层次结构连接起来，就得到了神经网络。它是一种包含多个参数的模型，比方说10个神经元两两连接，则有100个参数需要学习（每个神经元有9个连接权以及1个阈值），若将每个神经元都看作一个函数，则整个神经网络就是由这些函数相互嵌套而成。
感知机与多层网络感知机（Perceptron）是由两层神经元组成的一个简单模型，但只有输出层是M-P神经元，即只有输出层神经元进行激活函数处理，也称为功能神经元（functional neuron）；输入层只是接受外界信号（样本属性）并传递给输出层（输入层的神经元个数等于样本的属性数目），而没有激活函数。这样一来，感知机与之前线性模型中的对数几率回归的思想基本是一样的，都是通过对属性加权与另一个常数求和，再使用sigmoid函数将这个输出值压缩到0-1之间，从而解决分类问题。
不同的是感知机的输出层应该可以有多个神经元，从而可以实现多分类问题，同时两个模型所用的参数估计方法十分不同。
给定训练集，则感知机的n+1个参数（n个权重+1个阈值）都可以通过学习得到。阈值Θ可以看作一个输入值固定为-1的哑结点的权重ωn+1，即假设有一个固定输入xn+1=-1的输入层神经元，其对应的权重为ωn+1，这样就把权重和阈值统一为权重的学习了。简单感知机的结构如下图所示：

文章图片

感知机权重的学习规则如下：对于训练样本（x，y），当该样本进入感知机学习后，会产生一个输出值，若该输出值与样本的真实标记不一致，则感知机会对权重进行调整，若激活函数为阶跃函数，则调整的方法为（基于梯度下降法）：

文章图片

其中 η∈（0，1）称为学习率，可以看出感知机是通过逐个样本输入来更新权重，首先设定好初始权重（一般为随机），逐个地输入样本数据，若输出值与真实标记相同则继续输入下一个样本，若不一致则更新权重，然后再重新逐个检验，直到每个样本数据的输出值都与真实标记相同。
容易看出：感知机模型总是能将训练数据的每一个样本都预测正确，和决策树模型总是能将所有训练数据都分开一样，感知机模型很容易产生过拟合问题。
由于感知机模型只有一层功能神经元，因此其功能十分有限，只能处理线性可分的问题，对于这类问题，感知机的学习过程一定会收敛（converge），因此总是可以求出适当的权值。但是对于像书上提到的异或问题，只通过一层功能神经元往往不能解决，因此要解决非线性可分问题，需要考虑使用多层功能神经元，即神经网络。多层神经网络的拓扑结构如下图所示：

文章图片

在神经网络中，输入层与输出层之间的层称为隐含层或隐层（hidden layer），隐层和输出层的神经元都是具有激活函数的功能神经元。只需包含一个隐层便可以称为多层神经网络，常用的神经网络称为“多层前馈神经网络”（multi-layer feedforward neural network），该结构满足以下几个特点：

* 每层神经元与下一层神经元之间完全互连 * 神经元之间不存在同层连接 * 神经元之间不存在跨层连接

文章图片

根据上面的特点可以得知：这里的“前馈”指的是网络拓扑结构中不存在环或回路，而不是指该网络只能向前传播而不能向后传播。神经网络的学习过程就是根据训练数据来调整神经元之间的“连接权”以及每个神经元的阈值，换句话说：神经网络所学习到的东西都蕴含在网络的连接权与阈值中。
BP神经网络算法由上面可以得知：神经网络的学习主要蕴含在权重和阈值中，多层网络使用上面简单感知机的权重调整规则显然不够用了，BP神经网络算法即误差逆传播算法（error BackPropagation）正是为学习多层前馈神经网络而设计，BP神经网络算法是迄今为止最成功的的神经网络学习算法。
一般而言，只需包含一个足够多神经元的隐层，就能以任意精度逼近任意复杂度的连续函数[Hornik et al.,1989]，故下面以训练单隐层的前馈神经网络为例，介绍BP神经网络的算法思想。

文章图片

上图为一个单隐层前馈神经网络的拓扑结构，BP神经网络算法也使用梯度下降法（gradient descent），以单个样本的均方误差的负梯度方向对权重进行调节。
可以看出：BP算法首先将误差反向传播给隐层神经元，调节隐层到输出层的连接权重与输出层神经元的阈值；接着根据隐含层神经元的均方误差，来调节输入层到隐含层的连接权值与隐含层神经元的阈值。BP算法基本的推导过程与感知机的推导过程原理是相同的，下面给出调整隐含层到输出层的权重调整规则的推导过程：

文章图片

学习率η∈（0，1）控制着沿反梯度方向下降的步长，若步长太大则下降太快容易产生震荡，若步长太小则收敛速度太慢，一般地常把η设置为0.1，有时更新权重时会将输出层与隐含层设置为不同的学习率。BP算法的基本流程如下所示：

文章图片

BP算法的更新规则是基于每个样本的预测值与真实类标的均方误差来进行权值调节，即BP算法每次更新只针对于单个样例。需要注意的是：BP算法的最终目标是要最小化整个训练集D上的累积误差，即：

文章图片

如果基于累积误差最小化的更新规则，则得到了累积误差逆传播算法（accumulated error backpropagation），即每次读取全部的数据集一遍，进行一轮学习，从而基于当前的累积误差进行权值调整，因此参数更新的频率相比标准BP算法低了很多，但在很多任务中，尤其是在数据量很大的时候，==往往标准BP算法会获得较好的结果。==另外对于如何设置隐层神经元个数的问题，至今仍然没有好的解决方案，常使用“试错法”进行调整。
前面提到，BP神经网络强大的学习能力常常容易造成过拟合问题，有以下两种策略来缓解BP网络的过拟合问题：

早停：将数据分为训练集与测试集，训练集用于学习，测试集用于评估性能，若在训练过程中，训练集的累积误差降低，而测试集的累积误差升高，则停止训练。
引入正则化（regularization）：基本思想是在累积误差函数中增加一个用于描述网络复杂度的部分，例如所有权值与阈值的平方和，其中λ∈（0,1）用于对累积经验误差与网络复杂度这两项进行折中，常通过交叉验证法来估计。

文章图片

全局最小与局部最小模型学习的过程实质上就是一个寻找最优参数的过程，例如BP算法试图通过最速下降来寻找使得累积经验误差最小的权值与阈值，在谈到最优时，一般会提到局部极小（local minimum）和全局最小（global minimum）。

* 局部极小解：参数空间中的某个点，其邻域点的误差函数值均不小于该点的误差函数值。 * 全局最小解：参数空间中的某个点，所有其他点的误差函数值均不小于该点的误差函数值。

文章图片

要成为局部极小点，只要满足该点在参数空间中的梯度为零。局部极小可以有多个，而全局最小只有一个。全局最小一定是局部极小，但局部最小却不一定是全局最小。
显然在很多机器学习算法中，都试图找到目标函数的全局最小。梯度下降法的主要思想就是沿着负梯度方向去搜索最优解，负梯度方向是函数值下降最快的方向，若迭代到某处的梯度为0，则表示达到一个局部最小，参数更新停止。因此在现实任务中，通常使用以下策略尽可能地去接近全局最小。

* 以多组不同参数值初始化多个神经网络，按标准方法训练，迭代停止后，取其中误差最小的解作为最终参数。 * 使用“模拟退火”技术，这里不做具体介绍。 * 使用随机梯度下降，即在计算梯度时加入了随机因素，使得在局部最小时，计算的梯度仍可能不为0，从而迭代可以继续进行。

深度学习理论上，参数越多，模型复杂度就越高，容量（capability）就越大，从而能完成更复杂的学习任务。深度学习（deep learning）正是一种极其复杂而强大的模型。
怎么增大模型复杂度呢？两个办法，一是增加隐层的数目，二是增加隐层神经元的数目。前者更有效一些，因为它不仅增加了功能神经元的数量，还增加了激活函数嵌套的层数。但是对于多隐层神经网络，经典算法如标准BP算法往往会在误差逆传播时发散（diverge），无法收敛达到稳定状态。
那要怎么有效地训练多隐层神经网络呢？一般来说有以下两种方法：

无监督逐层训练（unsupervised layer-wise training）：每次训练一层隐节点，把上一层隐节点的输出当作输入来训练，本层隐结点训练好后，输出再作为下一层的输入来训练，这称为预训练（pre-training）。全部预训练完成后，再对整个网络进行微调（fine-tuning）训练。一个典型例子就是深度信念网络（deep belief network，简称DBN）。这种做法其实可以视为把大量的参数进行分组，先找出每组较好的设置，再基于这些局部最优的结果来训练全局最优。
权共享（weight sharing）：令同一层神经元使用完全相同的连接权，典型的例子是卷积神经网络（Convolutional Neural Network，简称CNN）。这样做可以大大减少需要训练的参数数目。

文章图片

深度学习可以理解为一种特征学习（feature learning）或者表示学习（representation learning），无论是DBN还是CNN，都是通过多个隐层来把与输出目标联系不大的初始输入转化为与输出目标更加密切的表示，使原来只通过单层映射难以完成的任务变为可能。即通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示，从而使得最后可以用简单的模型来完成复杂的学习任务。
传统任务中，样本的特征需要人类专家来设计，这称为特征工程（feature engineering）。特征好坏对泛化性能有至关重要的影响。而深度学习为全自动数据分析带来了可能，可以自动产生更好的特征。
神经网络具有非线性切分能力
假设对下图进行分类，圆圈为一类，红叉叉为另一类，如果用线性切分的话无论如何都不能把它们进行分开。

文章图片

这时，引入神经网络(2层神经网络)，包含一个隐藏层，在隐藏层中,分别得到了P1和P2的图形，P1这条线以上的部分都是红叉叉，P2这条线以下的部分都是红叉叉，两个神经元就有2条线性直线。
从隐藏层到输出层要做的事情就是把这两条直线给合并起来，就会得到h(x)的图形，也就是说P1以上的空间交上P2以下的空间就是红叉叉的分类，其余空间分类为圆圈。这就使得原本不能够线性切分变成非线性切分了。

文章图片

如果隐藏层更加复杂的话，就能够完美的实现复杂平面样本点分布的划分(类似于抠图)，如下图所示：

文章图片

随机初始化模型参数
在神经网络中，通常需要随机初始化模型参数。
假设输出层只保留?个输出单元o1，且隐藏层使?相同的激活函数。如果将每个隐藏单元的参数都初始化为相等的值，那么在正向传播时每个隐藏单元将根据相同的输?计算出相同的值，并传递?输出层。在反向传播中，每个隐藏单元的参数梯度值相等。因此，这些参数在使?基于梯度的优化算法迭代后值依然相等。之后的迭代也是如此。
在这种情况下，?论隐藏单元有多少，隐藏层本质上只有1个隐藏单元在发挥作?。因此，我们通常将神经?络的模型参数，特别是权重参数，进?随机初始化。
有两种初始化方法：

采用正态分布的随机初始化方法。
Xavier初始化方法：假设某全连接层的输入个数为a，输出个数为b，Xavier随机初始化将使该层中权重参数的每个元素都随机采样于均匀分布：

初始化后，每层输出的方差不会受该层输入个数的影响，且每层梯度的方差也不受该层输出个数的影响。
激活函数
在隐层接一个线性变换后，再接一个非线性变换(如sigmoid)，这个非线性变换叫做传递函数或者激活函数。上面的例子用的都是逻辑回归的Sigmoid激活函数，如果还不明白激活函数在哪，可以看下面这幅图。

文章图片

sigmoid函数

文章图片

文章图片

tanh(双曲正切)函数
事实上，tanh 函数是 sigmoid 的向下平移和伸缩后的结果。对它进行了变形后，穿过了(0,0)点，并且值域介于+1 和-1 之间。

文章图片

文章图片

sigmoid函数和tanh函数两者共同的缺点是，在特别大或者特别小的情况下，导数的梯度或者函数的斜率会变得特别小，最后就会接近于 0，导致降低梯度下降的速度。
为什么使用激活函数?
如果你使用线性激活函数或者没有使用一个激活函数，那么无论你的神经网络有多少层一直在做的只是计算线性函数，所以不如直接去掉全部隐藏层。在我们的简明案例中，事实证明如果你在隐藏层用线性激活函数，在输出层用 sigmoid 函数，那么这个模型的复杂度和没有任何隐藏层是一样的。
在这里线性隐层一点用也没有，因为这两个线性函数的组合本身就是线性函数，所以除非你引入非线性，否则你无法计算更有趣的函数，即使你的网络层数再多也不行。

采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法和指数运算，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。
对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失），这种现象称为饱和，从而无法完成深层网络的训练。而ReLU就不会有饱和倾向，不会有特别小的梯度出现。
Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。当然现在也有一些对relu的改进，比如prelu，random relu等，在不同的数据集上会有一些训练速度上或者准确率上的改进。

激活函数有哪些性质？

非线性：当激活函数是线性的，一个两层的神经网络就可以基本上逼近所有的函数。但如果激活函数是恒等激活函数的时候，即 f(x)=x，就不满足这个性质，而且如果 MLP 使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的；
可微性：当优化方法是基于梯度的时候，就体现了该性质；
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数；
f ( x ) ≈ x ：当激活函数满足这个性质的时候，如果参数的初始化是随机的较小值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要详细地去设置初始值；
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的 Learning Rate。

正向传播与反向传播(BP)
正向传播(forward-propagation)是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量(包括输出)。
逻辑回归的计算步骤：所以回想当时我们讨论逻辑回归的时候，我们有这个正向传播步骤，其中我们计算，然后，然后损失函数。正向传播类似，计算，再计算，最后得到loss function。

文章图片

反向传播(back-propagation)指的是计算神经网络参数梯度的方法。总的来说，反向传播依据微积分中的链式法则，沿着从输出层到输入层的顺序，依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。
由正向传播经过所有的隐藏层到达输出层，会得到一个输出结果，然后根据这个带入loss funcation中，利用SGD算法进行最优化求解，其中每次梯度下降都会使用一次BP来更新各个网络层中的参数值，这就是BP回传误差的意思。
正向传播求损失，BP回传误差。
根据误差信号修正每层的权重。对各个w进行求导，然后更新各个w。
随机梯度下降法(SGD)
mini-batch梯度下降你可以把训练集分割为小一点的子集训练，这些子集被取名为 mini-batch，假设每一个子集中只有 1000 个样本，那么把其中的 (1)到 (1000)取出来，将其称为第一个子训练集，也叫做 mini-batch，然后你再取出接下来的 1000 个样本，从 (1001)到 (2000)，然后再取 1000个样本，以此类推。
在训练集上运行 mini-batch 梯度下降法，你运行 for t=1……5000，因为我们有5000个各有 1000 个样本的组，在 for 循环里你要做得基本就是对 {}和 {}执行一步梯度下降法。

batch_size=1，就是SGD。 batch_size=n，就是mini-batch batch_size=m，就是batch 其中1



 
 
（1）batchsize：批大小。在深度学习中，一般采用SGD训练，即每次训练在训练集中取batchsize个样本训练； 
（2）iteration：1个iteration等于使用batchsize个样本训练一次； 
（3）epoch：1个epoch等于使用训练集中的全部样本训练一次； 
 优缺点：

 
 
batch：相对噪声低些，幅度也大一些，你可以继续找最小值。 
SGD：大部分时候你向着全局最小值靠近，有时候你会远离最小值，因为那个样本恰好给你指的方向不对，因此随机梯度下降法是有很多噪声的，平均来看，它最终会靠近最小值，不过有时候也会方向错误，因为随机梯度下降法永远不会收敛，而是会一直在最小值附近波动。一次性只处理了一个训练样本，这样效率过于低下。 
mini-batch：实践中最好选择不大不小的 mini-batch，得到了大量向量化，效率高，收敛快。 
 首先，如果训练集较小，直接使用 batch 梯度下降法，这里的少是说小于 2000 个样本。一般的 mini-batch 大小为 64 到 512，考虑到电脑内存设置和使用的方式，如果 mini-batch 大小是 2 的次方，代码会运行地快一些。

 
调节 Batch_Size 对训练效果影响到底如何？

 batch size设置技巧 谈谈batchsize参数

 增大batchsize的好处：

 
 
 内存的利用率提高了，大矩阵乘法的并行化效率提高。

  
 跑完一次epoch(全数据集)所需迭代次数减少，对于相同的数据量的处理速度进一步加快。

  
 一定范围内，batchsize越大，其确定的下降方向就越准，引起训练震荡越小。

  
 盲目增大batchsize的坏处：

 
 
 当数据集太大时，内存撑不住。

  
 跑完一次epoch所需迭代次数减少了，但要想达到相同的精度，时间开销太大，参数的修正更加缓慢。

  
 batchsize增大到一定的程度，其确定的下降方向已经基本不再变化。

  
 减小batchsize的好处与坏处：

 
 
 当数据量足够大的时候，由于数据量太大，内存不够，可以适当的减小batch_size。

  
 但盲目减少会导致无法收敛，batch_size=1时为在线学习，也是标准的SGD，这样学习，如果数据量不大，noise数据存在时，模型容易被noise带偏；如果数据量足够大，noise的影响会被“冲淡”，对模型几乎不影响。

  
 batch的选择，首先决定的是下降方向，如果数据集比较小，则完全可以采用全数据集的形式。这样做的好处：

 
 
 全数据集的方向能够更好的代表样本总体，确定其极值所在。

  
 由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。

  
 总结来看：

 
 
Batch_Size 太小，模型表现效果极其糟糕(error飙升)。 
随着 Batch_Size 增大，处理相同数据量的速度越快。 
随着 Batch_Size 增大，达到相同精度所需要的 epoch 数量越来越多。（batchsize增大， 相同的epoch迭代次数少了，但是因为batchsize增大会影响精度，所以想要达到相同的精度需要设置更多的epoch）。 
由于上述两种因素的矛盾， Batch_Size 增大到某个时候，达到时间上的最优。 
由于最终收敛精度会陷入不同的局部极值，因此 Batch_Size 增大到某些时候，达到最终收敛精度上的最优。 
过大的batchsize的结果是网络很容易收敛到一些不好的局部最优点。同样太小的batch也存在一些问题，比如训练速度很慢，训练不容易收敛等。 
具体的batch size的选取和训练集的样本数目相关。 
 
神经网络是端到端的网络

 端到端学习(end-to-end)是一种解决问题的思路，与之对应的是多步骤解决问题，也就是将一个问题拆分为多个步骤分步解决，而端到端是由输入端的数据直接得到输出端的结果。

 就是不要预处理和特征提取，直接把原始数据扔进去得到最终结果。

 特征提取包含在神经网络内部，所以说神经网络是端到端的网络。

 优点：

 
 
通过缩减人工预处理和后续处理，尽可能使模型从原始输入到最终输出，给模型更多可以根据数据自动调节的空间，增加模型的整体契合度。 
 缺点

 
 
它可能需要大量的数据。要直接学到这个到的映射，你可能需要大量(, )数据。 
它排除了可能有用的手工设计组件。 
 
softmax分类器

 
什么是softmax 在图像分类的情景中，softmax分类器输出可以是一个图像类别的离散值，和线性回归不同的是，softmax输出单元从一个变成了多个。

 softmax回归和线性回归一样将输入特征与权重做线性叠加。与线性回归的一个主要不同在于，softmax回归的输出值个数等于标签里的类别数。下图是用神经网络描绘了softmax回归，也是一个单层神经网络，由于每个输出o 1 , o 2 , o 3 o_1,o_2,o_3 o1?,o2?,o3?的计算都要依赖于所有的输入x 1 , x 2 , x 3 , x 4 x_1,x_2,x_3,x_4 x1?,x2?,x3?,x4??，softmax回归的输出层也是一个全连接层。

  

文章图片 



 
softmax的计算 一个简单的办法是将输出值o i o_i oi??当做预测类别是i的置信度，并将值最大的输出所对应的类别作为预测输出。例如，如果o 1 , o 2 , o 3 o_1,o_2,o_3 o1?,o2?,o3??分别为0.1 ;
 10 ;
 0.1，由于 o 2 o_2 o2?最大，那么预测类别为2。

 然而，直接使用输出层的输出会有两个问题：

 
 
由于输出层的输出值的范围不确定，我们难以直观上判断这些值得意义。 
由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。 
 softmax运算解决了以上两个问题。它通过下面的公式将输出值变换成值为正且和为1的概率分布：
  

文章图片 



 
交叉熵损失函数 softmax运算将输出变换成一个合法的类别预测分布。实际上，真实标签也可以用类别分布表达：

  

文章图片 




		  	

    
    




    
    
    


推荐阅读

           
                  
              
                  椰子油的生活小妙用 椰子油有什么用途和功效 
                
                   
                
              
            

                  
              
                  庆东锅炉故障代码是什么如何解决 
                
                   
                
              
            

                  
              
                  教学教务管理人员是干什么的 
                
                   
                
              
            

                  
              
                  联想yoga2 
                
                   
                
              
            

                  
              
                  如何选择抗体稀释液？ 抗体稀释液 
                
                   
                
              
            

                  
              
                  下载导航地图，导航地图下载 
                
                   
                
              
            

                  
              
                  流媒体后视镜可以当行车记录仪吗 行车记录仪有必要买流媒体吗 
                
                   
                
              
            

                  
              
                  炒苔菜用不用焯水，苔菜用不用焯水再炒 
                
                   
                
              
            

                  
              
                  昆明工业职业技术学院怎么样 
                
                   
                
              
            

                  
              
                  （152）感赏女儿|（152）感赏女儿 2020-12-4 
                
                   
                
              
            

                  
              
                  桃子核发霉外面是好的还能吃吗 
                
                   
                
              
            

                  
              
                  离散傅立叶分析,origin怎么进行傅立叶分析 
                
                   
                
              
            

                  
              
                  次密接触者的一般接触者需要隔离吗 
                
                   
                
              
            

                  
              
                  海带炖土豆的做法 海带炖土豆的做法窍门 
                
                   
                
              
            

                  
              
                  大概的近义词 大概的近义词是什么 标准答案 
                
                   
                
              
            

                  
              
                  合金筷子是塑料还是金属 合金筷子是什么材质 
                
                   
                
              
            

                  
              
                  真我与假我 
                
                   
                
              
            

                  
              
                  钢材包括哪些 钢材怎么分类 
                
                   
                
              
            

                  
              
                  heos,黑色素瘤 
                
                   
                
              
            

                  
              
                  【家事】节如流水 
                
                   
                
              
            

          

机器学习|机器学习 K-Means(++)算法 
 机器学习|【进阶版】机器学习之贝叶斯分类器细节回顾及原理完善（10） 
 机器学习|【进阶版】机器学习之决策树知识与易错点总结（06） 
 机器学习|【进阶版】机器学习之线性模型介绍及过拟合欠拟合解决方法岭回归、loss回归、elasticnet回归（05） 
 机器学习|机器学习之EM算法的原理及推导(三硬币模型)及Python实现 
 机器学习|【进阶版】机器学习之特征降维、超参数调优及检验方法（04） 
 FIT3178 iOS 
 深度学习|深度学习面试题——深度学习的技术发展史 
 11|【嵌入式--伺服电机】足式机器人 外转子无刷电机研究