关于mini-batch 关于mini-batch

泛型模型

泛型模型算是本文档比较原创的词汇了，所以这里要说一下
在原本的Keras版本中，模型其实有两种，一种叫Sequential，称为序贯模型，也就是单输入单输出，一条路通到底，层与层之间只有相邻关系，跨层连接统统没有。这种模型编译速度快，操作上也比较简单。第二种模型称为Graph，即图模型，这个模型支持多输入多输出，层与层之间想怎么连怎么连，但是编译速度慢。可以看到，Sequential其实是Graph的一个特殊情况。
在现在这版Keras中，图模型被移除，而增加了了“functional model
API”，这个东西，更加强调了Sequential是特殊情况这一点。一般的模型就称为Model，然后如果你要用简单的Sequential，OK，那还有一个快捷方式Sequential。
由于functional model API表达的是“一般的模型”这个概念，我们这里将其译为泛型模型，即只要这个东西接收一个或一些张量作为输入，然后输出的也是一个或一些张量，那不管它是什么鬼，统统都称作“模型”。

batch

深度学习的优化算法，说白了就是梯度下降。每次的参数更新有两种方式。
第一种，遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍，计算量开销大，计算速度慢，不支持在线学习，这称为Batch gradient descent，批梯度下降。
另一种，每看一个数据就算一下损失函数，然后求梯度更新参数，这个称为随机梯度下降，stochastic gradient
descent。这个方法速度比较快，但是收敛性能不太好，可能在最优点附近晃来晃去，hit不到最优点。两次参数的更新也有可能互相抵消掉，造成目标函数震荡的比较剧烈。
为了克服两种方法的缺点，现在一般采用的是一种折中手段，mini-batch gradient
decent，小批的梯度下降，这种方法把数据分为若干个批，按批来更新参数，这样，一个批中的一组数据共同决定了本次梯度的方向，下降起来就不容易跑偏，减少了随机性。另一方面因为批的样本数与整个数据集相比小了很多，计算量也不是很大。
基本上现在的梯度下降都是基于mini-batch的，所以Keras的模块中经常会出现batch_size，就是指这个。
顺便说一句，Keras中用的优化器SGD是stochastic gradient descent的缩写，但不代表是一个样本就更新一回，还是基于mini-batch的。
已上文字来源于

【关于mini-batch】一些基本概念 - Keras中文文档

关于mini-batch

推荐阅读

卫生纸都是厕纸吗

为什么坚持了一段时间后不能坚持了

肠粉汤汁绝密配方广东肠粉卤汁和米浆的绝密配方

cst分析仪

吃了紧急避孕药多久来月经

万国觉醒远征65关怎么过

博世锅炉c4问题的解决方法是什么,只能是这样来处理了

【养生堂】肚子上的妊娠纹怎样去除

java小软件开发代码 java软件开发软件下载

黄金皮带面的做法

佳能单反5d4现在最新市场价格北京5d4佳能网购价格

修改器游戏,MOD悬浮窗修改器游戏

熟猪肝可以冷冻保存吗

37传奇霸业的特色游戏系统是什么

东芝32L26CMC电视屏闪的解决方法

钉钉网课怎么上课钉钉线上课堂怎么上课

为什么电风扇没有风吹出来了家用的大宇电扇不出风

治疗产后头痛养血祛风的中药秘方

一着不慎满盘皆输造句

react-router-dom|react-router-dom 源码阅读