erode(src, kernel[, dst[, anchor[, iterations[, borderType[, borderValue]]]]]) - dst
与腐蚀的操作相反 。如果内核下的至少一个像素为“1”,则像素元素为“1” 。因此它增加了图像中的白色区域或前景对象的大小增加 。通常,在去除噪音的情况下,侵蚀之后是扩张 。因为,侵蚀会消除白噪声,但它也会缩小我们的物体 。所以我们扩大它 。由于噪音消失了,它们不会再回来,但我们的物体区域会增加 。它也可用于连接对象的破碎部分
XGBoost算法思想一、boosting模式
boosting属于集成学习框架之一,与bagging类似,boosting也不再是用单一的模型来进行预测,而是组合 若干弱学习器 来产生一个 强学习器
boosting:整个训练过程呈阶梯状,弱学习器按照次序逐一进行训练,与bagging不同在于每个弱学习器的训练集,都按照 某种策略进行一定的转化,最后对所有弱学习器的预测结果进行 线性综合 来产生最终的预测结果 。即:
关于boosting算法比较常见的有: AdaBoost、GBDT 以及本文分析的 XGBoost
二、集成学习模型的偏差和方差
这里我们可以用 期望 这个统计量来描述模型的 偏差
由方差和协方差的基本定义出发:
对于集成学习模型,通过计算弱学习器模型的 期望和方差 ,我们可以得到 模型整体的期望和方差 。而且不论是bagging还是boosting,其 弱学习器都是线性组成的,我们设每个弱学习器为,总共有个弱学习器,对应的权重为,为整个模型
则模型的期望为:
模型的方差为:
这里需要用到二项展开公式
带入模型方差展开得
我们再引入2个统计量: 标准差和相关系数,用来代表整体模型的标准差和相关系数,其基本定义为:
将和带入模型方差 , 得
推导至此,我们得到了 集成学习整体模型的期望和 方差的数学表达式
集成学习模型的整体偏差和方差的关系可形象的展示为:
接下来我们分别讨论在bagging或boosting算法下模型整体的期望和方差
三、bagging的期望和方差
对于bagging来说,每个弱学习器的权重都为,且每个弱学习器训练的样本都是从原始样本采取 有放回式随机抽样,故每个弱学习器的 期望近似相等 为
则bagging的期望为:
bagging的方差为:
我们也可以看到,随机森林( Random Forest)采取对 训练集的特征进行随机抽样的策略,使得各个弱学习器的 相关性降低 ,从而达到 减少方差 的效果
四、boosting的偏差和方差
对于boosting来说,训练集抽样是 强相关 的,即模型的相关系数近似等于1
则boosting的期望为:
boosting的方差为:
五、XGBoost的基础模型
XGBoost(Extreme Gradient Boosting)是 GBDT 的一种高效实现 , 其弱学习器除了可以是 CART回归树 , 也可以是 线性分类器。这里我们用CART树来当作弱学习器
考虑场景:我们要预测一家人对电子游戏的喜好程度,为此可以构建2颗CART树
第1颗CART树:考虑到年轻和年老相比 , 年轻更可能喜欢电子游戏,故使用“年龄”作为第1个特征来二分样本集;再考虑到男性和女性相比,男性更喜欢电子游戏,故使用“性别”作为第2个特征来二分子样本集 , 最后逐一给各人在电子游戏喜好程度上打分
第2颗CART树:考虑到喜欢电子游戏的人每天使用电脑的频率较高,故使用“每天使用电脑的频率”作为特征来二分子样本集,最后逐一给各人在电子游戏喜好程度上打分
对于上述两颗CART树,我们要计算小男孩的预测分数 , 只需在每颗CART树中找到小男孩落在的树叶位置,将树叶对应的分数累加即可
推荐阅读
- u盘推荐什么牌子,u盘什么牌子好 速度快
- html5元素块元素,html5article元素
- 团体角色扮演游戏,角色扮演游戏活动
- 移植常用命令到linux linux riscv移植
- 监控是什么样子视频,监控是什么样子视频播放器
- 手机版玩赛车的游戏有哪些,手机版玩赛车的游戏有哪些软件
- excle大文件转pdf,excel文件转为pdf
- Java实现计算代码 java计算算式
- 新媒体发展如何,新媒体的新发展