【深度学习第一讲(数据预处理)】一、安装百度paddle平台(ubuntu 14.04)
paddle要求:Python2.7.x (dev),Pip >= 9.0.1
Python3.5.x (dev),Pip3 >= 9.0.1
安装python: sudo apt install python-dev python-pip
python3: sudo apt install python3.5-dev
升级pip到最新版本: pip install --upgrade pip
二、数据预处理
1、属性归一化
在数据集中,常常存在各维度的数据取值范围差别较大,这会导致:
(1)过大或过小的数值范围会导致计算时的浮点上溢或者下溢。
(2)不同的取值范围会使得各个维度的数据重要性不同(至少存在于训练的初始阶段),这会使得训练时间大大加长。
2、整理训练集与测试集
数据集分为测试集和训练集,训练集用于调整模型的参数,通过训练数据找到规律来预测未知数据。而测试集用来反应模型表现的指标。
分割测试集和训练集的比例应考虑到:更多的训练数据会降低参数估计的误差,从而得到更可信的模型。而更多的测试数据会降低测试误差的方差,从而得到更可信的测试误差。
注意:在更加复杂的模型训练中,常常会使用验证集。复杂的模型中有一些超参数需要调节,我们会使用多种超参数的组合来分别训练多个模型,对比它们在验证集上的表现,选择一组表现最好的超参数,最后才使用这组参数在测试集上评估测试误差。
参考文章:http://www.paddlepaddle.org/documentation/docs/zh/1.1/beginners_guide/quick_start/fit_a_line/README.cn.html
推荐阅读
- C语言学习|第十一届蓝桥杯省赛 大学B组 C/C++ 第一场
- paddle|动手从头实现LSTM
- pytorch|使用pytorch从头实现多层LSTM
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- pytorch|YOLOX 阅读笔记
- 前沿论文|论文精读(Neural Architecture Search without Training)
- 联邦学习|【阅读笔记】Towards Efficient and Privacy-preserving Federated Deep Learning
- OpenCV|OpenCV-Python实战(18)——深度学习简介与入门示例
- 深度学习|深度学习笔记总结
- 《繁凡的深度学习笔记》|一文绝对让你完全弄懂信息熵、相对熵、交叉熵的意义《繁凡的深度学习笔记》第 3 章 分类问题与信息论基础(中)(DL笔记整理