深度学习第一讲(数据预处理)

【深度学习第一讲(数据预处理)】一、安装百度paddle平台(ubuntu 14.04)
paddle要求:Python2.7.x (dev),Pip >= 9.0.1
Python3.5.x (dev),Pip3 >= 9.0.1
安装python: sudo apt install python-dev python-pip
python3: sudo apt install python3.5-dev
升级pip到最新版本: pip install --upgrade pip
二、数据预处理
1、属性归一化
在数据集中,常常存在各维度的数据取值范围差别较大,这会导致:
(1)过大或过小的数值范围会导致计算时的浮点上溢或者下溢。
(2)不同的取值范围会使得各个维度的数据重要性不同(至少存在于训练的初始阶段),这会使得训练时间大大加长。
2、整理训练集与测试集
数据集分为测试集和训练集,训练集用于调整模型的参数,通过训练数据找到规律来预测未知数据。而测试集用来反应模型表现的指标。
分割测试集和训练集的比例应考虑到:更多的训练数据会降低参数估计的误差,从而得到更可信的模型。而更多的测试数据会降低测试误差的方差,从而得到更可信的测试误差。
注意:在更加复杂的模型训练中,常常会使用验证集。复杂的模型中有一些超参数需要调节,我们会使用多种超参数的组合来分别训练多个模型,对比它们在验证集上的表现,选择一组表现最好的超参数,最后才使用这组参数在测试集上评估测试误差。
参考文章:http://www.paddlepaddle.org/documentation/docs/zh/1.1/beginners_guide/quick_start/fit_a_line/README.cn.html

    推荐阅读