读书笔记|《白话大数据和机器学习》学习笔记1

一、基础篇(了解一些基本概念)
1、大数据分析要做哪些工作:通过建立指标对数据进行统计来发现数据之间的联系。利用数据挖掘和机器学习的方法,发现事件的规律和知识,并对未来事物发展进行预测。
2、做大数据分析需掌握哪些知识:数据库方面的如MySQL、hive等,数据加工如Python语言,统计学知识,数据分析方法如建模、挖掘、机器学习、回归分析、分类聚类等,以及相关的业务知识。
3、什么可以称之为数据:数据就是一些承载着某些信息的符号,一般只含有通识性的信息如含1>0,则不将其作为有用数据。
4、什么是BI:商业智能,是基于事实的辅助决策系统。其基于数据仓库做数据建模、数据分析,数据挖掘和数据可视化。
5、所要了解的一些数据值:加和值(如GDP、GNP)、标准差、加权平均值、众数、中位数、欧式距离(两点之间直线距离)、曼哈顿距离(两点在标准坐标系上绝对轴距离的和)、环比(和上一个报告相比,如今年1月和2月比)、同比(相邻时段不同时期对比,如今年1月和去年1月对比)。
6、所需掌握抽样方法和分布函数:随机抽样,分层抽样,系统抽样;高斯分布(正态分布),泊松分布、伯努利分布。
7、什么是指标:指标是成果量化的一种方式,可以为运营带来驱动力。指标的建立实际是建模的过程,是找到数字和数字之间的逻辑关系并用来做出预测和判断。
8、互联网行业常用的指标:PV(点击数)、UV(独立用户浏览数)、DAU(日活用户)、MAU(月活用户)、LTU(用户生命周期)、ARPU(每用户平均收入)。
9、指标的特点:数字化、可测量、意义清晰、周期适当、尽量客观。
10、如何建设指标体系:明确考核对象、指标周期、横向和纵向比较等。
二、进阶篇(需掌握的相关术语)
1、信息论:信息是来消除不确定的。信息量计算方式是信息个数的对数,当信息发生概率相等时,信息量为logm ,其中m为信息个数;发生概率不等式,信息量为logp,p是事件发生的先验概率,即概率特别小的事件信息量大。
2、香农公式:C=B*log(1+S/N),B是码元速率极限值,B=2H,H为信道带宽,S为信号功率,N为噪声功率。
3、熵:物理学中熵表示内能增加时,分子运动杂乱程度变高。这里指的是信息熵,是用来描述量化信息的杂乱程度,公式为所有x事件发送的概率乘该信息量的总和,信息越单一熵越小。
4、向量和维度:数据领域用a,b,c……来表示向量和维度数,有多少维度就有多少个参考坐标系,且维度设计具正交性。在存储数据时,要注意数据是否冗余,即相同一份数据存储多余一份。设计者需出于自身考虑选择成本最低的方式。
5、矩阵和矩阵计算、数据立方体(3个维度的坐标系)
6、线性回归:利用回归分析确定两种或两种以上因素的关系。
7、拟合:把平面上一系列点由一条光滑的曲线连接起来的过程。
8、残差分析:利用最小二乘法,得到一个最合适的拟合曲线。
9、过拟合:拟合太过,会使得模型失去泛化能力。原因一般是因为样本太少,过于追求完美。
【读书笔记|《白话大数据和机器学习》学习笔记1】10、欠拟合:误差分布过于散乱,原因是参数过少或者拟合不当。

    推荐阅读