如何学习数据分析?( 二 )


作为数据分析师 。只要懂Select相关 。增删改、约束、索引、数据库范式全部略过 。你的公司心得多大才会给你写权限 。
了解where 。group by 。order by 。having 。like 。count 。sum 。min 。max 。distinct 。if 。join 。left join 。limit 。and和or的逻辑 。时间转换函数等即可 。
你看 。和Excel的函数都差不多 。如果时间充裕 。则学习row_number 。substr 。convert 。contact等 。和Excel一样 。学会搜索解决问题 。不同引擎的函数也会有差异 。例如Presto和phpMyAdmin 。
期间你不需要考虑优化和写法丑陋 。查询几秒和几分钟对数据分析师没区别 。跑数据时喝杯咖啡呗 。以后你跑个SVM都能去吃饭了 。
网上搜索SQL相关的练习题 。刷一遍就行 。也能自己下载数据库管理工具 。找些数据练习 。我用的是Sequel Pro 。
第五周:统计知识学习
统计学是数据分析的基础之一 。
统计知识会要求我们以另一个角度看待数据 。当你知道AB两组的差异用平均值看是多傻的事情 。你的分析技巧也会显著提高 。
这一周努力掌握描述性统计 。包括均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念 。详细的数学推导不用细看 。谁让我们是速成呢 。只要看到数据 。知道不能怎么样 。而是应该这样分析即可 。
Excel中有一个分析工具库 。简单强大 。对列1的各名词做到了解 。如果是多变量多样本 。学会各种检验 。
《统计数字会撒谎》休闲读物 。有趣的案例可以让我们避免很多数据陷阱 。
深入浅出统计学 (豆瓣)还是经典的HeadFirst系列 。适应它一贯的啰嗦吧 。
多说一句 。老板和非分析师不会有兴趣知道背后的统计学原理 。通常要的是分析后的是与否 。二元答案 。不要告诉他们P值什么的 。告诉他们活动有效果 。或者没效果 。
第六周:业务学习(用户行为、产品、运营)
这一周需要了解业务 。对于数据分析师来说 。业务的了解比数据方法论更重要 。当然很遗憾 。业务学习没有捷径 。
我举一个数据沙龙上的例子 。一家O2O配送公司发现在重庆地区 。外卖员的送货效率低于其他城市 。导致用户的好评率降低 。总部的数据分析师建立了各个指标去分析原因 。都没有找出来问题 。后来在访谈中发觉 。因为重庆是山城 。路面高低落差比较夸张 。很多外卖人员的小电瓶上不了坡…所以导致送货效率慢 。
这个案例中 。我们只知道送货员的送货水平距离 。数据上根本不可能知道垂直距离这个指标 。这就是数据的局限 。也是只会看数据的分析师和接地气分析师的最大差异 。
对于业务市场的了解是数据分析师工作经验上最大优势之一 。既然是零经验面试 。公司肯定也知道刚入门分析师不会有太多业务经验 。不会以这个卡人 。所以简单花一周了解行业的各指标 。
《增长黑客》
数据驱动业务的典型 。里面包含产品运营最经典的AAARR框架 。部分非数据的营销案例 。
《网站分析实战》
如果应聘的公司涉及Web产品 。可以了解流量的概念 。书中案例以Google Analytics为主 。其实现在是APP+Web的复合框架 。比如朋友圈的传播活动肯定需要用到网页的指标去分析 。
《精益数据分析》
互联网数据分析的入门书籍 。归纳总结了几个常用的分析框架 。比较遗憾的是案例都是欧美 。
还有一个小建议 。现在有不少第三方的数据应用 。囊括了不少产品领域的数据分析和统计 。自学党们即使没有生产环境的数据 。也可以看一下应用Demo 。有好处的 。
除了业务知识 。业务层面沟通也需要掌握 。另外建议在面试前几天收集该行业的业务强化一下 。
第七周:Python/R学习
终于到第七周 。也是最痛苦的一周 。这时应该学习编程技巧 。是否具备编程能力 。是初级数据分析和高级数据分析的风水岭 。数据挖掘 。爬虫 。可视化报表都需要用到编程能力 。掌握一门优秀的编程语言 。可以让数据分析师事半功倍 。升职加薪 。迎娶白富美 。
这里有两条支线 。学习R语言或Python 。速成只要学习一条 。以后再补上另外一门 。
R的优点是统计学家编写的 。缺点也是统计学家编写 。如果是各类统计函数的调用 。绘图 。分析的前验性论证 。R无疑有优势 。但是大数据量的处理力有不逮 。学习曲线比较陡峭 。Python则是万能的胶水语言 。适用性强 。可以将各类分析的过程脚本化 。Pandas 。sklearn等各包也已经追平R 。

推荐阅读