30+程序老兵转型路--数据分析实操篇

背景 最近打算学习一点数据分析的内容,下图中虽然广告成分有点多,但是技多不压身个,都说程序员应该有一点产品思维,并对数据保持敏感。
【30+程序老兵转型路--数据分析实操篇】30+程序老兵转型路--数据分析实操篇
文章图片

看了一些培训机构的介绍,涉及到的知识点还挺多的,有工具、思维、实操及最后的报告。果然一口吃不了个胖子,慢慢学吧。
30+程序老兵转型路--数据分析实操篇
文章图片

数据分析框架 下面是一整套数据分析方案,分为5个步骤:明确问题、获取数据、数据清洗、分析数据最后呈现报告。
30+程序老兵转型路--数据分析实操篇
文章图片

明确问题,分析要解决的问题,定义出一些数字化的指标出来,通过这些指标数字进行对比分析最后才能得出答案,决策最后都会转换成大与小、高与低、多与少的量化比较
30+程序老兵转型路--数据分析实操篇
文章图片

获取数据,针对上面定义出来的数字化指标,通过各种方式来收集包含这些指标信息的数据,包括外部公开的数据,自己公司(部门)的业务数据等等。外部数据经常使用爬虫的方式获取一些公开的数据
30+程序老兵转型路--数据分析实操篇
文章图片

数据清洗,将获取到的数据中的非法值、空值、重复值、异常值进行清洗,得出高质量的数据用于后面的分析
30+程序老兵转型路--数据分析实操篇
文章图片

数据分析及报告
分析度量与每个维度之间的关系,分析多个指标之间的关系,形成回归或分类模型,替换参数找到预测结果
30+程序老兵转型路--数据分析实操篇
文章图片

实操 上面是一些理论知识,结合理论知识进行一下实操,我们先利用爬虫从基金网站获取一些基金数据存放到云数据库MemFireDB中,使用tableau进行数据清洗及可视化分析,找出最有价值的股票
30+程序老兵转型路--数据分析实操篇
文章图片

获取数据,这个文章分享了如何获取公开的基金数据的方法 https://juejin.cn/post/697093... ,我们获取了一些基金数据如下图所示:
30+程序老兵转型路--数据分析实操篇
文章图片

我们用tableau来清洗数据,Tableau公司将数据运算与美观的图表完美地嫁接在一起。它的程序很容易上手,各公司可以用它将大量数据拖放到数字“画布”上,转眼间就能创建好各种图表。这一软件的理念是,界面上的数据越容易操控,公司对自己在所在业务领域里的所作所为到底是正确还是错误,就能了解得越透彻。
先下载安装tableau,下载地址https://www.tableau.com/zh-cn...
加载数据,Tableau需要通过odbc的方式连接数据库,我们需要先配置odbc,这篇文章中有配置odbc的方式https://juejin.cn/post/697609...
30+程序老兵转型路--数据分析实操篇
文章图片

点击“连接”--“登录”,并选中数据表
30+程序老兵转型路--数据分析实操篇
文章图片

先解释下几个字段的含义 代码:fundcode,名称:name,净值日期:jzrq,单位净值:dwjz,估算值:gsz,估算增长率:gszzl
点击工作表,拖拽posname(股票名)到行(维度),选择计数器到列(度量),然后选择右侧的智能推荐中的气泡图,通过该图,我们可以看到购买次数最多的是贵州茅台,观测其中最大和最小的气泡可以看出数据是否有异常。
30+程序老兵转型路--数据分析实操篇
文章图片

也可以使用四分位图(盒须图)发现其中的异常数据,茅台挺异常的,不过好像是真实值!!!
30+程序老兵转型路--数据分析实操篇
文章图片

当发现异常值之后,可以通过筛选器将异常值清洗掉
30+程序老兵转型路--数据分析实操篇
文章图片

接下来对数据进行分析,可以用散点图的方式观察估算增长率与交易总额的关系
30+程序老兵转型路--数据分析实操篇
文章图片

估算值与交易次数的关系
30+程序老兵转型路--数据分析实操篇
文章图片

我们也可以看出每天的交易中,每个股票所占的比例以及具体次数
30+程序老兵转型路--数据分析实操篇
文章图片

到了这里我还是比较懵,为啥茅台那么多人买???持续学习中!

    推荐阅读