R语言实现ggplot重绘天猫双十一销售额曲线图过程
目录
- Let's start
- 输入数据
- 粗略绘图
- 完善散点图
- 添加拟合曲线
- 在散点上添加销售额
- 删除不必要的背景线
- 终极美化
- 小作业
文章图片
这张图的来源是一篇名为 “淘宝2009-2018年历年双11销售额数据造假” 的文章。图中散点为天猫双十一销售额数据,曲线为原作者拟合的回归线。乍一看散点完美地分布在曲线上,原作者便直接声称:“淘宝双十一销售额数据造假!不可能有这么完美的拟合!” 可事实真的是这样吗?
作为一个热爱画画的博主,我们先不来考虑这个问题,直接来试着在 R 中绘制出上图,一个更好看版本的上图。
Let's start 温馨小提示:在这篇博客中,你可以学会下述
ggplot
的绘图小技巧:如何在图像中拟合二次曲线;
如何在图像中添加文本或自适应地添加文本;
如何删除一些不必要的背景线;
还有一些常规操作:换主题、改刻度、改颜色等等… …
偷偷放个最终成果:
文章图片
输入数据 首先我们查到具体每一年的天猫销售额数据,然后在 R 中构建
data frame
.year <- 2009:2019sales <- c(0.5, 9.36, 52, 191, 350, 571, 912, 1207, 1682, 2135, 2684)dat_sales <- data.frame(year = year, sales = sales)
由于我们想重点凸显出 2019 年的具体表现,所以我们还需要添加一列 index 表示是否为 2019 年(非 2019 年为
1
, 2019 年为 2
):dat_sales$ind <- factor(c(rep(x = 1, 10), 2))
数据框长着如下这样:
yearsales ind120090.501220109.3613201152.00142012191.00152013350.00162014571.00172015912.00182016 1207.00192017 1682.00110 2018 2135.00111 2019 2684.002
好啦,有了上述数据框,我们就可以开始进行
ggplot
的绘图了!粗略绘图 首先我们就用默认参数画出散点变化趋势,同时 2019 年标注出不一样的颜色:
library(ggplot2)ggplot(dat = dat_sales) +geom_point(aes(x = year, y = sales, col = ind))
文章图片
但是这样的绘图有很多问题:缺少标题,坐标轴的标题改中文,x 轴的显示不是离散的年份,散点过小,图例问题等等问题,我们先一步一步来进行完善。
完善散点图
ggplot(dat = dat_sales) +geom_point(aes(x = year, y = sales, col = ind), size = 4) +scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +labs(title = "2009 - 2019 年销售额", x = "年份", y = "销售额 (亿元)") +theme(legend.position = "none",plot.title = element_text(hjust = 0.5))
文章图片
其中,
size = 4
, 表示将散点进行放大,具体的尺寸可以自己进行设置;
breaks = 2009:2019
表示原本数据集中在 x 轴上对应的值;
labels = 2009:2019
表示映射到图像上 x 轴的值;
legend.position = "none"
表示取消 legend 显示。强调:这里为了显示年份,其实可以采用将年份转换成 factor 型的方法,但由于我们还需要使用年份数据进行曲线拟合,若转化成 factor 会使得曲线拟合失败,因此我们采用稍微复杂一些的修改 x 轴刻度的方法。
添加拟合曲线 下面我们就开始添加二次函数拟合曲线:
ggplot(dat = dat_sales) +geom_point(aes(x = year, y = sales, col = ind), size = 4) +geom_smooth(aes(x = year, y = sales), se = FALSE, method = "lm", formula = y ~ x + I(x^2), size = 2) +scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +labs(title = "2009 - 2019 年销售额", x = "年份", y = "销售额 (亿元)") +theme(legend.position = "none",plot.title = element_text(hjust = 0.5))
文章图片
在
ggplot
中通常都是使用 geom_smooth
来进行曲线或者直线的拟合,对于线性、二次、三次函数,我们都是使用 method = "lm"
;
se = FALSE
表示不显示置信区间;
formula = y ~ x + I(x^2)
表示使用二次函数进行拟合;
最后的 size = 2
表示调整线的粗细。在散点上添加销售额 可以发现,这样的曲线只能看出趋势,但是却看不出每年的具体销售额,所以接下来我们尝试在图像的每个散点加上具体的销售额:
# library(ggrepel)ggplot(dat = dat_sales) +geom_point(aes(x = year, y = sales, col = ind), size = 4) +geom_smooth(aes(x = year, y = sales), se = FALSE, method = "lm", formula = y ~ x + I(x^2), size = 2) +geom_text(aes(x = year, y = sales, label = sales), hjust = 0.5, vjust = -1) +# geom_text_repel(aes(x = year, y = sales, label = sales)) +ylim(0, 3000) +scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +labs(title = "2009 - 2019 年销售额", x = "年份", y = "销售额 (亿元)") +theme(legend.position = "none",plot.title = element_text(hjust = 0.5))
文章图片
当我们需要在绘图中添加文本时,通常可以使用
geom_text
函数,然后 aes(label = )
中设定需要显示的变量名称,最后的 hjust = 0.5, vjust = -1
表示调整显示的相对位置,前者表示水平位置,后者表示垂直位置,这个根据绘图的不同需要自己进行手动调整。同时,2019 年的销售额较高,如果不调整 y 轴的显示范围,最上面显示的销售额 2684 会被遮挡,所以我们添加了
ylim(0, 3000)
。另外,细心的童鞋一定发现了,我们在代码中添加了两行注释,注释的内容同样是添加文本的语句:
geom_text_repel(aes(x = year, y = sales, label = sales))
,这个语句可以自适应地调整每个文本显示内容,使文本不会挡住我们的散点和曲线,这个函数在包 ggrepel
中。这里之所以是因为这个方式大多用于图像中散点比较多,比较乱的情况,如果在此幅图中使用,会使得销售额的文本显示略显混乱。删除不必要的背景线 再细心一些的童鞋可能观察到了,背景的网格图,在 x 轴每两个年份之间都有一根垂直线,这个垂直线是毫无意义的。这时我们不禁要问,是否有方法能够将这根线消去呢?
答案是肯定的:
ggplot(dat = dat_sales) +geom_point(aes(x = year, y = sales, col = ind), size = 4) +geom_smooth(aes(x = year, y = sales), se = FALSE, method = "lm", formula = y ~ x + I(x^2), size = 2) +geom_text(aes(x = year, y = sales, label = sales), hjust = 0.5, vjust = -1) +ylim(0, 3000) +scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +labs(title = "2009 - 2019 年销售额", x = "年份", y = "销售额 (亿元)") +theme(panel.grid.minor = element_blank(),legend.position = "none",plot.title = element_text(hjust = 0.5))
文章图片
修改起来其实也不难,可以发现,每个年份对应的垂直线叫做
major
,而年份没对应到的网格线叫做 minor
,因此我们直接在 theme
中添加 panel.grid.minor = element_blank()
即可。终极美化 到这里,我们的基本元素的拼凑已经告一段落了,但是整体图看起来依旧是不够美观,所以接下来我们再进行一些操作来美化绘图,最终代码与结果如下:
ggplot(dat = dat_sales, aes(x = year, y = sales)) +geom_smooth(se = FALSE, method = "lm", formula = y ~ x + I(x^2), size = 2, col = "#b3cde3") +geom_point(aes(col = ind), size = 4) +ylim(0, 3000) +geom_text(aes(label = sales), hjust = 0.5, vjust = -1) +scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +labs(title = "2009 - 2019 年销售额", x = "年份", y = "销售额 (亿元)") +theme_bw(base_family = "Times") +theme(legend.position = "none",panel.grid.minor = element_blank(),panel.border = element_blank(),plot.title = element_text(hjust = 0.5))
文章图片
这里其实做了一些细节的调整,首先先绘制拟合曲线,再绘制散点,这样散点就会在曲线的上方,这样看起来会更加的美观。其次改变了拟合曲线的颜色:
col = "#b3cde3"
,改变了绘图的主题:theme_bw(base_family = "Times")
,删除了丑丑的边框:panel.border = element_blank()
。至此,我们美美的绘图重构就完成了!
小作业 最后,感兴趣的童鞋不妨将我们图中的二次拟合曲线替换成三次函数拟合,或者两者均添加,然后修改一下透明度,使得两条线都能看见一部分。
【R语言实现ggplot重绘天猫双十一销售额曲线图过程】以上就是ggplot绘制天猫双十一销售额曲线图实现过程的详细内容,更多关于ggplot绘制天猫双十一销售额的资料请关注脚本之家其它相关文章!
推荐阅读
- 关于QueryWrapper|关于QueryWrapper,实现MybatisPlus多表关联查询方式
- MybatisPlus使用queryWrapper如何实现复杂查询
- python学习之|python学习之 实现QQ自动发送消息
- 【生信技能树】R语言练习题|【生信技能树】R语言练习题 - 中级
- 孩子不是实现父母欲望的工具——林哈夫
- 一起来学习C语言的字符串转换函数
- C语言字符函数中的isalnum()和iscntrl()你都知道吗
- opencv|opencv C++模板匹配的简单实现
- C语言浮点函数中的modf和fmod详解
- Node.js中readline模块实现终端输入