虎嗅文章分析(二)

前言 在上一篇文章《虎嗅文章分析(一)》中,主要对文章收藏量、评论量和文章标题长度之间的关系进行了探究,此篇文章接着上篇文章进行探究。
盘点最值得关注的虎嗅作家TOP10 找出平均收藏量最多并且发文数量在5篇及以上的的10位作家。

def analysis(data): data = https://www.it610.com/article/pd.pivot_table(data,values=['favorites'],index='name',aggfunc=[np.sum,np.size]) data['avg'] = data[('sum','favorites')]/data[('size','favorites')] data['avg'] = data['avg'].astype('int') data.columns = data.columns.get_level_values(0) data.columns = ['total_favorites','article_num','avg_favorites'] data = https://www.it610.com/article/data.query('article_num>4') data = https://www.it610.com/article/data.sort_values(by=['avg_favorites'],ascending = False) print(data[:10]) analysis(data)

虎嗅文章分析(二)
文章图片
最值得关注的虎嗅作家TOP10.PNG 文章标题形式 探究文章标题中带问号以及带叹号的占比。
data1 = data[data['title'].str.contains("(.*\?.*)|(.*\?.*)")] data2 = data[data['title'].str.contains("(.*\!.*)|(.*\!.*)")] quantity = data.shape[0] - data1.shape[0] - data2.shape[0]size = [data1.shape[0],data2.shape[0],quantity] labels = [u'问号标题',u'叹号标题',u'陈诉性标题'] colors_pie = ['#1362A3','#3297EA','#8EC6F5'] explode = [0.05,0,0] #突出显示问号部分 plt.pie(size,labels=labels,colors = colors_pie,explode = explode,startangle=270,autopct='%1.f%%',textprops={'fontsize' : 12,'color':'b'}) plt.axis('equal')

虎嗅文章分析(二)
文章图片
文章标题形式.png
  • 37%的文章标题中都包含问号。
每周发文情况分析
data_1 = data[data['name']!='虎嗅'] data_1['weekday'] = data['write_time'].dt.weekday.apply(lambda x:x+1) data_1.groupby('weekday')['title'].count().plot(kind = 'bar')

虎嗅文章分析(二)
文章图片
每周发文数量.png
从图上可以看出:星期六和星期天虎嗅网上发表文章篇数较少,推断:在虎嗅网上发表文章的作家有很多都是一些平台的签约作家。
每周收藏量分析
a = data.groupby('weekday')['favorites'].sum()/(data.groupby('weekday')['title'].count()) a.plot(kind = 'bar')

虎嗅文章分析(二)
文章图片
一周中平均文章收藏量.png 星期六星期天的文章平均收藏量较高,可以推测出双休日虎嗅网的浏览量也应该是最多的。
文章标题词云分析
from scipy.misc import imread def wordcloud(data): text = '' for line in data['title']: patterm = '(\[.*]|.*:|\【.*】|\《.*》)' line = re.sub(patterm,'',line) text += ' '.join(jieba.cut(line)) stopwords = set() stopwords.update(['如何','怎么','一个','什么','为什么','还是','我们','为何','可能','不是','没有','哪些','成为','\ 可以','背后','到底','就是','这么','不要','怎样','为了','能否','你们','还有','这样','这个','真的','那些']) mask = imread('G:/huxiu_data/tiger1.jpg') cloud = WordCloud(background_color = 'white',font_path='./fonts/simhei.ttf',max_words = 100,mask = mask,max_font_size = 100, margin = 2,scale = 2,stopwords=stopwords) cloud.generate(text) plt.imshow(cloud) plt.axis=("off")wordcloud(data)

虎嗅文章分析(二)
文章图片
文章标题词云.PNG
从词云图中可以发现:
*虎嗅网上的文章主要集中在中国互联网公司,主要的关键字包括:互联网、阿里、腾讯、微信、百度、电商、苹果、小米等等。
2013年到2018年互联网行业情况 【虎嗅文章分析(二)】分析2013年到2018年6年间虎嗅网文章标题看互联网发展趋势。

虎嗅文章分析(二)
文章图片
从2013年到2018年情况.jpg
  • 2013年,媒体、百度、电商、微信
  • 2014年,微信、小米、阿里、电商、腾讯
  • 2015年,小米,创业,苹果、阿里、O2O
  • 2016年,创业,苹果,投资,微信,VR
  • 2017年,腾讯,阿里,游戏,AI
  • 2018年,阿里,腾讯,游戏,小米,AI,区块链
    从2013年到2018年,互联网行业热点一直在变化,2019年会是什么呢?

    推荐阅读