最近央视新闻采访人员王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。
1、导入需要的库
import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图
2、 jieba分词
所谓的分词就是将一句话分成一个或几个词语的形式,最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以价位@762459510 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~
分词代码
# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件
3、打印出的为一个停用词列表
with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()
4、读取冰冰弹幕数据文件的操作,将其保存到text变量中
segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
# 如果该词不属于停用词表 并且非空 长度不为1
if seg not in stopwords and seg != "" and len(seg) != 1:
# 将该词语添加到mytext_list列表中
mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据
5、获取过滤停用词后的冰冰弹幕数据
cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)
到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索python教程入门学习以前的文章或继续浏览下面的相关文章希望大家以后多多支持python教程入门学习!
【python|Python爬虫自动化爬取b站实时弹幕实例方法】福利:私信回复【01】可免费获取python入门教程视频
推荐阅读
- python|手把手教你使用Python获取B站视频并在本地实现弹幕播放功能
- python|python b站自动评论_用语音识别+python自动发送弹幕,变成B站野生字幕君吧!
- python|【Python基础教程】类的定义和使用
- 抖音方案|抖音直播监控-循环值守24小时-直播弹幕
- python|python写一个简单的爬虫程序(爬取快手)(附源码)
- 阿里云的认证是不是最好的(考起来难不难?)
- 吴恩达深度学习课程编程作业|吴恩达深度学习课程第四章第一周编程作业(pytorch实现)
- python基础知识|【实现用户注册,登录和登出】但是用 Flask + MySQL(python)
- pycharm|最新版pycharm-2022.1中换源按钮manage repositories更改位置