爬虫之哔哩哔哩弹幕的获取学习笔记

【爬虫之哔哩哔哩弹幕的获取】突然想爬一下哔哩哔哩的弹幕，视频不重要，弹幕才是本体，从弹幕的内容里还可以看出来大众的态度和情绪，是一个很好的舆论分析的工具。
分析一下接口，

文章图片

是一个以list开头的xhr文件

import time,requests,re from selenium import webdriver from lxml import etree """解析哔哩哔哩弹幕：哔哩哔哩二次请求的弹幕文件是一个xml文件，这里用两种方法来解析""" # 第一种方式，使用selenium来解析，这种方式不用解码与编码 # driver = webdriver.PhantomJS(executable_path=r'C:\python3.5.3\phantomjs-2.1.1-windows\bin\phantomjs.exe') # base_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=100236969' # driver.get(base_url) # # 弹幕主体是被d标签包围的 # muma=driver.find_elements_by_tag_name('d') # for dan in muma: #print(dan.text)# 第二种方式是用requests与xpath来解析，不需要解码 base_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=100236969' contents = requests.get(base_url).content contents = etree.XML(contents) #使用html也可以 #contents = etree.XML(contents) muma = contents.xpath('.//d/text()') for dan in muma: print(dan)# 第三种方式是正则提取，需要解码 # base_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=100236969' # contents = requests.get(base_url).content.decode('utf-8') # muma_rule = re.compile(r'(.*?)') # muma = muma_rule.findall(contents) # for dan in muma: #print(dan)

爬虫之哔哩哔哩弹幕的获取

推荐阅读

非洲草原所有动物名单非洲大草原上的动物

荣耀V20和荣耀20有什么区别,哪个性价比更高？

如何救助被泥石流伤害的人员

河北师范大学招生办公室河北师范大学招生办电话号码

Word如何固定表格表名，word怎么固定表格

我是特种兵之利刃出鞘大结局我是特种兵之利刃出鞘大结局剧情大结局完整播放

秋天喝凉茶伤脾伤胃伤肠道

[RK3288][Android6.0] RTC模块RX8010SJ驱动添加及改动

土豆怎么保存不发芽

创业直播录屏，直播录屏算原创吗

如何在牛仔裤上磨烂皮肤如何在牛仔裤上磨烂，如何在牛仔裤上磨烂布

服务器怎么查看磁盘内存服务器怎么查看磁盘

想买一个单反,请问索尼有什么推荐的产品？

如何在魅族手机上登录云服务器？魅族手机怎么登录云服务器

请问鲍鱼买回家可以养多久

小开头的三个字网名搞笑小开头的三个字网名

夫妻债务新司法解释夫妻债务新司法解释2018溯及力

灶台风水朝向西最吉利灶台风水朝向西是不是最吉利

我的世界fill怎么玩？

《汉字找茬王》找出最近的热梗通关攻略