python处理音频数据_Python爬虫音频数据 python处理音频数据

一：前言
本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息，然后把爬取的数据保存到mongodb以备后续使用。这次数据量在70万左右。音频数据包括音频下载地址，频道信息，简介等等，非常多。
昨天进行了人生中***次面试，对方是一家人工智能大数据公司，我准备在这大二的暑假去实习，他们就要求有爬取过音频数据，所以我就来分析一下喜马拉雅的音频数据爬下来。目前我还在等待三面中，或者是通知最终面试消息。 (因为能得到一定肯定，不管成功与否都很开心)
【python处理音频数据_Python爬虫音频数据】二：运行环境
IDE：Pycharm 2017
Python3.6
pymongo 3.4.0
requests 2.14.2
lxml 3.7.2
BeautifulSoup 4.5.3
三：实例分析
1.首先进入这次爬取的主页面 http://www.ximalaya.com/dq/all/ ，可以看到每页12个频道，每个频道下面有很多的音频，有的频道中还有很多分页。抓取计划：循环84个页面，对每个页面解析后抓取每个频道的名称，图片链接，频道链接保存到mongodb。

文章图片

热门频道
2.打开开发者模式，分析页面，很快就可以得到想要的数据的位置。下面的代码就实现了抓取全部热门频道的信息，就可以保存到mongodb中。

文章图片

文章图片

分析频道
3.下面就是开始获取每个频道中的全部音频数据了，前面通过解析页面获取到了美国频道的链接。
比如我们进入 http://www.ximalaya.com/6565682/album/237771 这个链接后分析页面结构。可以看出每个音频都有特定的ID，这个ID可以在一个div中的属性中获取。使用split()和int()来转换为单独的ID。

文章图片

频道页面分析
4.接着点击一个音频链接，进入开发者模式后刷新页面然后点击XHR，再点击一个json链接可以看到这个就包括这个音频的全部详细信息。

文章图片

文章图片

音频页面分析
5.上面只是对一个频道的主页面解析全部音频信息，但是实际上频道的音频链接是有很多分页的。

文章图片

文章图片

分页
6.全部代码
完整代码地址 github.com/rieuse/learnPython

文章图片

7.如果改成异步的形式可以快一点，只需要修改成下面这样就行了。我试了每分钟要比普通的多获取近100条数据。这个源代码也在github中。

文章图片

异步
五：总结
这次抓取的数据量在70万左右，这些数据后续可以进行很多研究，比如播放量排行榜、时间区段排行、频道音频数量等等。后续我将继续学习使用科学计算和绘图工具来进行数据分析，清洗的工作。
【编辑推荐】
【责任编辑：枯木 TEL：(010)68476606】
点赞 0

python处理音频数据_Python爬虫音频数据

推荐阅读

桂鱼是淡水鱼还是海水鱼？桂鱼不宜和什么一起吃

辉哥每日说，关键词（知识鸿沟）

天猫超市可以选快递吗

济南高新社保最低缴费基数2023年个人缴费价格多少？

电脑桌面中下载东西的没有了怎么办？如何把歌曲下载到电脑桌面上？

许光汉有多高许光汉有没有女朋友

北京安贞医院皮肤科怎么样首都安贞医院好不好

winkawaks模拟器下载，winkawaks模拟器中文版

芡实有什么副作用和禁忌

百香果和鸡蛋果的区别？

红豆薏米茶泡出来为什么是很黄的颜色

浏阳人社关于暂停办理流动人员人事档案业务的温馨提示

机械表怎么上发条顺时针

没有毕业证可以参加成人高考吗

生长在雨后的山坡上,在农村叫\＂地骨廉\＂,你吃过吗?在你们哪儿叫什么？

c语言二次函数运算法则 c语言计算二元一次函数

360度摄像头怎么设置教程一览

大年初一可以睡懒觉吗

碧玉甜瓜图片碧玉黄瓜做法步骤

安卓代码转ios,怎么弄到安卓1?