利用python爬取m3u8格式视频的具体实现利用python爬取m3u8格式视频的具

m3u8原理
脚本环境
爬取步骤
步骤的具体实现
python细节处理说明
参考代码
总结

m3u8原理当我们在网页播放视频时，网页向服务器发起一个以.m3u8结尾的连接请求，服务器会将具体的.ts文件链接路径发送给网页，网页接收这写链接路径，并向这些链接发送请求，请求到的资源就是.ts视频文件，他和我们常见的mp4文件只是封装格式的不同，而且.ts文件的大小很小，我爬取的.ts文件只有六秒的视频文件。之后网页将这些.ts文件整合在一起并进行播放。

脚本环境 python3.8、win 10
【利用python爬取m3u8格式视频的具体实现】
爬取步骤 python要做的事情
1、选择可以爬取的视频网站
2、获取.m3u8的URL路径
3、通过requests.get获取.ts文件路径
4、保存.ts文件
5、合并.ts文件为mp4格式

步骤的具体实现 1、视频网站：https://www.3s8m.com/
2、随便选择一个视频进入播放页面，按下F12或者Fn+F12，打开审查元素，选择网络，刷新页面，暂停视频，在审查元素的网络页面选择XHR(没有可以直接在全部搜索m3u8)，找到以m3u8结尾的数据包，点击获取URL
3、python 编写代码请求该URL，打印返回的数据；代码如下

import requestsurl = “用第二部找到的URL填入”results = requests.get(url) #发送get请求results.encoding=“utf8” #设置编码格式，从网页源码中的head中可以看编码格式，这步不关键print(results.text) #打印结果results.close() #关闭

4、可以发现第3步中打印结果有很多URL地址，这些地址就是ts文件的地址，python下载ts文件

import requesturl =“填入获取到的ts文件的URL”results = requests.get(url)results.encoding =“utf8”with open("./a.ts",“wb”) as file:file.write(results.content)results.close()

5、合并全部的ts文件，调用python的os库，使用系统命令(copy /b a.ts+b.ts a.mp4)进行合并

import osos.system(“copy /b a.ts+b.ts a.mp4”)

python细节处理说明 1、上述是通过手动查找获取的m3u8地址，那么为什么不用python去爬取，如果用python去爬取那么就需要对爬取的内容进行分析检索，我使用正则进行检索，也可以用xpath、bs4等方式进行检索。
2、一个m3u8地址会对应多个ts文件地址，我们应该对同一个m3u8的ts地址进行整体保存，下载后进行整合在一起变为一个m3u8对应一个视频
3、我们在浏览上述提供的网站时会发现，有些资源有不通播放源，有些版源不能用，那么我们在进行检索的时候可以多加一个进行源切换的操作
4、至于保存的文件名、文件路径这些自己返回，具体的代码下面会提供一个参考。

参考代码使用代码的前提条件及说明：
1、在代码文件的目录下建一个名为ts_path的文件夹用于保存爬取过程中的临时文件(.ts文件)
2、保存的视频会存放与代码文件同一目录线下，视频名称为集数.mp4
3、视频下载完，ts_path中的文件需要手动删除，由于之前使用os.system进行删除，误删了我不少源码，决定不加删除代码防止意外
4、代码只是用与上述提供的网站，其他网站需要自己进行修改

import requestsimport reimport osURL = "输入URL" #视频URLresources = 0#播放源选择episode_urls = [] #存放章节URLepisode_names = [] #存放章节名称m3u8_urls = []#存放ts文件的URLdef get_episode(URL,resources): #获取章节名和路径results = requests.get(URL)results.encoding = "utf-8"all = results.textresults.close()episode = re.findall('
.*?
', all, flags=re.S)b = re.finditer('href="https://www.it610.com/article/.*?', episode[resources],flags=re.S)for i in b:i = i[0].replace('href="', "").replace('"', "")episode_urls.append("https://www.3s8m.com" + i.split('>', 1)[0])episode_names.append(i.split('>', 1)[1].replace("", ""))print(episode_names)print(episode_urls)def get_ts(episode_urls): #获取ts文件路径for i in episode_urls:results = requests.get(i)results.encoding = "utf8"results = re.search('https:.*?\.m3u8', str(results.text),flags=re.S)m3u8_urls.append(results[0].replace("\\", ""))print(m3u8_urls)def download_video(episode_names, m3u8_urls): #下载ts文件并整合为mp4文件for i in range(len(m3u8_urls)):try:print(m3u8_urls[i])results = requests.get(m3u8_urls[i])results.encoding = "utf8"all = re.finditer("https://.*?#", results.text, flags=re.S)results.close()cmd = []n = 0for j in all:n += 1ts_url = j[0].replace("\n#", "")cmd.append(f'{n}.ts')results = requests.get(ts_url,)results.encoding = "utf8"with open(f"./ts_path/{n}.ts", "wb") as file:file.write(results.content)results.close()print(f"{n}.ts 下载完成")os.chdir("ts_path")if ("ts_path" in os.getcwd()):cmd = "+".join(cmd)cmd = f"copy /b {cmd} {episode_names[i]}.mp4"os.system(cmd)os.system(f"move {episode_names[i]}.mp4 ../")os.chdir("../")print(f"{episode_names[i]}.mp4 下载成功")except Exception as e:print(e)exit(0)if __name__ == '__main__':get_episode(URL, resources)get_ts(episode_urls)download_video(episode_names, m3u8_urls)