python爬虫之抓取小说(逆天邪神) python爬虫之抓取小说(逆天邪神

【python爬虫之抓取小说(逆天邪神)】2022-03-06 23:05:11
申明：自我娱乐，对自我学习过程的总结。
正文：环境：

系统：win10，
python版本：python3.10.2，
工具：pycharm。

项目目标：

实现对单本小说的更新判断，省去人工登录浏览器看小说的繁琐操作。
如果小说内容更新了，那么自动下载你没看过的小说内容到本地，并保存为txt格式。
对项目代码封装成可单独运行在win10上的exe文件。

最终效果：都已实现。可以判断小说更新了没；更新了就下载下来；通过调整小说的已看章节数（就是你上次浏览小说章节位置记录）可以达到直接保存整本小说。
项目实现流程： 1. 主程序
我这里只写了一个main.py，就一个主函数解决了。

# 这个是一个爬取小说的工具
# 内容针对逆天邪神
# 功能1:是判断小说是否更新，如果更新就下载下来
# 功能2:下载整本小说（单线程），一般都是自动下载最新更新的几章，单线程足够。——懒
?
?
import requests
import re
from bs4 import BeautifulSoup
import os
?
if __name__ == '__main__':
novel_url = "https://www.bige3.com/book/1030/"# 逆天邪神
return_value = https://www.it610.com/article/is_update(novel_url)# 更新章节数
if return_value =https://www.it610.com/article/= 0:
print("小说尚未更新!")
else:
print("小说已更新" + str(return_value) +"章!")
print("正在下载已更新的小说......")
download_novel(return_value)
# os.system("pause")# 调试时注释掉，封装时打开，用于观察结果

2. 功能函数
2.1 功能函数is_update()

def is_update(url):
heards = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"
}
try:
resp = requests.get(url, headers=heards)
resp.raise_for_status()# 检查Response状态码,若不是200则产生HttpError异常
resp.encoding = 'utf-8'
except:
print("爬取失败")
?
resp = re.findall(r'(.*?)', resp.text)
# print("请求返回的列表中的最后一章是:" + resp[-1])
with open("小说更新记录.txt", "r", encoding='utf-8') as f:# 打开文件
data = https://www.it610.com/article/f.read()# 读取文件
# print("source_novel_data is:" + str(data))
if data =https://www.it610.com/article/= str(resp[-1]):
# print("===章节一致,小说尚未更新!")
return 0
else:
# print("!==小说更新啦,并将更新值加入到小说更新记录.txt")
data_num = re.findall(r'\d+', data)# list
data_num = ''.join(data_num)# str
resp_num = re.findall(r'\d+', resp[-1])
resp_num = ''.join(resp_num)
gap_num = int(resp_num)-int(data_num)# 更新章节数
with open("小说更新记录.txt", "w", encoding='utf-8') as f:# 打开文件
f.write(str(resp[-1]))# 读取文件
print("writing is ok!")
return gap_num

2.2 功能函数download_novel(return_value)

# 单线程方式
def download_novel(return_value):
if return_value >= 1:
for i in range(1, return_value+1, 1):
print(i)
with open("小说更新记录.txt", "r", encoding='utf-8') as f:# 打开文件
data = https://www.it610.com/article/f.read()# 读取文件 str
data_num = re.findall(r'\d+', data)# list
data_num = ''.join(data_num)# str
download_num = int(data_num)+1-(i-1)
# print(download_num)
print(novel_url+str(download_num)+'.html')
resp = requests.get(novel_url+str(download_num)+'.html')
# print(resp.content)
soup = BeautifulSoup(resp.text, 'lxml')
soup.select('#chaptercontent')
mytxt = soup.text[soup.text.find('下一章'):soup.text.rfind('『点此报错')]
mytxt = mytxt[3:]
mytxt = mytxt.strip()
mytxt = mytxt.replace('', '\n')
novel_save_location = "./novel_downloads/逆天邪神第"+str(download_num-1)+"章.txt"
with open(novel_save_location, "w", encoding='utf-8') as f:# 打开文件
f.write(mytxt)
print("下载完毕!")
else:
print("invalid parameter!")

注意：

调试时要创建文件夹novel_downloads，并标注为Exclusion，防止pycharm自动创建索引，使电脑卡顿。
封装后的main.exe要保证它所在的路径下有两个东西：文件夹novel_downloads和文件小说更新记录.txt。
初始阶段保证文件小说更新记录.txt里有个数字就行，随便啥（1 or 1935等）

全部代码：（直接能爬）

# 这个是一个爬取小说的工具
# 内容针对逆天邪神
# 功能1:是判断小说是否更新，如果更新就下载下来
# 功能2:下载整本小说（单线程），一般都是自动下载最新更新的几章，单线程足够。——懒
?
import requests
from lxml import etree
import re
from bs4 import BeautifulSoup
import os
?
def is_update(url):
heards = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"
}
try:
resp = requests.get(url, headers=heards)
resp.raise_for_status()# 检查Response状态码,若不是200则产生HttpError异常
resp.encoding = 'utf-8'
except:
print("爬取失败")
?
resp = re.findall(r'(.*?)', resp.text)
# print("请求返回的列表中的最后一章是:" + resp[-1])
with open("小说更新记录.txt", "r", encoding='utf-8') as f:# 打开文件
data = https://www.it610.com/article/f.read()# 读取文件
# print("source_novel_data is:" + str(data))
if data =https://www.it610.com/article/= str(resp[-1]):
# print("===章节一致,小说尚未更新!")
return 0
else:
# print("!==小说更新啦,并将更新值加入到小说更新记录.txt")
data_num = re.findall(r'\d+', data)# list
data_num = ''.join(data_num)# str
resp_num = re.findall(r'\d+', resp[-1])
resp_num = ''.join(resp_num)
gap_num = int(resp_num)-int(data_num)# 更新章节数
with open("小说更新记录.txt", "w", encoding='utf-8') as f:# 打开文件
f.write(str(resp[-1]))# 读取文件
print("writing is ok!")
return gap_num
?
?
# 单线程方式
def download_novel(return_value):
if return_value >= 1:
for i in range(1, return_value+1, 1):
print(i)
with open("小说更新记录.txt", "r", encoding='utf-8') as f:# 打开文件
data = https://www.it610.com/article/f.read()# 读取文件 str
data_num = re.findall(r'\d+', data)# list
data_num = ''.join(data_num)# str
download_num = int(data_num)+1-(i-1)
# print(download_num)
print(novel_url+str(download_num)+'.html')
resp = requests.get(novel_url+str(download_num)+'.html')
# print(resp.content)
soup = BeautifulSoup(resp.text, 'lxml')
soup.select('#chaptercontent')
mytxt = soup.text[soup.text.find('下一章'):soup.text.rfind('『点此报错')]
mytxt = mytxt[3:]
mytxt = mytxt.strip()
mytxt = mytxt.replace('', '\n')
novel_save_location = "./novel_downloads/逆天邪神第"+str(download_num-1)+"章.txt"
with open(novel_save_location, "w", encoding='utf-8') as f:# 打开文件
f.write(mytxt)
print("下载完毕!")
else:
print("invalid parameter!")
?
?
if __name__ == '__main__':
novel_url = "https://www.bige3.com/book/1030/"# 逆天邪神
return_value = https://www.it610.com/article/is_update(novel_url)
if return_value =https://www.it610.com/article/= 0:
print("小说尚未更新!")
else:
print("小说已更新" + str(return_value) +"章!")
print("正在下载已更新的小说......")
download_novel(return_value)
os.system("pause")
?