python函数搜索引擎 python 搜索 _网页

如何用Python爬取搜索引擎的结果我选取的是爬取百度知道的html 作为我的搜索源数据，目前先打算做网页标题的搜索，选用了 Python 的 scrapy 库来对网页进行爬取，爬取网页的标题，url，以及html，用sqlist3来对爬取的数据源进行管理。
爬取的过程是一个深度优先的过程，设定四个起始 url，然后维护一个数据库，数据库中有两个表，一个 infoLib，其中存储了爬取的主要信息：标题，url，html；另一个表为urlLib，存储已经爬取的url，是一个辅助表，在我们爬取每个网页前，需要先判断该网页是否已爬过（是否存在urlLib中）。在数据存储的过程中，使用了SQL的少量语法，由于我之前学过 MySQL ，这块处理起来比较驾轻就熟。
深度优先的网页爬取方案是：给定初始 url，爬取这个网页中所有 url，继续对网页中的 url 递归爬取。代码逐段解析在下面，方便自己以后回顾。
1.建一个 scrapy 工程：
关于建工程，可以参看这个scrapy入门教程，通过运行:
[python] view plain copy
scrapy startproject ***
在当前目录下建一个scrapy 的项目，然后在 spiders 的子目录下建立一个 .py文件，该文件即是爬虫的主要文件，注意：其中该文件的名字不能与该工程的名字相同，否则，之后调用跑这个爬虫的时候将会出现错误，见ImportError 。
2.具体写.py文件：
[python] view plain copy
import scrapy
from scrapy import Request
import sqlite3
class rsSpider(scrapy.spiders.Spider):#该类继承自 scrapy 中的 spider
name = "zhidao"#将该爬虫命名为 “知道”，在执行爬虫时对应指令将为： scrapy crawl zhidao
#download_delay = 1#只是用于控制爬虫速度的， 1s/次，可以用来对付反爬虫
allowed_domains = ["zhidao.baidu.com"]#允许爬取的作用域
url_first = ''#用于之后解析域名用的短字符串
start_urls = ["", #python
"", #database
"", #C
"", #operator system
""#Unix programing
] #定义初始的 url ，有五类知道起始网页
#add database
connDataBase = sqlite3.connect("zhidao.db")#连接到数据库“zhidao.db”
cDataBase = connDataBase.cursor()#设置定位指针
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通过定位指针操作数据库，若zhidao.db中 infoLib表不存在，则建立该表，其中主键是自增的 id（用于引擎的docId）,下一列是文章的标题，然后是url，最后是html
【python函数搜索引擎 python 搜索】#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通过定位指针操作数据库，若zhidao.db中urlLib表不存在，则建立该表，其中只存了 url，保存已经爬过的url，之所以再建一个表，是猜测表的主键应该使用哈希表存储的，查询速度较快，此处其实也可以用一个外键将两个表关联起来
2. .py文件中的parse函数：
.py文件中的parse函数将具体处理url返回的 response，进行解析，具体代码中说明：
[python] view plain copy
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0]#解析爬取网页中的名称
pageUrl = response.xpath("//head/link").re('href="https://www.04ip.com/post/(.*?)"')[0]#解析爬取网页的 url，并不是直接使用函数获取，那样会夹杂乱码
pageHtml = response.xpath("//html").extract()[0]#获取网页html
# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若当前url 是 start_url 中以一员。进行该判断的原因是，我们对重复的 start_url 中的网址将仍然进行爬取，而对非 start_url 中的曾经爬过的网页将不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines):#若当前Url已经爬过
pass#则不再在数据库中添加信息，只是由其为跟继续往下爬
else:#否则，将信息爬入数据库
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else:#此时进入的非 url 网页一定是没有爬取过的（因为深入start_url之后的网页都会先进行判断，在爬取，在下面的for循环中判断）
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
self.connDataBase.commit()#保存数据库的更新
print "-----------------------------------------------" #输出提示信息，没啥用
for sel in response.xpath('//ul/li/a').re('href="https://www.04ip.com/post/(/question/.*?.html)'):#抓出所有该网页的延伸网页，进行判断并对未爬过的网页进行爬取
sel = ""sel#解析出延伸网页的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
lines = self.cDataBase.fetchall()
if len(lines) == 0:#若不在，则对其继续进行爬取
yield Request(url = sel, callback=self.parse)
用python制作一个搜索引擎可能帮不上忙。但别的语言有现成的。用java 的 solr做搜索，索引，分词。只需要配置xml，不用写代码。然后加上前端页面搜索就完成了。用python的scrapy可以做爬虫。你的需求我感觉简单做，都不需要索引，直接查数据库。模糊查询还有一个java的nutch，几乎不用写代码，直接爬虫＋索引＋界面一套都实现好了，什么高亮，快照都有，直接用。不知道你能出多少钱？
用python实现网页搜索功能不知道你知道不知道AJAX ，如果知道这个就容易弄了，用jq来POST数据，然后前面只用一个静太页就可以，点搜索就用ajax把搜索请求发过去，点修改就发修改请求
如果在一个页面要实现也可以在下面加一个隐藏的input用来定义是哪个功能，然后后台再根据这个功能名去判断如何处理
关于python函数搜索引擎和python 搜索的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

python函数搜索引擎 python 搜索

推荐阅读

最火微信昵称三字心情敞亮三个字正能量微信昵称

禅师怎么读禅师的读法

计算机学院学生会会徽设计,计算机学院院徽和学会会徽设计大赛.doc

《一起连环绑架案的新闻》Part2

go语言识别协议 go语言图像识别

为什么有的人朋友圈会有一条直线？

电影o2o服务系统提供商分析

劲牌主题酒劲牌的市场行情

抖音怎么制作无限循环视频？抖音无限循环视频制作方法

阿里斯顿壁挂炉HSX故障解决步骤与方法

黄瓜拉秧是什么意思，黄瓜秧用掐尖打叉吗

菜谱英文翻译怎么写菜谱英文翻译简短版

初学|关于控件ID的学习心得

硬盘服务器怎么连接磁盘服务器怎么接入的

佳能5d4相机什么卡口佳能5d4有cfast卡槽吗

mysql8.0设置外键 mysql修改外健的数据

2023过年打扫卫生是哪一天 2020年什么时候打扫卫生

王者荣耀单挑什么英雄最强？

炸猪排饭的做法香炸猪扒饭团怎么做

不要自怨自艾的过着