信息检索
#数据收集
## 内部数据收集
## 互联网数据收集
【信息检索】### 爬虫
### 爬虫的工作模式:
提供一个或若干个初始网页的地址, 获得初始网页上的URL列表,然后在抓取网页的过程中,不断地从当前页面上抽取新的URL放入待爬队列。
### 获取新的URL的策略:
深度优先、广度优先、最佳优先
### 已有框架介绍Heritrix
# 数据存储
# 数据处理
## 信息检索
## 基础算法
PageRank、HITS:
## 工具
elasticsearch
solr
## 扩展:推荐系统
## 推荐系统工具:mahout
推荐阅读
- Docker应用:容器间通信与Mariadb数据库主从复制
- 书评——《小行星》
- 使用协程爬取网页,计算网页数据大小
- Java|Java基础——数组
- Python数据分析(一)(Matplotlib使用)
- Jsr303做前端数据校验
- Spark|Spark 数据倾斜及其解决方案
- 数据库设计与优化
- 爬虫数据处理HTML转义字符
- 数据库总结语句