7.2|7.2 数据处理 : 数据的去重
知识基础
- Pandas包基础:pd.read_csv
- 正则表达式基础
首先每一行需要基于一个或者多个属性(attribution)是唯一(unique)的,或者确定数据唯一的规则,然后对数据进行查重和去重处理,继续以
data.csv
为例。导入数据
from datapipeline import data
data.head()
文章图片
现在没有重复的行,我们可以先手动添加一下
data = https://www.it610.com/article/data.append(data[0:10])
print(data.__len__())
110
显然,data中ASIN为唯一attr,可基于ASIN去重
data = https://www.it610.com/article/data.drop_duplicates('ASIN')
print(data.__len__())
100
【7.2|7.2 数据处理 : 数据的去重】Tip:
实际操作过程中要基于数据特征和业务需求进行去重处理,甚至可能需要自行编写去重规则,在此先不展开说明了。
推荐阅读
- Docker应用:容器间通信与Mariadb数据库主从复制
- 使用协程爬取网页,计算网页数据大小
- Java|Java基础——数组
- Python数据分析(一)(Matplotlib使用)
- Jsr303做前端数据校验
- Spark|Spark 数据倾斜及其解决方案
- 数据库设计与优化
- 爬虫数据处理HTML转义字符
- 数据库总结语句
- MySql数据库备份与恢复