Python|python的set在大数据分析中的应用
1.python中set数据结构说明 set(集合)是一个无序不重复元素的集,并且这些元素不需要是相同类型的数据。其基本功能包括关系测试和消除重复元素。集合对象还支持 union(联合),intersection(交),difference(差)和sysmmetric difference(对称差集)等数学运算。
2.set基本用法
- 初始化一个set变量:
>>> x = set('spam')
>>> y = set(['h','a','m'])
>>> x, y
(set(['a', 'p', 's', 'm']), set(['a', 'h', 'm']))
- 来一些基本的操作:
#计算出两个集合的交集
>>> x.intersection(y)
set(['a', 'm'])#计算两个几个的并集
>>>x.union(y)
set(['a', 'p', 's', 'h', 'm'])#计算两个集合的差
>>>x.difference(y)
set(['p', 's'])#对称差集
>>>>print x.symmetric_difference(y)
set(['h', 's', 'p'])#去重
>>>t = set("Hello")
>>>>t
set(['H', 'e', 'l', 'o'])#注意返回结果里只有一个"l"#添加元素
>>>t.add("ss")
>>>t
set(['ss', 'H', 'e', 'l', 'o'])#删除元素
>>>>t.discard("ss")
>t
set(['H', 'e', 'l', 'o'])
3.总结 【Python|python的set在大数据分析中的应用】在数据分析中,对于百万级别的数据,有时候我们选择用python直接进行分析,那么应用set这种数据结构可以很好地对数据进行去重,删除,数据碰撞等操作。
推荐阅读
- 热闹中的孤独
- JAVA(抽象类与接口的区别&重载与重写&内存泄漏)
- 放屁有这三个特征的,请注意啦!这说明你的身体毒素太多
- 一个人的旅行,三亚
- 布丽吉特,人生绝对的赢家
- 慢慢的美丽
- 尽力
- 一个小故事,我的思考。
- 家乡的那条小河
- 《真与假的困惑》???|《真与假的困惑》??? ——致良知是一种伟大的力量