Python|python的set在大数据分析中的应用

1.python中set数据结构说明 set(集合)是一个无序不重复元素的集,并且这些元素不需要是相同类型的数据。其基本功能包括关系测试和消除重复元素。集合对象还支持 union(联合),intersection(交),difference(差)和sysmmetric difference(对称差集)等数学运算。
2.set基本用法

  1. 初始化一个set变量:
>>> x = set('spam') >>> y = set(['h','a','m']) >>> x, y (set(['a', 'p', 's', 'm']), set(['a', 'h', 'm']))

  1. 来一些基本的操作:
#计算出两个集合的交集 >>> x.intersection(y) set(['a', 'm'])#计算两个几个的并集 >>>x.union(y) set(['a', 'p', 's', 'h', 'm'])#计算两个集合的差 >>>x.difference(y) set(['p', 's'])#对称差集 >>>>print x.symmetric_difference(y) set(['h', 's', 'p'])#去重 >>>t = set("Hello") >>>>t set(['H', 'e', 'l', 'o'])#注意返回结果里只有一个"l"#添加元素 >>>t.add("ss") >>>t set(['ss', 'H', 'e', 'l', 'o'])#删除元素 >>>>t.discard("ss") >t set(['H', 'e', 'l', 'o'])

3.总结 【Python|python的set在大数据分析中的应用】在数据分析中,对于百万级别的数据,有时候我们选择用python直接进行分析,那么应用set这种数据结构可以很好地对数据进行去重,删除,数据碰撞等操作。

    推荐阅读