Python结构化数据分析工具Pandas之Pandas概览

Pandas是做数据分析最核心的一个工具。我们要先了解数据分析,才能更好的明白Pandas,因此,本文分为两个部分:
1.数据分析
2.Pandas概述

  1. 数据分析
    1.1 数据分析的背景
    随着计算机的大规模普及,网络数据有了一个爆发性地增长,驱使着人们进入了一个崭新的时代:大数据时代
    思考一个问题
    既然数据这么多,怎么才能快速地拿到有价值的数据呢?
    数据分析就可以从海量数据中挖掘潜藏的有价值的信息,帮助企业或个人预测未来的趋势和行为。所以,不管从事什么行业,如果掌握了数据分析的能力,就会在其岗位上非常具有竞争力!
    1.2 什么是数据分析
    数据分析是使用统计分析方法对数据进行分析,从中提取有用信息和形成结论,并加以详细研究和概括总结的过程。
    数据分析的目的是:将隐藏在一大批看似杂乱无章的数据信息集中提炼出来有用的数据,以找出所研究对象的内在规律。
    在统计学领域中,数据分析可以划分为如下三类:
类目描述描述性数据分析从一组数据中,可以摘要并且描述这份数据的集中和离散情形。探索性数据分析从海量数据中找出规律,并产生分析模型和研究假设。验证性数据分析验证科研假设测试所需的条件是否达到,以保证验证性分析的可靠性。
1.3 数据分析的应用场景
应用方法及其结果营销方面通过会员卡形式获得消费者的个人信息,以便对消费者的购买信息进一步研究其购买习惯,发现各类有价值的目标群体。医疗方面医生通过记录和分析婴儿的心跳来监视早产婴儿和患病婴儿的情况,并针对婴儿的身体可能会出现的不适症状做出预测,这样可以帮助医生更好的救助患儿。零售方面在美国零售业曾经有这样一个传奇故事,某家商店将纸尿裤和啤酒并排放在一起销售,结果纸尿裤和啤酒的销量双双增长!网络安全方面新型的病毒防御系统可以使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的可疑模式。交通物流方面用户可以通过业务系统和GPS定位系统获得数据,使用数据构建交流状况预测分析模型,有效预测实时路况、物流状况、车流量、货物吞吐量,进而提前补货,制定库存管理策略。## 1.4 数据分析的流程数据分析大致可以分为以下五个阶段:## 1.5 为什么选择Python做数据分析==问:==
为什么选择Python做数据分析?
选择Python做数据分析,主要考虑的是Python具有以下优势:
语法简单精炼,适合初学者
拥有一个巨大且活跃的科学计算社区(强大的后援团!)
拥有强大的通用编程能力
人工智能时代的通用语言
方便对接其它语言(Python是一种胶水语言)
  1. Pandas概述
    2.1 Pandas简介
    Python本身的数据分析功能并不强,需要安装一些第三方的扩展库来增强它的能力。其中,针对结构化数据(可简单理解为二维表数据,或我们常用的Excel表格数据)分析能力最强的第三方扩展库就是Pandas
    2.2 Pandas来源
    Pandas 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来的,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。
    2.3 Pandas 特点
【Python结构化数据分析工具Pandas之Pandas概览】Pandas 是基于NumPy 的一种工具包,是为解决数据分析任务而创建的。但Numpy只能处理数字,若想处理其他类型的数据,如字符串,就要用到Pandas了。
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,是使Python成为强大而高效的数据分析语言的重要因素之一。
Pandas 可以从各种文件格式比如CSV、JSON、SQL、Microsoft Excel 导入数据。
Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。
2.4 Pandas最主要的两种数据结构:
Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。
Series 是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

    推荐阅读