数据分析员用python做数据分析是怎么回事,需要用到python中的那些内容,具体是怎么操作的?最近,Analysis with Programming加入了Planet Python 。我这里来分享一下如何通过Python来开始数据分析 。具体内容如下:
数据导入
导入本地的或者web端的CSV文件;
数据变换;
数据统计描述;
假设检验
单样本t检验;
可视化;
创建自定义函数 。
数据导入
1
这是很关键的一步,为了后续的分析我们首先需要导入数据 。通常来说,数据是CSV格式,就算不是,至少也可以转换成CSV格式 。在Python中,我们的操作如下:
import pandas as pd
# Reading data locally
df = pd.read_csv('/Users/al-ahmadgaidasaad/Documents/d.csv')
# Reading data from web
data_url = ""
df = pd.read_csv(data_url)
为了读取本地CSV文件 , 我们需要pandas这个数据分析库中的相应模块 。其中的read_csv函数能够读取本地和web数据 。
END
数据变换
1
既然在工作空间有了数据,接下来就是数据变换 。统计学家和科学家们通常会在这一步移除分析中的非必要数据 。我们先看看数据(下图)
对R语言程序员来说,上述操作等价于通过print(head(df))来打印数据的前6行,以及通过print(tail(df))来打印数据的后6行 。当然Python中,默认打印是5行,而R则是6行 。因此R的代码head(df, n = 10),在Python中就是df.head(n = 10),打印数据尾部也是同样道理
请点击输入图片描述
2
在R语言中 , 数据列和行的名字通过colnames和rownames来分别进行提取 。在Python中,我们则使用columns和index属性来提取,如下:
# Extracting column names
print df.columns
# OUTPUT
Index([u'Abra', u'Apayao', u'Benguet', u'Ifugao', u'Kalinga'], dtype='object')
# Extracting row names or the index
print df.index
# OUTPUT
Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78], dtype='int64')
3
数据转置使用T方法,
# Transpose data
print df.T
# OUTPUT
0123456789
Abra12434158178717152126655769272154010395424
Apayao2934923519221450123857452109917038138210588
Benguet14842871955353625307712796246325921064
Ifugao33008063107419607331513134513414226684213828
Kalinga1055335257454431687852028252310636238497340140
...697071727374757677
Abra...12763247059094620913316250560303631113345
Apayao...3762519532351266335386132087840065675638902
Benguet...235440455987353025853519706235612583
Ifugao...9838171251894015560774619737194221591011096
Kalinga...657821527952437243856614816513618082334968663
78
Abra2623
Apayao18264
Benguet3745
Ifugao16787
Kalinga16900
Other transformations such as sort can be done using codesort/code attribute. Now let's extract a specific column. In Python, we do it using either codeiloc/code or codeix/code attributes, but codeix/code is more robust and thus I prefer it. Assuming we want the head of the first column of the data, we have
4
其他变换 , 例如排序就是用sort属性 。现在我们提取特定的某列数据 。Python中,可以使用iloc或者ix属性 。但是我更喜欢用ix,因为它更稳定一些 。假设我们需数据第一列的前5行,我们有:
print df.ix[:, 0].head()
# OUTPUT 01243 14158 21787 317152 41266 Name: Abra, dtype: int64
5
顺便提一下,Python的索引是从0开始而非1 。为了取出从11到20行的前3列数据,我们有
print df.ix[10:20, 0:3]
# OUTPUT
AbraApayaoBenguet
1098113112560
1127366150933039
12110017012382
137212110011088
14104814272847
1525679156612942
16105521912119
1754376461734
18102911832302
1923710122222598
20109123432654
上述命令相当于df.ix[10:20, ['Abra', 'Apayao', 'Benguet']] 。
6
为了舍弃数据中的列,这里是列1(Apayao)和列2(Benguet),我们使用drop属性,如下:
print df.drop(df.columns[[1, 2]], axis = 1).head()
# OUTPUT
AbraIfugaoKalinga
01243330010553
14158806335257
2178710744544
3171521960731687
4126633158520
axis 参数告诉函数到底舍弃列还是行 。如果axis等于0,那么就舍弃行 。
END
统计描述
1
下一步就是通过describe属性,对数据的统计特性进行描述:
print df.describe()
# OUTPUT
AbraApayaoBenguetIfugaoKalinga
count79.00000079.00000079.00000079.00000079.000000
mean12874.37974716860.6455703237.39240512414.62025330446.417722
std16746.46694515448.1537941588.5364295034.28201922245.707692
min927.000000401.000000148.0000001074.0000002346.000000
2524.0000003435.5000002328.0000008205.0000008601.500000
50W90.00000010588.0000003202.00000013044.00000024494.000000
75330.50000033289.0000003918.50000016099.50000052510.500000
max60303.00000054625.0000008813.00000021031.00000068663.000000
END
假设检验
1
Python有一个很好的统计推断包 。那就是scipy里面的stats 。ttest_1samp实现了单样本t检验 。因此,如果我们想检验数据Abra列的稻谷产量均值,通过零假设,这里我们假定总体稻谷产量均值为15000,我们有:
from scipy import stats as ss
# Perform one sample t-test using 1500 as the true mean
print ss.ttest_1samp(a = df.ix[:, 'Abra'], popmean = 15000)
# OUTPUT
(-1.1281738488299586, 0.26270472069109496)
返回下述值组成的元祖:
t : 浮点或数组类型t统计量
prob : 浮点或数组类型two-tailed p-value 双侧概率值
2
通过上面的输出,看到p值是0.267远大于α等于0.05 , 因此没有充分的证据说平均稻谷产量不是150000 。将这个检验应用到所有的变量,同样假设均值为15000,我们有:
print ss.ttest_1samp(a = df, popmean = 15000)
# OUTPUT
(array([ -1.12817385,1.07053437, -65.81425599,-4.564575,6.17156198]),
array([2.62704721e-01,2.87680340e-01,4.15643528e-70,
1.83764399e-05,2.82461897e-08]))
第一个数组是t统计量,第二个数组则是相应的p值
END
可视化
1
Python中有许多可视化模块,最流行的当属matpalotlib库 。稍加提及,我们也可选择bokeh和seaborn模块 。之前的博文中 , 我已经说明了matplotlib库中的盒须图模块功能 。
请点击输入图片描述
2
# Import the module for plotting
import matplotlib.pyplot as plt
plt.show(df.plot(kind = 'box'))
现在,我们可以用pandas模块中集成R的ggplot主题来美化图表 。要使用ggplot,我们只需要在上述代码中多加一行,
import matplotlib.pyplot as plt
pd.options.display.mpl_style = 'default' # Sets the plotting display theme to ggplot2
df.plot(kind = 'box')
3
这样我们就得到如下图表:
请点击输入图片描述
4
比matplotlib.pyplot主题简洁太多 。但是在本文中 , 我更愿意引入seaborn模块,该模块是一个统计数据可视化库 。因此我们有:
# Import the seaborn library
import seaborn as sns
# Do the boxplot
plt.show(sns.boxplot(df, widths = 0.5, color = "pastel"))
请点击输入图片描述
5
多性感的盒式图,继续往下看 。
请点击输入图片描述
6
plt.show(sns.violinplot(df, widths = 0.5, color = "pastel"))
请点击输入图片描述
7
plt.show(sns.distplot(df.ix[:,2], rug = True, bins = 15))
请点击输入图片描述
8
with sns.axes_style("white"):
plt.show(sns.jointplot(df.ix[:,1], df.ix[:,2], kind = "kde"))
请点击输入图片描述
9
plt.show(sns.lmplot("Benguet", "Ifugao", df))
END
创建自定义函数
在Python中 , 我们使用def函数来实现一个自定义函数 。例如,如果我们要定义一个两数相加的函数,如下即可:
def add_2int(x, y):
return xy
print add_2int(2, 2)
# OUTPUT
4
顺便说一下 , Python中的缩进是很重要的 。通过缩进来定义函数作用域,就像在R语言中使用大括号{…}一样 。这有一个我们之前博文的例子:
产生10个正态分布样本,其中和
基于95%的置信度 , 计算和 ;
重复100次; 然后
计算出置信区间包含真实均值的百分比
Python中,程序如下:
import numpy as np
import scipy.stats as ss
def case(n = 10, mu = 3, sigma = np.sqrt(5), p = 0.025, rep = 100):
m = np.zeros((rep, 4))
for i in range(rep):
norm = np.random.normal(loc = mu, scale = sigma, size = n)
xbar = np.mean(norm)
low = xbar - ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n))
up = xbarss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n))
if (mulow)(muup):
rem = 1
else:
rem = 0
m[i, :] = [xbar, low, up, rem]
inside = np.sum(m[:, 3])
per = inside / rep
desc = "There are "str(inside)" confidence intervals that contain "
"the true mean ("str(mu)"), that is "str(per)" percent of the total CIs"
return {"Matrix": m, "Decision": desc}
上述代码读起来很简单,但是循环的时候就很慢了 。下面针对上述代码进行了改进,这多亏了 Python专家
import numpy as np
import scipy.stats as ss
def case2(n = 10, mu = 3, sigma = np.sqrt(5), p = 0.025, rep = 100):
scaled_crit = ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n))
norm = np.random.normal(loc = mu, scale = sigma, size = (rep, n))
xbar = norm.mean(1)
low = xbar - scaled_crit
up = xbarscaled_crit
rem = (mulow)(muup)
m = np.c_[xbar, low, up, rem]
inside = np.sum(m[:, 3])
per = inside / rep
desc = "There are "str(inside)" confidence intervals that contain "
"the true mean ("str(mu)"), that is "str(per)" percent of the total CIs"
return {"Matrix": m, "Decision": desc}
什么是标准正态分布的上α分位点以及怎样求?标准正态分布的上α分位点:设X~N(0,1),对于任给的α,(0α1),称满足P(XZα)= α的点Zα为标准正态分布的上α分位点 。
当α=0.01时 。1- α=0.99 。在标准正态分布表中函数值 。
中找到最接近0.99的值:0.9898与0.9901,对应的x值分 。
别为2.32与2.33,故可取其算术平均值为上0.01分位点 。
zα=2.325;
同理:α=0.003,1- α=0.097 , zα=2.75,
α/2=0.0015 , 1-α/2 =0.09985,zα/2=2.96 。
分位点可以查正态分布表,在正态分布表中找α,对应查出Zα.例如查Z0.025的值,即需要查1-0.025=0.975对应的Z值,翻开正态分布表,刚好能查到0.9750对应的Z值为1.96,故Z0.025=1.96。
如果要查Zα=1.96对应的α值,需要先查1.96,对应着0.975,1-0.975=0.025,0.0125即为α值 。
扩展资料
标准正态分布的特点
平均值与它的众数以及中位数同一数值 。
函数曲线下68.268949%的面积在平均数左右的一个标准差范围内 。
正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值 , 第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ , σ^2) 。
标准正态分布曲线下面积分布规律是:在-1.96~ 1.96范围内曲线下的面积等于0.9500,在-2.58~ 2.58范围内曲线下面积为0.9900 。
由于正态分布是由其平均数μ和标准差σ唯一决定的,因此从某种意义上说,正态分布就有好多好多,这给我们深入研究带来一定的困难 。
但也发现,许多正态分布中,重点研究N(0,1),其他的正态分布都可以通过转化为N(0,1),我们把N(0,1)称为标准正态分布 , 其密度函数为,x∈(-∞, ∞),从而使正态分布的研究得以简化 。
参考资料来源:百度百科-标准正态分布
销售量服从泊松分布,怎样获取最大利润如何实现大数据利润最大利润化
制定合适的价格很重要,再怎么夸大都不过分 。价格提高1%意味着经营利润平均可以增长8.7%(当然,假设销量没有损失) 。不过我们估计,在许多公司每年制定的成千上万个定价决策中 , 多达30%未能给出最合适的价格——这意味着收入大量流失 。而且考虑到如今海量数据为公司提供了难得的机会,可以做出合理得多的定价决策,这种现状尤其令人不安 。对那些能够井然有序地应对复杂的大数据的公司而言 , 这蕴含着巨大价值 。
将数据转化为利润的四个步骤
想制定更合适的价格,关键是完全明白现在可供公司使用的数据 。这就需要放大目标,而不是缩小目标 。正如综合性能源和化工企业沙索(Sasol)集团副总裁兼营销和销售总经理汤姆·奥布赖恩(Tom O’Brien)提及这种做法时说:“销售团队知道价格 , 还可能知道销量,但这种做法需要了解更多信息:极其精细的数据 , 实际上来自每一张发票,按产品、客户和包装分门别类 。”
事实上,将大数据成功应用于B2B环境方面最激动人心的一些例子实际上不仅仅着眼于定价,还涉及一家公司的商业引擎的其他方面 。比如说,“动态交易评分”(dynamic deal scoring)提供了单笔交易层面的价格指导,还提供了决策逐级上报点、激励机制、绩效评分及更多方面,立足于一系列相似的盈/亏交易 。使用较小的、相关的交易样本很有必要,因为与任何一笔交易息息相关的因素会有变化,这导致一系列总体交易成为毫无用处的衡量基准 。我们已见过这种方法应用于技术行业,取得了巨大成功 。将销售利润率提高了4到8个百分点(相对于同一家公司的对照组) 。
想获得足够精细的数据 , 公司就要做好这四项工作
倾听数据 。制定最合理的价格不是牵涉数据的挑战(公司通常已经坐拥庞大的数据宝库),而是牵涉分析的挑战 。最出色的B2C公司知道如何解释自己拥有的海量数据,并见机行事,但B2B公司往往一味管理数据,而不是利用数据推动决策 。优秀的分析工具可以帮助公司确定经常被忽视的因素(比如更宏观的经济形势、产品偏好以及销售代表的洽谈) , 揭示什么因素左右针对每个客户群和产品的价格 。
提高自动化 。人工分析数千种产品太耗费时间和财力 。自动化系统可以识别狭小的客户群 , 确定什么因素左右每个客户群的价值,并且拿来与历史交易数据进行比较 。这样一来,公司就可以根据数据,为产品群和客户群制定有针对性的价格 。自动化还大大简化了复制和调整分析的工作,因此没必要每次都从头开始分析 。
培养技能、树立信心 。实施新价格既在运营方面带来了挑战,又在沟通方面带来了挑战 。成功的公司非常注重深思熟虑的变革计划,帮助销售队伍了解并接受新的定价方法 。公司需要与销售代表们齐心协力,解释为什么实行建议价,这套价格体系是如何运作的,那样销售代表就会非常信任价格,从而竭力说服顾客 。同样重要的是制定一套明确清晰的沟通方法 , 为价格给出一个理由,从而着重突出价值,然后针对具体顾客给出相应的理由 。全面的洽谈培训也至关重要,以便让销售代表获得信心和工具,那样与客户面对面交流时,能拿出颇有说服力的理由 。最优秀的领导陪同销售代表会见最难拿下的客户,专注于迅速见效,那样销售代表就能树立起信心,积极奉行新的定价方法 。林德集团旗下瑞士PanGas AG公司的总经理罗伯特·克里格(Robert Krieger)说:“表明领导层支持这种新的定价方法这个立场,至关重要 。为此 , 我们采取的做法就是领导层与销售代表一起拜见难缠的客户 。我们不仅能够帮助销售代表,还能够阐明为什么制定新价格 。”
积极管理绩效 。想改善绩效管理,公司就需要借助实用的绩效指标支持销售队伍 。最大的影响来自确保销售一线对于客户带来的利润了然于胸;销售和营销部门拥有合适的分析技能,得以发现机会,并牢牢抓住机会 。还需要将权力下放给销售队伍,让他们自行调整价格,而不是依赖集中式团队 。这不仅需要创业理念,还需要在针对特定的客户制定价格策略时有一定的创造力 。在改变定价策略和绩效衡量标准的同时,可能还要改变激励机制 。
我们已经看到了这一幕:软件、化工、建材和电信等众多行业的公司利用大数据,帮助制定更合理的定价决策,因而收到显著成效 。这些公司都有数量众多的库存单位(SKU)和交易,还有一大批高度分散的客户;重新制定价格后,都发现利润率提高了3%到8% , 这些价格是在极其精细的产品数据层面制定的 。仅举一例 , 一家欧洲建材公司为几种有所选择的产品制定合适的价格后,利润增幅高达20% 。如果公司想制定合适的价格,就应该充分利用大数据,并投入足够的资源来支持销售代表,否则它们会发现自己在为此付出高昂的代价:利润流失 。
转载请注明:数据分析 ? 如何实现大数据利润最大利润化
量化分析师的Python_python 金融量化分析_python金融大数据分析
量化分析师的Python_python 金融量化分析_python金融大数据分析
一、SciPy概述
前篇已经大致介绍了NumPy,接下来让我们看看SciPy能做些什么 。NumPy替我们搞定了向量和矩阵的相关操作,基本上算是一个高级的科学计算器 。SciPy基于NumPy提供了更为丰富和高级的功能扩展,在统计、优化、插值、数值积分、时频转换等方面提供了大量的可用函数,基本覆盖了基础科学计算相关的问题 。
在量化分析中 , 运用最广泛的是统计和优化的相关技术,本篇重点介绍SciPy中的统计和优化模块,其他模块在随后系列文章中用到时再做详述 。
本篇会涉及到一些矩阵代数 , 如若感觉不适,可考虑跳过第三部分或者在理解时简单采用一维的标量代替高维的向量 。
首先还是导入相关的模块,我们使用的是SciPy里面的统计和优化部分:
In[1]:
import numpy as npimport scipy.stats as statsimport scipy.optimize as opt
二、统计部分2.1 生成随机数
我们从生成随机数开始,这样方便后面的介绍 。生成n个随机数可用rv_continuous.rvs(size=n)或rv_discrete.rvs(size=n),其中rv_continuous表示连续型的随机分布 , 如均匀分布(uniform)、正态分布(norm)、贝塔分布(beta)等;rv_discrete表示离散型的随机分布,如伯努利分布(bernoulli)、几何分布(geom)、泊松分布(poisson)等 。我们生成10个[0, 1]区间上的随机数和10个服从参数$a = 4$,$b = 2$的贝塔分布随机数:
In[2]:
rv_unif = stats.uniform.rvs(size=10)print rv_unifrv_beta = stats.beta.rvs(size=10, a=4, b=2)print rv_beta
[ 0.20630272 0.25929204 0.16859206 0.92573462 0.16383319 0.3475617 0.83792048 0.79574153 0.37945051 0.23439682][ 0.71216492 0.85688464 0.70310131 0.3783662 0.69507561 0.78626586 0.54529967 0.4261079 0.26646767 0.8519046 ]
在每个随机分布的生成函数里 , 都内置了默认的参数,如均匀分布的上下界默认是0和1 。可是一旦需要修改这些参数,每次生成随机都要敲这么老长一串有点麻烦 , 能不能简单点?SciPy里头有一个Freezing的功能 , 可以提供简便版本的命令 。SciPy.stats支持定义出某个具体的分布的对象 , 我们可以做如下的定义,让beta直接指代具体参数$a = 4$和$b = 2$的贝塔分布 。为让结果具有可比性,这里指定了随机数的生成种子,由NumPy提供 。
In[3]:
np.random.seed(seed=2015)rv_beta = stats.beta.rvs(size=10, a=4, b=2)print "method 1:"print rv_betanp.random.seed(seed=2015)beta = stats.beta(a=4, b=2)print "method 2:"print beta.rvs(size=10)
method 1:[ 0.43857338 0.9411551 0.75116671 0.92002864 0.62030521 0.56585548 0.41843548 0.5953096 0.88983036 0.94675351]method 2:[ 0.43857338 0.9411551 0.75116671 0.92002864 0.62030521 0.56585548 0.41843548 0.5953096 0.88983036 0.94675351]
2.2 假设检验
好了,现在我们生成一组数据,并查看相关的统计量(相关分布的参数可以在这里查到:):
In[4]:
norm_dist = stats.norm(loc=0.5, scale=2)n = 200dat = norm_dist.rvs(size=n)print "mean of data is: "str(np.mean(dat))print "median of data is: "str(np.median(dat))print "standard deviation of data is: "str(np.std(dat))
mean of data is: 0.705195138069median of data is: 0.658167882933standard deviation of data is: 2.08967006905
假设这个数据是我们获取到的实际的某些数据 , 如股票日涨跌幅,我们对数据进行简单的分析 。最简单的是检验这一组数据是否服从假设的分布,如正态分布 。这个问题是典型的单样本假设检验问题,最为常见的解决方案是采用K-S检验( Kolmogorov-Smirnov test) 。单样本K-S检验的原假设是给定的数据来自和原假设分布相同的分布 , 在SciPy中提供了kstest函数 , 参数分别是数据、拟检验的分布名称和对应的参数:
In[5]:
mu = np.mean(dat)sigma = np.std(dat)stat_val, p_val = stats.kstest(dat, 'norm', (mu, sigma))print 'KS-statistic D = %6.3f p-value = https://www.04ip.com/post/%6.4f' % (stat_val, p_val)
KS-statistic D = 0.045 p-value = https://www.04ip.com/post/0.8195
假设检验的$p$-value值很大(在原假设下 , $p$-value是服从[0, 1]区间上的均匀分布的随机变量,可参考 ),因此我们接受原假设,即该数据通过了正态性的检验 。在正态性的前提下,我们可进一步检验这组数据的均值是不是0 。典型的方法是$t$检验($t$-test) , 其中单样本的$t$检验函数为ttest_1samp:
In[6]:
stat_val, p_val = stats.ttest_1samp(dat, 0)print 'One-sample t-statistic D = %6.3f, p-value = https://www.04ip.com/post/%6.4f' % (stat_val, p_val)
One-sample t-statistic D = 4.761, p-value = https://www.04ip.com/post/0.0000
我们看到$p$-value$0.05$,即给定显著性水平0.05的前提下,我们应拒绝原假设:数据的均值为0 。我们再生成一组数据,尝试一下双样本的$t$检验(ttest_ind):
In[7]:
norm_dist2 = stats.norm(loc=-0.2, scale=1.2)dat2 = norm_dist2.rvs(size=n/2)stat_val, p_val = stats.ttest_ind(dat, dat2, equal_var=False)print 'Two-sample t-statistic D = %6.3f, p-value = https://www.04ip.com/post/%6.4f' % (stat_val, p_val)
Two-sample t-statistic D = 5.565, p-value = https://www.04ip.com/post/0.0000
注意,这里我们生成的第二组数据样本大小、方差和第一组均不相等,在运用$t$检验时需要使用Welch’s $t$-test,即指定ttest_ind中的equal_var=False 。我们同样得到了比较小的$p$-value$ , 在显著性水平0.05的前提下拒绝原假设,即认为两组数据均值不等 。
stats还提供其他大量的假设检验函数 , 如bartlett和levene用于检验方差是否相等;anderson_ksamp用于进行Anderson-Darling的K-样本检验等 。
2.3 其他函数
有时需要知道某数值在一个分布中的分位,或者给定了一个分布,求某分位上的数值 。这可以通过cdf和ppf函数完成:
In[8]:
g_dist = stats.gamma(a=2)print "quantiles of 2, 4 and 5:"print g_dist.cdf([2, 4, 5])print "Values of 25%, 50% and 90%:"print g_dist.pdf([0.25, 0.5, 0.95])
quantiles of 2, 4 and 5:[ 0.59399415 0.90842181 0.95957232]Values of 25%, 50% and 90%:[ 0.1947002 0.30326533 0.36740397]
对于一个给定的分布,可以用moment很方便的查看分布的矩信息 , 例如我们查看$N(0, 1)$的六阶原点矩:
In[9]:
stats.norm.moment(6, loc=0, scale=1)
Out[9]:
15.000000000895332
describe函数提供对数据集的统计描述分析 , 包括数据样本大?。?极值,均值,方差,偏度和峰度:
In[10]:
norm_dist = stats.norm(loc=0, scale=1.8)dat = norm_dist.rvs(size=100)info = stats.describe(dat)print "Data size is: "str(info[0])print "Minimum value is: "str(info[1][0])print "Maximum value is: "str(info[1][1])print "Arithmetic mean is: "str(info[2])print "Unbiased variance is: "str(info[3])print "Biased skewness is: "str(info[4])print "Biased kurtosis is: "str(info[5])
Data size is: 100Minimum value is: -4.12414564687Maximum value is: 4.82577602489Arithmetic mean is: 0.0962913592209Unbiased variance is: 2.88719292463Biased skewness is: -0.00256548794681Biased kurtosis is: -0.317463421177
当我们知道一组数据服从某些分布的时候,可以调用fit函数来得到对应分布参数的极大似然估计(MLE, maximum-likelihood estimation) 。以下代码示例了假设数据服从正态分布,用极大似然估计分布参数:
In[11]:
norm_dist = stats.norm(loc=0, scale=1.8)dat = norm_dist.rvs(size=100)mu, sigma = stats.norm.fit(dat)print "MLE of data mean:"str(mu)print "MLE of data standard deviation:"str(sigma)
MLE of data mean:-0.249880829912MLE of data standard deviation:1.89195303507
pearsonr和spearmanr可以计算Pearson和Spearman相关系数,这两个相关系数度量了两组数据的相互线性关联程度:
In[12]:
norm_dist = stats.norm()dat1 = norm_dist.rvs(size=100)exp_dist = stats.expon()dat2 = exp_dist.rvs(size=100)cor, pval = stats.pearsonr(dat1, dat2)print "Pearson correlation coefficient: "str(cor)cor, pval = stats.pearsonr(dat1, dat2)print "Spearman's rank correlation coefficient: "str(cor)
Pearson correlation coefficient: -0.0262911931014Spearman's rank correlation coefficient: -0.0262911931014
其中的$p$-value表示原假设(两组数据不相关)下,相关系数的显著性 。
最后,在分析金融数据中使用频繁的线性回归在SciPy中也有提供,我们来看一个例子:
In[13]:
x = stats.chi2.rvs(3, size=50)y = 2.51.2 * xstats.norm.rvs(size=50, loc=0, scale=1.5)slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)print "Slope of fitted model is:" , slopeprint "Intercept of fitted model is:", interceptprint "R-squared:", r_value**2
Slope of fitted model is: 1.44515601191Intercept of fitted model is: 1.91080684516R-squared: 0.798786910173
在前面的链接中,可以查到大部分stat中的函数 , 本节权作简单介绍,挖掘更多功能的最好方法还是直接读原始的文档 。另外,StatsModels( )模块提供了更为专业,更多的统计相关函数 。若在SciPy没有满足需求,可以采用StatsModels 。
三、优化部分
优化问题在投资中可谓是根本问题 , 如果手上有众多可选的策略,应如何从中选择一个“最好”的策略进行投资呢?这时就需要用到一些优化技术针对给定的指标进行寻优 。随着越来越多金融数据的出现 , 机器学习逐渐应用在投资领域,在机器学习中,优化也是十分重要的一个部分 。以下介绍一些常见的优化方法,虽然例子是人工生成的,不直接应用于实际金融数据,我们希望读者在后面遇到优化问题时,能够从这些简单例子迅速上手解决 。
3.1 无约束优化问题
所谓的无约束优化问题指的是一个优化问题的寻优可行集合是目标函数自变量的定义域,即没有外部的限制条件 。例如 , 求解优化问题 [
minimizef(x)=x24.8x 1.2
] 就是一个无约束优化问题,而求解 [
minimizef(x)=x24.8x 1.2subject tox≥0
]则是一个带约束的优化问题 。更进一步,我们假设考虑的问题全部是凸优化问题,即目标函数是凸函数 , 其自变量的可行集是凸集 。(详细定义可参考斯坦福大学Stephen Boyd教授的教材convex optimization,下载链接: )
我们以Rosenbrock函数 [ f(mathbf{x}) = sum{i=1}^{N-1} 100 (x_i – x{i-1}^2)^2(1 – x_{i-1})^2 ] 作为寻优的目标函数来简要介绍在SciPy中使用优化模块scipy.optimize 。
首先需要定义一下这个Rosenbrock函数:
In[14]:
def rosen(x): """The Rosenbrock function""" return sum(100.0*(x[1:]-x[:-1]**2.0)**2.0(1-x[:-1])**2.0)
3.1.1 Nelder-Mead单纯形法
单纯形法是运筹学中介绍的求解线性规划问题的通用方法 , 这里的Nelder-Mead单纯形法与其并不相同,只是用到单纯形的概念 。设定起始点$mathbf{x}_0 = (1.3, 0.7, 0.8, 1.9, 1.2)$ , 并进行最小化的寻优 。这里‘xtol’表示迭代收敛的容忍误差上界:
In[15]:
x_0 = np.array([0.5, 1.6, 1.1, 0.8, 1.2])res = opt.minimize(rosen, x_0, method='nelder-mead', options={'xtol': 1e-8, 'disp': True})print "Result of minimizing Rosenbrock function via Nelder-Mead Simplex algorithm:"print res
Optimization terminated successfully. Current function value: 0.000000 Iterations: 436 Function evaluations: 706Result of minimizing Rosenbrock function via Nelder-Mead Simplex algorithm: status: 0 nfev: 706 success: True fun: 1.6614969876635003e-17 x: array([ 1., 1., 1., 1., 1.]) message: 'Optimization terminated successfully.' nit: 436
Rosenbrock函数的性质比较好,简单的优化方法就可以处理了 , 还可以在minimize中使用method=’powell’来指定使用Powell’s method 。这两种简单的方法并不使用函数的梯度 , 在略微复杂的情形下收敛速度比较慢,下面让我们来看一下用到函数梯度进行寻优的方法 。
3.1.2 Broyden-Fletcher-Goldfarb-Shanno法
Broyden-Fletcher-Goldfarb-Shanno(BFGS)法用到了梯度信息,首先求一下Rosenbrock函数的梯度:
[ begin{split} frac{partial f}{partial xj} = sum{i=1}^N 200(xi – x{i-1}^2)(delta{i,j} – 2x{i-1}delta{i-1,j}) -2(1 – x{i-1})delta_{i-1,j} = 200(xj – x{j-1}^2) – 400xj(x{j 1} – x_j^2) – 2(1 – x_j) end{split}] 其中当$i=j$时,$delta_{i,j} = 1$,否则$delta_{i,j} = 0$ 。
边界的梯度是特例,有如下形式: [ begin{split} frac{partial f}{partial x_0} = -400x_0(x_1 – x_0^2) – 2(1 – x_0), frac{partial f}{partial x{N-1}} = 200(x{N-1} – x_{N-2}^2) end{split}]
我们可以如下定义梯度向量的计算函数了:
In[16]:
def rosen_der(x): xm = x[1:-1] xm_m1 = x[:-2] xm_p1 = x[2:] der = np.zeros_like(x) der[1:-1] = 200*(xm-xm_m1**2) - 400*(xm_p1 - xm**2)*xm - 2*(1-xm) der[0] = -400*x[0]*(x[1]-x[0]**2) - 2*(1-x[0]) der[-1] = 200*(x[-1]-x[-2]**2) return der
梯度信息的引入在minimize函数中通过参数jac指定:
In[17]:
res = opt.minimize(rosen, x_0, method='BFGS', jac=rosen_der, options={'disp': True})print "Result of minimizing Rosenbrock function via Broyden-Fletcher-Goldfarb-Shanno algorithm:"print res
Optimization terminated successfully. Current function value: 0.000000 Iterations: 52 Function evaluations: 63 Gradient evaluations: 63Result of minimizing Rosenbrock function via Broyden-Fletcher-Goldfarb-Shanno algorithm: status: 0 success: True njev: 63 nfev: 63 hess_inv: array([[ 0.00726515, 0.01195827, 0.0225785 , 0.04460906, 0.08923649], [ 0.01195827, 0.02417936, 0.04591135, 0.09086889, 0.18165604], [ 0.0225785 , 0.04591135, 0.09208689, 0.18237695, 0.36445491], [ 0.04460906, 0.09086889, 0.18237695, 0.36609277, 0.73152922], [ 0.08923649, 0.18165604, 0.36445491, 0.73152922, 1.46680958]]) fun: 3.179561068096293e-14 x: array([ 1. , 0.99999998, 0.99999996, 0.99999992, 0.99999983]) message: 'Optimization terminated successfully.' jac: array([ 4.47207141e-06, 1.30357917e-06, -1.86454207e-07, -2.00564982e-06, 4.98799446e-07])
3.1.3 牛顿共轭梯度法(Newton-Conjugate-Gradient algorithm)
用到梯度的方法还有牛顿法,牛顿法是收敛速度最快的方法,其缺点在于要求Hessian矩阵(二阶导数矩阵) 。牛顿法大致的思路是采用泰勒展开的二阶近似: [ f(mathbf{x}) approx f(mathbf{x}_0)nabla f(mathbf{x}_0)(mathbf{x} – mathbf{x}_0)frac{1}{2}(mathbf{x} – mathbf{x}_0)^Tmathbf{H}(mathbf{x}_0)(mathbf{x} – mathbf{x}_0) ] 其中$mathbf{H}(mathbf{x}_0)$表示二阶导数矩阵 。若Hessian矩阵是正定的,函数的局部最小值可以通过使上面的二次型的一阶导数等于0来获取 , 我们有: [ mathbf{x}_{mathrm{opt}} = mathbf{x}_0 – mathbf{H}^{-1}nabla f ]
这里可使用共轭梯度近似Hessian矩阵的逆矩阵 。下面给出Rosenbrock函数的Hessian矩阵元素通式:
[ begin{split} H{i,j} = frac{partial^2 f}{partial x_i partial x_j} = 200(delta{i,j} – 2x{i-1}delta{i-1,j}) – 400xi(delta{i 1,j} – 2xidelta{i,j}) – 400delta{i,j}(x{i 1} – xi^2)2delta{i,j}, = (2021200xi^2 – 400x{i 1}) delta{i,j} – 400x_idelta{i 1,j} – 400x{i-1}delta{i-1,j} end{split}] 其中$i,j in [1, N-2]$ 。其他边界上的元素通式为: [ begin{split} frac{partial^2 f}{partial x_0^2} = 1200x_0^2 – 400x_12, frac{partial^2 f}{partial x_0 partial x_1} = frac{partial^2 f}{partial x_1 partial x_0} = -400x_0, frac{partial^2 f}{partial x{N-1} partial x{N-2}} = frac{partial^2 f}{partial x{N-2} partial x{N-1}} = -400x_{N-2}, frac{partial^2 f}{partial x_{N-1}^2} = 200. end{split}]
例如,当$N=5$时的Hessian矩阵为:
[ mathbf{H} =
[1200x20400x1 2400x0000400x0202 1200x21400x2400x1000400x1202 1200x22400x3400x2000400x2202 1200x23400x4400x3000400x3200]
]为使用牛顿共轭梯度法,我们需要提供一个计算Hessian矩阵的函数:
In[18]:
def rosen_hess(x): x = np.asarray(x) H = np.diag(-400*x[:-1],1) - np.diag(400*x[:-1],-1) diagonal = np.zeros_like(x) diagonal[0] = 1200*x[0]**2-400*x[1] 2 diagonal[-1] = 200 diagonal[1:-1] = 2021200*x[1:-1]**2 - 400*x[2:] H = Hnp.diag(diagonal) return H
In[19]:
res = opt.minimize(rosen, x_0, method='Newton-CG', jac=rosen_der, hess=rosen_hess, options={'xtol': 1e-8, 'disp': True})print "Result of minimizing Rosenbrock function via Newton-Conjugate-Gradient algorithm (Hessian):"print res
Optimization terminated successfully. Current function value: 0.000000 Iterations: 20 Function evaluations: 22 Gradient evaluations: 41 Hessian evaluations: 20Result of minimizing Rosenbrock function via Newton-Conjugate-Gradient algorithm (Hessian): status: 0 success: True njev: 41 nfev: 22 fun: 1.47606641102778e-19 x: array([ 1., 1., 1., 1., 1.]) message: 'Optimization terminated successfully.' nhev: 20 jac: array([ -3.62847530e-11, 2.68148992e-09, 1.16637362e-08, 4.81693414e-08, -2.76999090e-08])
对于一些大型的优化问题,Hessian矩阵将异常大,牛顿共轭梯度法用到的仅是Hessian矩阵和一个任意向量的乘积,为此,用户可以提供两个向量,一个是Hessian矩阵和一个任意向量$mathbf{p}$的乘积,另一个是向量$mathbf{p}$ , 这就减少了存储的开销 。记向量$mathbf{p} = (p_1, ldots, p_{N-1})$,可有
[ mathbf{H(x)p} = begin{bmatrix} (1200x0^2 – 400x_12)p_0 -400x_0p_1 vdots -400x{i-1}p{i-1}(2021200x_i^2 – 400x{i 1})pi – 400x_ip{i 1} vdots -400x{N-2}p{N-2}200p_{N-1} end{bmatrix} ]
我们定义如下函数并使用牛顿共轭梯度方法寻优:
In[20]:
def rosen_hess_p(x, p): x = np.asarray(x) Hp = np.zeros_like(x) Hp[0] = (1200*x[0]**2 - 400*x[1]2)*p[0] - 400*x[0]*p[1] Hp[1:-1] = -400*x[:-2]*p[:-2] (202 1200*x[1:-1]**2-400*x[2:])*p[1:-1] -400*x[1:-1]*p[2:] Hp[-1] = -400*x[-2]*p[-2]200*p[-1] return Hpres = opt.minimize(rosen, x_0, method='Newton-CG', jac=rosen_der, hessp=rosen_hess_p, options={'xtol': 1e-8, 'disp': True})print "Result of minimizing Rosenbrock function via Newton-Conjugate-Gradient algorithm (Hessian times arbitrary vector):"print res
Optimization terminated successfully. Current function value: 0.000000 Iterations: 20 Function evaluations: 22 Gradient evaluations: 41 Hessian evaluations: 58Result of minimizing Rosenbrock function via Newton-Conjugate-Gradient algorithm (Hessian times arbitrary vector): status: 0
转载请注明:数据分析 ? 量化分析师的Python_python 金融量化分析_python金融大数据分析
【python中ppf函数 python pprof】python中ppf函数的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于python pprof、python中ppf函数的信息别忘了在本站进行查找喔 。
推荐阅读
- u盘东西删除了怎么恢复,u盘东西删除后怎样找回
- 小米手机电池怎么没颜色,小米手机电池怎么没颜色显示
- 最近不直播文案,不直播了怎么发动态声明
- vb.net指定保存文件 vb弹出保存对话框
- 什么手机的电视,什么手机电视可以看回放
- 游戏开发的品牌,游戏开发的游戏
- 虎牙耀扬直播台词,虎牙户外耀阳
- python空值函数是的简单介绍
- redis删除整个散列数据结构,redis删除整个散列数据结构的命令