如何用Python和机器学习炒股赚钱相信很多人都想过让人工智能来帮函数模拟股票Python你赚钱函数模拟股票Python , 但到底该如何做呢?瑞士日内瓦的一位金融数据顾问 Ga?tan Rickter 近日发表文章介绍了函数模拟股票Python他利用 Python 和机器学习来帮助炒股的经验,其最终成果的收益率跑赢了长期处于牛市的标准普尔 500 指数 。虽然这篇文章并没有将他的方法完全彻底公开,但已公开的内容或许能给我们带来如何用人工智能炒股的启迪 。
我终于跑赢了标准普尔 500 指数 10 个百分点!听起来可能不是很多,但是当我们处理的是大量流动性很高的资本时,对冲基金的利润就相当可观 。更激进的做法还能得到更高的回报 。
这一切都始于我阅读了 Gur Huberman 的一篇题为《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的论文 。该研究描述了一件发生在 1998 年的涉及到一家上市公司 EntreMed(当时股票代码是 ENMD)的事件:
「星期天《纽约时报》上发表的一篇关于癌症治疗新药开发潜力的文章导致 EntreMed 的股价从周五收盘时的 12.063 飙升至 85 , 在周一收盘时接近 52 。在接下来的三周,它的收盘价都在 30 以上 。这股投资热情也让其它生物科技股得到了溢价 。但是,这个癌症研究方面的可能突破在至少五个月前就已经被 Nature 期刊和各种流行的报纸报道过了,其中甚至包括《泰晤士报》!因此 , 仅仅是热情的公众关注就能引发股价的持续上涨,即便实际上并没有出现真正的新信息 。」
在研究者给出的许多有见地的观察中,其中有一个总结很突出:
「(股价)运动可能会集中于有一些共同之处的股票上,但这些共同之处不一定要是经济基础 。」
我就想,能不能基于通常所用的指标之外的其它指标来划分股票 。我开始在数据库里面挖掘,几周之后我发现了一个,其包含了一个分数,描述了股票和元素周期表中的元素之间的「已知和隐藏关系」的强度 。
我有计算基因组学的背景,这让我想起了基因和它们的细胞信号网络之间的关系是如何地不为人所知 。但是,当我们分析数据时 , 我们又会开始看到我们之前可能无法预测的新关系和相关性 。
选择出的涉及细胞可塑性、生长和分化的信号通路的基因的表达模式
和基因一样,股票也会受到一个巨型网络的影响,其中各个因素之间都有或强或弱的隐藏关系 。其中一些影响和关系是可以预测的 。
我的一个目标是创建长的和短的股票聚类,我称之为「篮子聚类(basket clusters)」,我可以将其用于对冲或单纯地从中获利 。这需要使用一个无监督机器学习方法来创建股票的聚类,从而使这些聚类之间有或强或弱的关系 。这些聚类将会翻倍作为我的公司可以交易的股票的「篮子(basket)」 。
首先我下载了一个数据集:Public Company Hidden Relationship Discovery,这个数据集基于元素周期表中的元素和上市公司之间的关系 。
然后我使用了 Python 和一些常用的机器学习工具——scikit-learn、numpy、pandas、matplotlib 和 seaborn,我开始了解我正在处理的数据集的分布形状 。为此我参考了一个题为《Principal Component Analysis with KMeans visuals》的 Kaggle Kernel:Principal Component Analysis with KMeans visuals
import numpy as npimport pandas as pdfrom sklearn.decomposition import PCAfrom sklearn.cluster import KMeansimport matplotlib.pyplot as pltimport seaborn as sbnp.seterr(divide='ignore', invalid='ignore')# Quick way to test just a few column features# stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv', usecols=range(1,16))stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv')print(stocks.head())str_list = []for colname, colvalue in stocks.iteritems():if type(colvalue[1]) == str:
str_list.append(colname)# Get to the numeric columns by inversionnum_list = stocks.columns.difference(str_list)stocks_num = stocks[num_list]print(stocks_num.head())
输出:简单看看前面 5 行:
zack@twosigma-Dell-Precision-M3800:/home/zack/hedge_pool/baskets/hcluster$ ./hidden_relationships.py
Symbol_update-2017-04-01HydrogenHeliumLithiumBerylliumBoron\
0A0.00.000000.00.00.0
1AA0.00.000000.00.00.0
2AAAP0.00.004610.00.00.0
3AAC0.00.000810.00.00.0
4AACAY0.00.000000.00.00.0
CarbonNitrogenOxygenFluorine...FermiumMendelevium\
00.0066320.00.0075760.0...0.0000000.079188
10.0000000.00.0000000.0...0.0000000.000000
20.0000000.00.0000000.0...0.1359620.098090
30.0000000.00.0184090.0...0.0000000.000000
40.0000000.00.0000000.0...0.0000000.000000
NobeliumLawrenciumRutherfordiumDubniumSeaborgiumBohriumHassium\
00.1970300.19900.19900.00.00.00.0
10.0000000.00000.00000.00.00.00.0
20.2440590.24650.24650.00.00.00.0
30.0000000.00000.00000.00.00.00.0
40.0000000.00000.00000.00.00.00.0
Meitnerium
00.0
10.0
20.0
30.0
40.0
[5 rows x 110 columns]
ActiniumAluminumAmericiumAntimonyArgonArsenicAstatine\
00.0000000.00.00.0023790.0474020.0189130.0
10.0000000.00.00.0000000.0000000.0000000.0
20.0042420.00.00.0012990.0000000.0000000.0
30.0009860.00.00.0033780.0000000.0000000.0
40.0000000.00.00.0000000.0000000.0000000.0
BariumBerkeliumBeryllium...TinTitaniumTungstenUranium\
00.00.0000000.0...0.00.0026760.00.000000
10.00.0000000.0...0.00.0000000.00.000000
20.00.1410180.0...0.00.0000000.00.004226
30.00.0000000.0...0.00.0000000.00.004086
40.00.0000000.0...0.00.0000000.00.000000
VanadiumXenonYtterbiumYttriumZincZirconium
00.0000000.00.00.0000000.0000000.0
10.0000000.00.00.0000000.0000000.0
20.0024480.00.00.0188060.0087580.0
30.0010190.00.00.0000000.0079330.0
40.0000000.00.00.0000000.0000000.0
[5 rows x 109 columns]
zack@twosigma-Dell-Precision-M3800:/home/zack/hedge_pool/baskets/hcluster$
概念特征的皮尔逊相关性(Pearson Correlation) 。在这里案例中,是指来自元素周期表的矿物和元素:
stocks_num = stocks_num.fillna(value=https://www.04ip.com/post/0, axis=1)X = stocks_num.valuesfrom sklearn.preprocessing import StandardScalerX_std = StandardScaler().fit_transform(X)f, ax = plt.subplots(figsize=(12, 10))plt.title('Pearson Correlation of Concept Features (ElementsMinerals)')# Draw the heatmap using seabornsb.heatmap(stocks_num.astype(float).corr(),linewidths=0.25,vmax=1.0, square=True, cmap="YlGnBu", linecolor='black', annot=True)sb.plt.show()
输出:(这个可视化例子是在前 16 个样本上运行得到的) 。看到元素周期表中的元素和上市公司关联起来真的很有意思 。在某种程度时 , 我想使用这些数据基于公司与相关元素或材料的相关性来预测其可能做出的突破 。
测量「已解释方差(Explained Variance)」和主成分分析(PCA)
已解释方差=总方差-残差方差(explained variance = total variance - residual variance) 。应该值得关注的 PCA 投射组件的数量可以通过已解释方差度量(Explained Variance Measure)来引导 。Sebastian Raschka 的关于 PCA 的文章对此进行了很好的描述,参阅:Principal Component Analysis
# Calculating Eigenvectors and eigenvalues of Cov matirxmean_vec = np.mean(X_std, axis=0)cov_mat = np.cov(X_std.T)eig_vals, eig_vecs = np.linalg.eig(cov_mat)# Create a list of (eigenvalue, eigenvector) tupleseig_pairs = [ (np.abs(eig_vals[i]),eig_vecs[:,i]) for i in range(len(eig_vals))]# Sort from high to loweig_pairs.sort(key = lambda x: x[0], reverse= True)# Calculation of Explained Variance from the eigenvaluestot = sum(eig_vals)var_exp = [(i/tot)*100 for i in sorted(eig_vals, reverse=True)] cum_var_exp = np.cumsum(var_exp) # Cumulative explained variance# Variances plotmax_cols = len(stocks.columns) - 1plt.figure(figsize=(10, 5))plt.bar(range(max_cols), var_exp, alpha=0.3333, align='center', label='individual explained variance', color = 'g')plt.step(range(max_cols), cum_var_exp, where='mid',label='cumulative explained variance')plt.ylabel('Explained variance ratio')plt.xlabel('Principal components')plt.legend(loc='best')plt.show()
输出:
从这个图表中我们可以看到大量方差都来自于预测主成分的前 85% 。这是个很高的数字,所以让我们从低端的开始,先只建模少数几个主成分 。更多有关分析主成分合理数量的信息可参阅:Principal Component Analysis explained visually
使用 scikit-learn 的 PCA 模块,让我们设 n_components = 9 。代码的第二行调用了 fit_transform 方法,其可以使用标准化的电影数据 X_std 来拟合 PCA 模型并在该数据集上应用降维(dimensionality reduction) 。
pca = PCA(n_components=9)
x_9d = pca.fit_transform(X_std)
plt.figure(figsize = (9,7))
plt.scatter(x_9d[:,0],x_9d[:,1], c='goldenrod',alpha=0.5)
plt.ylim(-10,30)
plt.show()
输出:
这里我们甚至没有真正观察到聚类的些微轮廓,所以我们很可能应该继续调节 n_component 的值直到我们得到我们想要的结果 。这就是数据科学与艺术(data science and art)中的「艺术」部分 。
现在,我们来试试 K-均值,看看我们能不能在下一章节可视化任何明显的聚类 。
K-均值聚类(K-Means Clustering)
我们将使用 PCA 投射数据来实现一个简单的 K-均值 。
使用 scikit-learn 的 KMeans() 调用和 fit_predict 方法,我们可以计算聚类中心并为第一和第三个 PCA 投射预测聚类索引(以便了解我们是否可以观察到任何合适的聚类) 。然后我们可以定义我们自己的配色方案并绘制散点图,代码如下所示:
# Set a 3 KMeans clustering
kmeans = KMeans(n_clusters=3)
# Compute cluster centers and predict cluster indices
X_clustered = kmeans.fit_predict(x_9d)# Define our own color map
LABEL_COLOR_MAP = {0 : 'r',1 : 'g',2 : 'b'}
label_color = [LABEL_COLOR_MAP[l] for l in X_clustered]
# Plot the scatter digram
plt.figure(figsize = (7,7))
plt.scatter(x_9d[:,0],x_9d[:,2], c= label_color, alpha=0.5)
plt.show()
输出:
这个 K-均值散点图看起来更有希望 , 好像我们简单的聚类模型假设就是正确的一样 。我们可以通过这种颜色可视化方案观察到 3 个可区分开的聚类 。
使用 seaborn 方便的 pairplot 函数 , 我可以以成对的方式在数据框中自动绘制所有的特征 。我们可以一个对一个地 pairplot 前面 3 个投射并可视化:
# Create a temp dataframe from our PCA projection data "x_9d"
df = pd.DataFrame(x_9d)
df = df[[0,1,2]]
df['X_cluster'] = X_clustered
# Call Seaborn's pairplot to visualize our KMeans clustering on the PCA projected data
sb.pairplot(df, hue='X_cluster', palette='Dark2', diag_kind='kde', size=1.85)
sb.plt.show()
输出:
构建篮子聚类(Basket Clusters)
你应该自己决定如何微调你的聚类 。这方面没有什么万灵药,具体的方法取决于你操作的环境 。在这个案例中是由隐藏关系所定义的股票和金融市场 。
一旦你的聚类使你满意了,你就可以设置分数阈值来控制特定的股票是否有资格进入一个聚类,然后你可以为一个给定的聚类提取股票,将它们作为篮子进行交易或使用这些篮子作为信号 。你可以使用这种方法做的事情很大程度就看你自己的创造力以及你在使用深度学习变体来进行优化的水平,从而基于聚类或数据点的概念优化每个聚类的回报 , 比如 short interest 或 short float(公开市场中的可用股份) 。
你可以注意到了这些聚类被用作篮子交易的方式一些有趣特征 。有时候标准普尔和一般市场会存在差异 。这可以提供本质上基于「信息套利(information arbitrage)」的套利机会 。一些聚类则和谷歌搜索趋势相关 。
看到聚类和材料及它们的供应链相关确实很有意思,正如这篇文章说的一样:Zooming in on 10 materials and their supply chains - Fairphone
我仅仅使用该数据集操作了 Cobalt(钴)、Copper(铜)、Gallium(镓)和 Graphene(石墨烯)这几个列标签,只是为了看我是否可能发现从事这一领域或受到这一领域的风险的上市公司之间是否有任何隐藏的联系 。这些篮子和标准普尔的回报进行了比较 。
通过使用历史价格数据(可直接在 Quantopian、Numerai、Quandl 或 Yahoo Finance 使用),然后你可以汇总价格数据来生成预计收益,其可使用 HighCharts 进行可视化:
我从该聚类中获得的回报超过了标准普尔相当一部分,这意味着你每年的收益可以比标准普尔还多 10%(标准普尔近一年来的涨幅为 16%) 。我还见过更加激进的方法可以净挣超过 70% 。现在我必须承认我还做了一些其它的事情,但因为我工作的本质,我必须将那些事情保持黑箱 。但从我目前观察到的情况来看 , 至少围绕这种方法探索和包装新的量化模型可以证明是非常值得的 , 而其唯一的缺点是它是一种不同类型的信号,你可以将其输入其它系统的流程中 。
生成卖空篮子聚类(short basket clusters)可能比生成买空篮子聚类(long basket clusters)更有利可图 。这种方法值得再写一篇文章,最好是在下一个黑天鹅事件之前 。
如果你使用机器学习,就可能在具有已知和隐藏关系的上市公司的寄生、共生和共情关系之上抢占先机,这是很有趣而且可以盈利的 。最后,一个人的盈利能力似乎完全关乎他在生成这些类别的数据时想出特征标签(即概念(concept))的强大组合的能力 。
我在这类模型上的下一次迭代应该会包含一个用于自动生成特征组合或独特列表的单独算法 。也许会基于近乎实时的事件,这可能会影响那些具有只有配备了无监督学习算法的人类才能预测的隐藏关系的股票组 。
如何用Python炒股如果想直接执行python程序的话可以写一个.bat新建一个记事本,然后写一段下面的代码,最后存成.bat文件 , 以后直接执行这段代码就可以了 。其实也可以直接执行.py文件c:\program files\python file.py
股票池如何用python构建股票池用python构建的方法是:使用第三方平台 , 目前可以使用的是聚宽,对比一下聚宽、优矿、大宽网(已经倒闭了),都大同小异,选哪个都一样 。
虽然这些平台都大同小异 , 但是代码可不能简单复制粘贴,因为底层函数库是不一样的,有可能在别的平台根本用不了某个函数,并且简单复制到自己电脑中的python的话百分之百用不了 。
代码的思路是 , 每个月底进行调仓,选出市值最小的股票交易,去掉ST/*ST/停牌/涨停的股票,然后选择最小市值的10只 , 基准是创业板综指 , 看看结果 。
python构建数据获取方法是:
这里使用为了接下来的操作需要将一定历史范围的股票数据下载下来,这里下载起始时间为20160101,截至时间为运行代码的时间范围的历史日线数据 。
这里以tushare为例, tushare获取历史数据有两种方式 。
第一种是以迭代历史交易日的方式获取所有历史数据,假设获取三年的历史数据 , 一年一般220个交易日左右,那么3年需要请求660多次左右,如果以这种方式的话,就下载数据的时间只需要1分钟多点的样子 。
第二种是以迭代所有股票代码的方式获取所有历史数据,股票数量有大概3800多个,需要请求3800多次 , 但是在积分有限的情况下一分钟最多请求500次,也就意味着仅下载数据的时间至少需要大概8分钟时间 。
理论上,你获取的历史范围超过17.3年,那么使用第一种方式才比第二种方式快 。
怎么用python计算股票作为一个python新手,在学习中遇到很多问题,要善于运用各种方法 。今天 , 在学习中,碰到了如何通过收盘价计算股票的涨跌幅 。
第一种:
读取数据并建立函数:
import numpy as np
import matplotlib.pyplot as plt
from scipy.interpolate import spline
from pylab import *
import pandas as pd
from pandas import Series
a=pd.read_csv('d:///1.csv',sep=',')#文件位置
t=a['close']
def f(t):
s=[]
for i in range(1,len(t)):
if i==1:
continue
else:
s.append((t[i]-t[i-1])/t[i]*100)
print s
plot(s)
plt.show()
f(t)
第二种:
利用pandas里面的方法:
import pandas as pd
a=pd.read_csv('d:///1.csv')
rets = a['close'].pct_change() * 100
print rets
第三种:
close=a['close']
rets=close/close.shift(1)-1
print rets
总结:python是一种非常好的编程语言,一般而言,我们可以运用构建相关函数来实现自己的思想,但是,众所周知,python中里面的有很多科学计算包,里面有很多方法可以快速解决计算的需要,如上面提到的pandas中的pct_change() 。因此在平时的使用中应当学会寻找更好的方法,提高运算速度 。
怎样用 Python 写一个股票自动交易的程序?方法一
前期的数据抓取和分析可能python都写好了,所以差这交易指令接口最后一步 。对于股票的散户 , 正规的法子是华宝,国信,兴业这样愿意给接口的券商,但貌似开户费很高才给这权利,而且只有lts,ctp这样的c接口 , 没python版就需要你自己封装 。
方法二
是wind这样的软件也有直接的接口,支持部分券商,但也贵,几万一年是要的 。
方法三
鼠标键盘模拟法,很复杂的,就是模拟键盘鼠标去操作一些软件,比如券商版交易软件和大智慧之类的 。
方法四
就是找到这些软件的关于交易指令的底层代码并更改,不过T 1的规则下,预测准确率的重要性高于交易的及时性,花功夫做数据分析就好,交易就人工完成吧
怎样用 Python 写一个股票自动交易的程序股票自动交易助手提供了一个 Python 自动下单接口,参考代码
#股票自动交易助手 Python 自动下单使用 例子
#把此脚本和 StockOrderApi.py Order.dll 放到你自己编写的脚本同一目录
from StockOrderApi import *
#买入测试
#Buy(u"600000" , 100, 0, 1, 0)
#卖出测试,是持仓股才会有动作
#Sell(u"000100" , 100, 0, 1, 0)
#账户信息
print("股票自动交易接口测试")
print("账户信息")
print("--------------------------------")
arrAccountInfo = ["总资产", "可用资金", "持仓总市值", "总盈利金额", "持仓数量"];
for i in range(0, len(arrAccountInfo)):
value = https://www.04ip.com/post/GetAccountInfo( u"", i, 0)
print ("%s %f "%(arrAccountInfo[i], value))
print("--------------------------------")
print(" ")
print("股票持仓")
print("--------------------------------")
#取出所有的持仓股票代码,结果以 ','隔开的
allStockCode = GetAllPositionCode(0)
allStockCodeArray = allStockCode.split(',')
for i in range(0, len(allStockCodeArray)):
vol = GetPosInfo( allStockCodeArray[i], 0 , 0)
changeP = GetPosInfo( allStockCodeArray[i], 4 , 0)
print ("%s %d %.2f%%"%(allStockCodeArray[i], vol, changeP))
print("--------------------------------")
【函数模拟股票Python 股票 python】函数模拟股票Python的介绍就聊到这里吧,感谢你花时间阅读本站内容 , 更多关于股票 python、函数模拟股票Python的信息别忘了在本站进行查找喔 。
推荐阅读
- sap预留单审批,sap查询预留清单
- 性能较好的安卓机,高性能安卓机
- 电脑路由器猫怎么连接,电脑路由器猫怎么连接无线路由器
- go语言通讯录 golang 通信
- 杭州sap产品成本原理,sap产品成本核算详解
- 区块链技术虚拟货币的简单介绍
- 老洛直播设备,老罗直播设备
- vb.net调用sub vbnet function
- 虚拟机命令语句截图格式,虚拟机内截图