train_test_split数据集分割
函数名:train_test_split
所在包:sklearn.model_selection
功能:划分数据的训练集与测试集
参数解读:train_test_split (*arrays,test_size, train_size, rondom_state=None, shuffle=True, stratify=None)
- arrays:特征数据和标签数据(array,list,dataframe等类型),要求所有数据长度相同。
- test_size / train_size: 测试集/训练集的大小,若输入小数表示比例,若输入整数表示数据个数。
- rondom_state:随机种子(一个整数),其实就是一个划分标记,对于同一个数据集,如果rondom_state相同,则划分结果也相同。
- shuffle:是否打乱数据的顺序,再划分,默认True。
- stratify:none或者array/series类型的数据,表示按这列进行分层采样。
特征数据:data
abc
0123
1136
2238
3157
4248
5236
6148
7236
标签数据:label
[2,3,5,6,8,0,2,3]#划分
xtrain,xtest,ytrain,ytest=train_test_split(data,label,test_size=0.2,stratify=data['a'],random_state=1)
训练特征集:
abc
0123
2238
3157
5236
6148
4248
测试特征集:
abc
1136
7236训练集与测试集按照a列来分层采样,且无论重复多少次上述语句,划分结果都相同。
推荐阅读
- 前沿论文|论文精读(Neural Architecture Search without Training)
- Python|Python strip()、split()和rstrip()方法
- Code|Code Splitting
- Maven|Maven test命令 中文乱码
- Git|Git branching strategy integated with testing/QA process - Stack Overflow
- IDEA|IDEA 中使用MAVEN Install 项目的时候 报 org.apache.maven.plugins:maven-surefire-plugin:2.18.1:test failed
- PentesterLab靶场-sql注入
- R语言股票收益分布一致性检验KS检验Kolmogorov-Smirnov、置换检验Permutation Test可视化
- IDEA中执行@Test单元测试时报错Class not found: “...“Empty test suite
- 上岸算法LeetCode|上岸算法LeetCode Weekly Contest 276解题报告