知识的领域是无限的,我们的学习也是无限期的。这篇文章主要讲述python-机器学习-数据标签转化相关的知识,希望能为你提供帮助。
目的:一般情况下,我们拿到的数据有自变量部分和因变量部分,而因变量部分有时候不是有数字形式表示,而是有字符串表示,比如身高的因变量为lowest,lower,low,high,higher,highest。
这是在进行机器学习模型训练时,需要将其转化为数字形式,共有以下两种操作可以实现。
【python-机器学习-数据标签转化】方法1: 利用pandas的Categorical方法的codes属性
方法2:利用sklearn包的preprocessing模块的LabelEncoder类
代码实现如下:
# -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
import sys, os, re
from sklearn.preprocessing import LabelEncoder
labels= ["LUSC", "LUAD", "Normal"] * 10
samples= np.random.randn(len(labels), 4)
data = https://www.songbingjia.com/android/pd.DataFrame(data = samples, columns = ["feature1", "feature2", "feature3", "feature4"])
data["label"] = labels
print("原始数据\\n", data.head())
y1 = pd.Categorical(data.label).codes # 方法1:
y2 = LabelEncoder().fit_transform(data.label)# 方法2:
print("pandas的Categorical方法的codes属性:\\n", y1)
print("sklearn.preprocessing的LabelEncoder类: \\n", y2)
data.label = y1 # data.label = y2
print("转换字符标签为数字标签后的数据:\\n", data.head())
Categorical
推荐阅读
- mybatis常用标签
- 二进制部署高可用Kubernetes v1.17.x
- shell 脚本相关的习题(入门篇)
- #私藏项目实操分享#分布式技术专题「OSS中间件系列」Minio的Server端服务的架构和实战搭建
- RabbitMQ中的SimpleMessageListener
- 存储数据恢复案例误操作删除lun-Netapp的数据恢复
- AWS私有仓库ECR推送拉取镜像
- 灯箱无法在我的WordPress主题中运作
- 启动没有wordpress帐户的wordpress网站()