python函数自动填充 python抓取数据自动填充( 六 ) _Pownerdesigner

所以在数据处理前，要安装好numpy , pandas 。接下来就看看如何完成一套完整的数据操作。
创建数据表的方法分两种，分别是从外部导入数据，以及直接写入数据。
在python中，也可外部导入xlsx格式文件，使用read_excel()函数：
import pandas as pd
from pandas import DataFrame,Series
data=https://www.04ip.com/post/DataFrame(pd.read_excel('c:/python27/test.xlsx'))
print data
输出：
Gene Size Function
0 arx1 411 NaN
1 arx2 550 monooxygenase
2 arx3 405 aminotransferase
……
即：调用pandas中read_excel属性，来读取文件test.xlsx，并转换成DataFrame格式，赋给变量data 。在每一行后，自动分了一个索引值。除了excel ，还支持以下格式文件的导入和写入：
Python写入的方法有很多，但还是不如excel方便。常用的例如使用相等长度的字典或numpy数组来创建：
data1 = DataFrame(
{'Gene':['arx1','arx2','arx3'],
'Size':[411,550,405],
'Func':[np.NaN,'monooxygenase','aminotransferase ']})
print data1
输出
Func Gene Size
0 NaN arx1 411
1 monooxyg arx2 550
2 amino arx3 405
分配一个行索引后，自动排序并输出。
在python中，可以使用info()函数查看整个数据的详细信息。
print data.info()
输出
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
Gene 7 non-null object
Size 7 non-null int64
Function 5 non-null object
dtypes: int64(1), object(2)
memory usage: 240.0+ bytes
None
此外，还可以通过shape, column, index, values, dtypes等函数来查看数据维度、行列组成、所有的值、数据类型：
print data1.shape
print data1.index
print data1.columns
print data1.dtypes
输出
(3, 3)
RangeIndex(start=0, stop=3, step=1)
Index([u'Func', u'Gene', u'Size'], dtype='object')
Func object
Gene object
Size int64
dtype: object
在excel中可以按“F5”，在“定位条件”中选择“空值”，选中后，输入替换信息，再按“Ctrl+Enter”即可完成替换。
在python中，使用函数 isnull 和 notnull 来检测数据丢失, 包含空值返回True ，不包含则返回False 。
pd.isnull(data1)
pd.notnull(data1)
也可以使用函数的实例方法，以及加入参数，对某一列进行检查：
print data1['Func'].isnull()
输出
Func Gene Size
0 True False False
1 False False False
2 False False False
再使用fillna对空值进行填充：
data.fillna(value=https://www.04ip.com/post/0)
#用0来填充空值
data['Size'].fillna(data1['Size'].mean())
#用data1中Size列的平均值来填充空值
data['Func']=data['Func'].map(str.strip)
#清理Func列中存在的空格
Excel中可以按“Ctrl+F” ，可调出替换对话框，替换相应数据。
Python中，使用replace函数替换：
data['Func'].replace('monooxygenase', 'oxidase')
将Func列中的'monooxygenase'替换成'oxidase' 。
Excel中，通过“数据-筛选-高级”可以选择性地看某一列的唯一值。
Python中，使用unique函数查看：
print data['Func'].unique()
输出
[nan u'monooxygenase' u'aminotransferase' u'methyltransferase']
Excel中，通过UPPER、LOWER、PROPER等函数来变成大写、小写、首字母大写。
Python中也有同名函数：
data1['Gene'].str.lower()
Excel中可以通过“数据-删除重复项”来去除重复值。
Python中，可以通过drop_duplicates函数删除重复值：
print data['Func'].drop_duplicates()

python函数自动填充 python抓取数据自动填充( 六 )

推荐阅读

海信日立中央空调不制冷怎么处理这种故障 ,搞懂这个你就明白了

八喜壁挂炉故障代码说明八喜壁挂炉故障代码eo1

怎么看服务器配置参数怎么看服务器系统型号配置

收藏版清明上河图价格「999纯银清明上河图价值」

使用Mysql|使用Mysql 存储过程，批量插入100万条数据

同房后月经推迟怎么办月经前一天同房会导致月经推迟吗

贪污罪得量刑标准是怎样的

怎么确诊是宫内孕还是宫外孕？

忘记苹果id密码怎么办

财付通安卓版,本地新增12起输入型病例没有本土病例

海尔空调窗口显示f3什么意思,你知道如何解决吗？

马家沟景区门票蓬莱马家沟景区

坚果手机没信号是怎么回事

C#|C# Request.Form用法案例详解

是否真的明白自己要的是什么（）

南岳云雾茶有什么制茶工艺？传说有哪些？

木耳有刺鼻气味是怎么回事

女生新手吃鸡常识吃鸡怎么玩新手

2023合肥四季花海公园玉兰花开了吗合肥四季花海公园春天

侠客风云传前传除主角外侠客排名TOP10 玩家侠客简评