python知识复习(一)--(磁盘)IO编程

一·input和raw_input
input()输入严格按照Python的语法,是字符就加 ' ' ,数字就是数字,并且input()可以接收一个Python表达式作为输入,并将运算结果返回。
raw_input()随便输都是字符串,会从标准输入(sys.stdin)读取一个输入并返回一个字符串,且尾部的换行符从末尾移除。
测试代码如下:

x1 = input('input number:') x2 = input('input string:') print type(x1),type(x2)x3 = raw_input('raw_input number:') x4 = raw_input('raw_input string:') print type(x3),type(x4)x5 = input('input [x*2 for x in range(5)]:') x6 = raw_input('raw_input [x*2 for x in range(5)]:') print x5,x6x7 = input('input "[x*2 for x in range(5)]":') x8 = raw_input('raw_input "[x*2 for x in range(5)]":') print x7,x8

运行结果:

python知识复习(一)--(磁盘)IO编程
文章图片
运行结果1.png
二·文件读写
1.open(file_name [, access_mode][, buffering])
filename:如果只只传入这一参数,文件不存在时会返回一个错误。
access_mode:决定了打开文件的模式:只读,写入,追加等,这个参数是非强制的,默认文件访问模式为只读(r)
buffering:为0,I/O操作为无缓冲,直接写入磁盘,为1,有缓冲,先写到内存,在调用flush和close时更新到磁盘,大于1,表示缓冲区的大小(单位:字节),-1为使用默认缓冲区大小。
为了避免在打开文件时产生IO error,以及提高代码的健壮性,可将打开文件代码写为:
with open(r'../test.txt','w+') as f: f.write(‘......’)

打开文件,读写完毕后要调用close关闭释放资源,避免浪费有限的IO资源。
下面是几种常用mode对应的文件权限图:

python知识复习(一)--(磁盘)IO编程
文章图片
模式-权限.png
2.文件读取,可以采用read()和readlines()一次性将文件全部读入内存中,文件太大时,应采用read(size)和readline()的方式进行读取。(但readline()不能输出指定行。可使用text = linecache.getline(filename, 2)来读取指定行)。此外还可以通过迭代文件的方式读取(文件也是个可迭代对象):
with open(filename, 'r') as flie: for line in file: ....

3.文件写入
使用write写入字符串,但不可写入可迭代对象,而writelines则相反。
三.操作文件和目录
在 Python中对文件和目录的操作经常用到os模块和 shutil模块。接下来主要介绍一些操作文件和目录的常用方法:
获得当前 Python脚本工作的目录路径: os.getcwd。
返回指定目录下的所有文件和目录名: os.listdir()。
例如返回C盘下的文件os.listdir("C: \")
删除一个文件: os.remove(filepath)
删除多个空目录: os.removedirs(r"d:\python")
检验给出的路径是否是一个文件: os.path.isfile( filepath)
检验给出的路径是否是一个目录: os.path.isdir( filepath)
判断是否是绝对路径: os.path.isabs()。
检验路径是否真的存在: os.path.exists()。例如检测D盘下是否有 Python文件夹os.path.exists(r"d: \ python")
分离一个路径的目录名和文件名: os.path. split()。例如:
os.path.split(r" home/qiye/qiye. txt"),返回结果是一个元组:('home/qiye','qiye.txt')
分离扩展名: os path.splitext()。例如 os.path. splite(r"/home/ /qiye/qiye.txt"),返回结果
是一个元组:('/home/ qiye/qiye','.txt')
获取路径名: os.path.dirname( filetpath)
获取文件名: os.path.basename( filepath)
读取和设置环境变量: os.getenv()与 os.putenv()。
给出当前平台使用的行终止符: os.linesep(),Windows使用"\r\n', Linux使用'\n'而Mac使用'\r'
指示你正在使用的平台:os.name对于 Windows,它是nt,而对于 Linux/Unix用户,它是'posix'。
重命名文件或者目录: os.rename( old, new).
创建多级目录: os.makedirs(r"c:\Python\test")。
创建单个目录: os.mkdir("test")
获取文件属性: os.stat(file)
修改文件权限与时间戳: os.chmod(file)
获取文件大小: os.path.getsize(filename)
复制文件夹: shutil.copytree(" olddir"," newdir") o olddir和 newdir都只能是目录,且 newdir
必须不存在。
复制文件: shutil.copyfile(" oldfile"," newfile"), oldfile和 newfile都只能是文件; shutil
copy("oldfile"," newfile"), oldfile只能是文件, newfile可以是文件,也可以是目标目录。
移动文件(目录): shutil.move("oldpos"," nepos").
删除目录: os.rmdir("dir"),只能删除空目录;
shutil.rmtree("dir"),空目录、有内容的
目录都可以删.
四.字符编码
字符编码
要读取非UTF-8编码的文本文件,需要给open()函数传入encoding参数,例如,读取GBK编码的文件:
>>> f = open('test.txt', 'r', encoding='gbk') >>> f.read()

遇到有些编码不规范的文件,你可能会遇到UnicodeDecodeError,因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况,open()函数还接收一个errors参数,表示如果遇到编码错误后如何处理。最简单的方式是直接忽略:
>>> f = open('test.txt', 'r', encoding='gbk', errors='ignore')

五.序列化与反序列化
可从这查看原文 廖雪峰-序列化
把变量从内存中变成可存储或传输的过程称之为序列化,在Python中叫pickling,在其他语言中也被称之为serialization,marshalling,flattening等等,都是一个意思。
序列化之后,就可以把序列化后的内容写入磁盘,或者通过网络传输到别的机器上。
反过来,把变量内容从序列化的对象重新读到内存里称之为反序列化,即unpickling。
Python提供两个模块来实现序列化:cPickle和pickle。这两个模块功能是一样的,区别在于cPickle是C语言写的,速度快,pickle是纯Python写的,速度慢,跟cStringIO和StringIO一个道理。用的时候,先尝试导入cPickle,如果失败,再导入pickle:
try: import cPickle as pickle except ImportError: import pickle

两个例子:
>>> d = dict(name='Bob', age=20, score=88) >>> pickle.dumps(d)"(dp0\nS'age'\np1\nI20\nsS'score'\np2\nI88\nsS'name'\np3\nS'Bob'\np4\ns."

pickle.dumps()方法把任意对象序列化成一个str,然后,就可以把这个str写入文件。或者用另一个方法pickle.dump()直接把对象序列化后写入一个file-like Object:
>>> f = open('dump.txt', 'wb') >>> pickle.dump(d, f) >>> f.close()

看看写入的dump.txt文件,一堆乱七八糟的内容,这些都是Python保存的对象内部信息。
当我们要把对象从磁盘读到内存时,可以先把内容读到一个str,然后用pickle.loads()方法反序列化出对象,也可以直接用pickle.load()方法从一个file-like Object中直接反序列化出对象。我们打开另一个Python命令行来反序列化刚才保存的对象:
>>> f = open('dump.txt', 'rb') >>> d = pickle.load(f) >>> f.close() >>> d {'age': 20, 'score': 88, 'name': 'Bob'}

当然,这个变量和原来的变量是完全不相干的对象,它们只是内容相同而已。
Pickle的问题和所有其他编程语言特有的序列化问题一样,就是它只能用于Python,并且可能不同版本的Python彼此都不兼容,因此,只能用Pickle保存那些不重要的数据,不能成功地反序列化也没关系。
JSON
要在不同的编程语言之间传递对象,就必须把对象序列化为标准格式,比如XML,但更好的方法是序列化为JSON,因为JSON表示出来就是一个字符串,可以被所有语言读取,也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式,并且比XML更快,而且可以直接在Web页面中读取,非常方便。
JSON表示的对象就是标准的JavaScript语言的对象,JSON和Python内置的数据类型对应如下:
JSON类型Python类型
?{}??????dict
?[]??????list
"string"??'str'或u'unicode'
1234.56??int或float
true/false??True/False
?null?????None
Python内置的json模块提供了非常完善的Python对象到JSON格式的转换:
>>> import json >>> d = dict(name='Bob', age=20, score=88) >>> json.dumps(d) '{"age": 20, "score": 88, "name": "Bob"}'

dumps()方法返回一个str,内容就是标准的JSON。类似的,dump()方法可以直接把JSON写入一个file-like Object。
要把JSON反序列化为Python对象,用loads()或者对应的load()方法,前者把JSON的字符串反序列化,后者从file-like Object中读取字符串并反序列化:
>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}' >>> json.loads(json_str) {u'age': 20, u'score': 88, u'name': u'Bob'}

有一点需要注意,就是反序列化得到的所有字符串对象默认都是unicode而不是str。由于JSON标准规定JSON编码是UTF-8,所以我们总是能正确地在Python的str或unicode与JSON的字符串之间转换。
JSON进阶
对Python的类如定义Student类,进行序列化:
import jsonclass Student(object): def __init__(self, name, age, score): self.name = name self.age = age self.score = scores = Student('Bob', 20, 88) print(json.dumps(s))

运行代码,毫不留情地得到一个TypeError
Traceback (most recent call last): ... TypeError: <__main__.Student object at 0x10aabef50> is not JSON serializable

错误的原因是Student对象不是一个可序列化为JSON的对象。
仔细看看dumps()方法的参数列表,可以发现,除了第一个必须的obj参数外,dumps()方法还提供了一大堆的可选参数:
https://docs.python.org/2/library/json.html#json.dumps
这些可选参数就是让我们来定制JSON序列化。前面的代码之所以无法把Student类实例序列化为JSON,是因为默认情况下,dumps()方法不知道如何将Student实例变为一个JSON的{}对象。
可选参数default就是把任意一个对象变成一个可序列为JSON的对象,我们只需要为Student专门写一个转换函数,再把函数传进去即可:
def student2dict(std): return { 'name': std.name, 'age': std.age, 'score': std.score }print(json.dumps(s, default=student2dict))

这样,Student实例首先被student2dict()函数转换成dict,然后再被顺利序列化为JSON。
不过,下次如果遇到一个Teacher类的实例,照样无法序列化为JSON。我们可以偷个懒,把任意class的实例变为dict
print(json.dumps(s, default=lambda obj: obj.__dict__))

同样的道理,如果我们要把JSON反序列化为一个Student对象实例,loads()方法首先转换出一个dict对象,然后,我们传入的object_hook函数负责把dict转换为Student实例:
def dict2student(d): return Student(d['name'], d['age'], d['score'])json_str = '{"age": 20, "score": 88, "name": "Bob"}' print(json.loads(json_str, object_hook=dict2student))

运行结果如下:
<__main__.Student object at 0x10cd3c190>

打印出的是反序列化的Student实例对象。
小结
【python知识复习(一)--(磁盘)IO编程】Python语言特定的序列化模块是pickle,但如果要把序列化搞得更通用、更符合Web标准,就可以使用json模块。

    推荐阅读