python参考手册--读写文件
7.2 读写文件
open() 返回一个文件对象 ,通常的用法需要两个参数:“open(filename, mode)”。
>>> f=open('/tmp/workfile', 'w')
>>> print f
第一个参数是一个标识文件名的字符串。第二个参数是由有限的字母组成的字符串,描述了文件将会被如何使用。可选的模式有:‘r',此选项使文件只读;‘w’,此选项使文件只写(对于同名文件,该操作使原有文件被覆盖); ‘a’,此选项以追加方式打开文件;‘r+’,此选项以读写方式打开文件;如果没有指定,默认为‘r’模式。
在Windows 和 Macintosh平台上,‘b’模式以二进制方式打开文件,所以可能会有类似于‘rb’,‘wb’,‘r+b’等等模式组合。 Windows平台上文本文件与二进制文件是有区别的,读写文本文件时,行尾会自动添加行结束符。这种后台操作方式对文本文件没有什么问题,但是操作JPEG或EXE这样的二进制文件时就会产生破坏。在操作这些文件时一定要记得以二进制模式打开。(需要注意的是Mactiontosh平台上的文本模式依赖于其使用的底层C库)。
7.2.1 文件对象(file object)的方法
本节中的示例都默认文件对象f已经创建。
要读取文件内容,需要调用 f.read(size),该方法读取若干数量的数据并以字符串形式返回其内容,字符串长度为数值size所指定的大小。如果没有指定size或者指定为负数,就会读取并返回整个文件。当文件大小为当前机器内存两倍时,就会产生问题。正常情况下,会按size尽可能大的读取和返回数据。如果到了文件末尾,f.read() 会返回一个空字符串("")。
>>> f.read()
'This is the entire file.\n'
>>> f.read()
''
f.readline() 从文件中读取单独一行,字符串结尾会自动加上一个换行符,只有当文件最后一行没有以换行符结尾时,这一操作才会被忽略。这样返回值就不会有什么混淆不清,如果 if f.readline() 返回一个空字符串,那就表示到达了文件末尾,如果是一个空行,就会描述为‘\n’,一个只包含换行符的字符串。
>>> f.readline()
'This is the first line of the file.\n'
>>> f.readline()
'Second line of the file\n'
>>> f.readline()
''
f.readlines() 返回一个列表,其中包含了文件中所有的数据行。如果给定了 sizehint 参数,就会读入多于一行的比特数,从中返回行列表。这个功能通常用于高效读取大型行文件,避免了将整个文件读入内存。这种操作只返回完整的行。
>>> f.readlines()
['This is the first line of the file.\n', 'Second line of the file\n']
f.write(string) 将 string 的内容写入文件,返回None。
>>> f.write('This is a test\n')
f.tell() 返回一个整数,代表文件对象在文件中的指针位置,该数值计量了自文件开头到指针处的比特数。需要改变文件对象指针话话,使用“f.seek(offset, from_what)” 。指针在该操作中从指定的引用位置移动 offset 比特,引用位置由 from_what 参数指定。. from_what 值为0表示自文件起初处开始,1表示自当前文件指针位置开始,2表示自文件末尾开始。 from_what 可以乎略,其默认值为零,此时从文件头开始。
>>> f=open('/tmp/workfile', 'r+')
>>> f.write('0123456789abcdef')
>>> f.seek(5) # Go to the 6th byte in the file
>>> f.read(1)
'5'
>>> f.seek(-3, 2) # Go to the 3rd byte before the end
>>> f.read(1)
'd'
文件使用完后,调用 f.close() 可以关闭文件,释放打开文件后占用的系统资源。调用 f.close()之后,再调用文件对象会自动引发错误。
>>> f.close()
>>> f.read()
Traceback (most recent call last):
File "", line 1, in ?
ValueError: I/O operation on closed file
文件对象还有一些不太常用的附加方法,比如 isatty() 和 truncate() 在库参考手册中有文件对象的完整指南。
7.2.2 pickle 模块
我们可以很容易的读写文件中的字符串。数值就要多费点儿周折,因为read() 方法只会返回字符串,应该将其传入string.atoi()方法中,就可以将'123' 这样的字符转为相应的值。不过,当你需要保存更为复杂的数据类型,例如链表、字典,类的实例,事情就会变得更复杂了。
好在用户不必要非得自己编写和调试保存复杂数据类型的代码。Python提供了一个名为 Pickle 的标准模块。这是一个令人赞叹的模块,几乎可以把任何Python对象(甚至是一些Python代码块(form)!)表达为为字符串,这一过程称之为封装 (pickling)。从字符串表达出重新构造对象称之为拆封(unpickling)。封装状态中的对象可以存储在文件或对象中,也可以通过网络在远程的机器之间传输。
如果你有一个对象x,一个以写模式打开的文件对象f,封装对像的最简单的方法只需要一行代码:
pickle.dump(x, f)
如果f是一个以读模式打开的文件对象,就可以重装拆封这个对象:
x = pickle.load(f)
(如果不想把封装的数据写入文件,这里还有一些其它的变化可用。完整的pickle文档请见库参考手册)。
pickle 是存储Python对象以供其它程序或其本身以后调用的标准方法。提供这一组技术的是一个持久化对象( persistent object )。因为 pickle 的用途很广泛,很多Python扩展的作者都非常注意类似矩阵这样的新数据类型是否适合封装和拆封。