[转帖]关于Python对象的理解

转帖啄木鸟社区 
http://wiki.woodpecker.org.cn/moin/MicroProj/2005-07-10

1.1. python的对象与名字绑定
《python的对象与名字绑定》 http://blog.csdn.net/jrgao/archive/2004/03/04/22248.aspx
i = 1
这是一个再简单不过的赋值语句,即便是才开始学习编程的新手也能脱口而出它的含义 -- "设置变量i的值为1"。
i = 2
"将变量i的值改为2",当看到接下来这行代码时,你脑海中肯定会立即浮现这样的念头。
这难道会有问题嘛?这简简单单的一行赋值语句其实包含了python中的三个重要概念:名字、绑定和对象。
python对赋值语句作出了自己的定义:
"符值语句是用来将名字绑定(或重新绑定)到某个对象的操作,而且它也可用来修改可变对象的属性或
对象中所包含的成员。"
名字绑定到对象这个概念在python中随处可见,可以说是python的最基本而且最重要的概念之一。如果
没有很好理解这一点,一些意想不到的结果就会在您的代码中悄然出现。
先来看一个简单例子:
>>> a = {'g':1}
>>> b = [a]*4
>>> print b
[{'g': 1}, {'g': 1}, {'g': 1}, {'g': 1}]
>>> b[0]['g'] = 2
>>> print b
出乎意料嘛?请慢慢看完这篇文章。
1. 对象
"万物皆对象"(Everything is
object),这是python这种面向对象语言所倡导的理念。在我们熟悉的C++中,1只是一个整型数,而不是一个对象。但在python中,1却是一个实实在在的对象,您可以用dir(1)来显示它的属性。
在python中,所有对象都有下面三个特征:
* 唯一的标识码(identity)
* 类型
* 内容(或称为值)
一旦对象被创建,它的标识码就不允许更改。对象的标识码可以有内建函数id()获取,它是一个整型数。您可以将它想象为该对象在内存中的地址,其实在目前的实现中标识码也就是该对象的内存地址。
>>> class c1:
pass
...
>>> obj = c1()
>>> obj
>>> id(obj)
11274040
换算一下,11274040就是十六进制的0x00AC0738。
>>> id(1)
7957136
这就是前面提到的1这个对象的标识码,也就是它在内存中的地址。
当用is操作符比较两个对象时,就是在比较它们的标识码。更确切地说,is操作符是在判断两个对象是否是同一个对象。
>>> [1] is [1]
其结果是False,是因为这是两个不同的对象,存储在内存中的不同地方。
>>> [1] == [1]
其结果是True,是因为这两个不同的对象有着相同的值。
与对象的标识码类似,对象的类型也是不可更改的。可以用内建函数type()取得对象的类型。
有的对象的值是可以改变的,这类对象叫作可变对象;而另外一些对象在创建后其值是不可改变的(如1这个对象),这类对象叫作恒定对象。对象的可变性是由它的类型决定的,比如数值型(number)、字符串型(string)以及序列型(tuple)的对象是恒定对象;而字典型(dictionary)和列表型(list)的对象是可变对象。
除了上面提到的三个特征外,一个对象可能:
* 没有或者拥有多个方法
* 没有或者有多个名字
2. 名字
名字是对一个对象的称呼,一个对象可以只有一个名字,也可以没有名字或取多个名字。但对象自己却不知道有多少名字,叫什么,只有名字本身知道它所指向的是个什么对象。给对象取一个名字的操作叫作命名,python将赋值语句认为是一个命名操作(或者称为名字绑定)。
名字在一定的名字空间内有效,而且唯一,不可能在同一个名字空间内有两个或更多的对象取同一名字。
让我们再来看看本篇的第一个例子:i = 1。在python中,它有如下两个含义:
* 创建一个值为1的整型对象
* "i"是指向该整型对象的名字(而且它是一个引用)
3. 绑定
如上所讲的,绑定就是将一个对象与一个名字联系起来。更确切地讲,就是增加该对象的引用计数。众所周知,C++中一大问题就是内存泄漏 --
即动态分配的内存没有能够回收,而解决这一问题的利器之一就是引用计数。python就采用了这一技术实现其垃圾回收机制。
python中的所有对象都有引用计数。
i=i+1
* 这创建了一个新的对象,其值为i+1。
* "i"这个名字指向了该新建的对象,该对象的引用计数加一,而"i"以前所指向的老对象的
引用计数减一。
* "i"所指向的老对象的值并没有改变。
* 这就是为什么在python中没有++、--这样的单目运算符的一个原因。
3.1 引用计数
对象的引用计数在下列情况下会增加:
* 赋值操作
* 在一个容器(列表,序列,字典等等)中包含该对象
对象的引用计数在下列情况下会减少:
* 离开了当前的名字空间(该名字空间中的本地名字都会被销毁)
* 对象的一个名字被绑定到另外一个对象
* 对象从包含它的容器中移除
* 名字被显示地用del销毁(如:del i)
当对象的引用计数降到0后,该对象就会被销毁,其所占的内存也就得以回收。
4. 名字绑定所带来的一些奇特现象
例4.1:
>>> li1 = [7, 8, 9, 10]
>>> li2 = li1
>>> li1[1] = 16
>>> print li2
[7, 16, 9, 10]
注解:这里li1与li2都指向同一个列表对象[7, 8, 9, 10],"li[1] = 16"是改变该列表中的第2个元素,所以通过li2时同样会看到这一改动。
例4.2:
>>> b = [{'g':1}]*4
>>> print b
[{'g': 1}, {'g': 1}, {'g': 1}, {'g': 1}]
>>> b[0]['g'] = 2
>>> print b
[{'g': 2}, {'g': 2}, {'g': 2}, {'g': 2}]
例4.3:
>>> b = [{'g':1}] + [{'g':1}] + [{'g':1}] + [{'g':1}]
>>> print b
[{'g': 1}, {'g': 1}, {'g': 1}, {'g': 1}]
>>> b[0]['g'] = 2
>>> print b
[{'g': 2}, {'g': 1}, {'g': 1}, {'g': 1}]
注解:在有的python书中讲到乘法符号(*)就相当于几个加法的重复,即认为例4.2应该与4.3的结果一致。
     其实不然。例4.2中的b这个列表中的每一个元素{'g':
1}其实都是同一个对象,可以用id(b[n])进行验证。而例4.3中则是四个不同的对象。我们可以采用名字绑定的方法消除这一歧义:
>>> a = {'g' : 1}
>>> b = [a]*4
>>> b[0]['g'] = 2
>>> print b
[{'g': 2}, {'g': 2}, {'g': 2}, {'g': 2}]
>>> print a
{'g': 2}
>>> a = {'g' : 1}
>>> b = [a] + [a] + [a] + [a]
>>> b[0]['g'] = 2
>>> print b
[{'g': 2}, {'g': 2}, {'g': 2}, {'g': 2}]
>>> print a
{'g': 2}
不过对于恒定对象而言,"*"和连续加法的效果一样。比如,b=[1] * 4 就等同于 b=[1]+[1]+[1]+[1]。
5. 函数的传参问题
函数的参数传递也是一个名字与对象的绑定过程,而且是绑定到另外一个名字空间(即函数体内部的名字空间)。python对赋值语句的独特看法又会对函数的传递造成什么影响呢?
5.1 传值?传址?
在学习C++的时候我们都知道有两种参数传递方式:传值和传址。而在python中所有的参数传递都是引用传递(pass
reference),也就是传址。这是由于名字是对象的一个引用这一python的特性而自然得来的,在函数体内部对某一外部可变对象作了修改肯定会将其改变带到函数以外。让我们来看看下面
这个例子:
例5.1
>>> a = [1, 2, 3]
>>> def foo(par):
... par[1] = 10
...
>>> foo(a)
>>> print a
[1, 10, 3]
因此,在python中,我们应该抛开传递参数这种概念,时刻牢记函数的调用参数是将对象用另外一个名字空间的名字绑定。在函数中,不过是用了另外一个名字,但还是对这同一个对象进行操作。
5.2 缺省参数
使用缺省参数,是我们喜爱的一种作法。这可以在调用该函数时节省不少的击键次数,而且代码也显得更加简洁。更重要的是它从某种意义上体现了这个函数设计的初衷。
但是python中的缺省参数,却隐藏着一个玄机,初学者肯定会在上面栽跟头,而且这个错误非常隐秘。先看看下面这个例子:
例5.2
>>> def foo(par=[]):
... par.append(0)
... print par
...
>>> foo()                       # 第一次调用
[0]
>>> foo()                       # 第二次调用
[0, 0]
出了什么问题?这个参数par好像类似与C中的静态变量,累计了以前的结果。是这样吗?当然不是,这都是"对象、名字、绑定"这些思想惹的"祸"。"万物皆对象",还记得吗?这里,函数foo当然也是一个对象,可以称之为函数对象(与一般的对象没什么不同)。先来看看这个对象有些什么属性。
>>> dir(foo)
['__call__', '__class__', '__delattr__', '__dict__', '__doc__',
'__get__', '__getattribute__', '__hash__', '__init__', '__module__',
'__name__', '__new__', '__reduce__', '__reduce_ex__', '__repr__',
'__setattr__', '__str__', 'func_closure', 'func_code',
'func_defaults', 'func_dict', 'func_doc', 'func_globals', 'func_name']
单从名字上看,"func_defaults"很可能与缺省参数有关,看看它的值。
>>> foo.func_defaults          # 显示这个属性的内容
([0, 0],)
>>> foo()                      # 第三次调用
[0, 0, 0]
>>> foo.func_defaults          # 再来看看这个属性
([0, 0, 0],)
果不其然,就是这个序列对象(tuple)包含了所有的缺省参数。验证一下:
>>> def fooM(par1, def1=1, def2=[], def3='str'):           # 定义一个有多个缺省参数的函数
... def2.append(0)
... print par1, def1, def2, def3
...
>>> fooM.func_defaults
(1, [], 'str')
在函数定义中有几个缺省参数,func_defaults中就会包括几个对象,暂且称之为缺省参数对象(如上列中的1,[]和'str')。这些缺省参数对象的生命周期与函数对象相同,从函数使用def定义开始,直到其消亡(如用del)。所以即便是在这些函数没有被调用的时候,但只要定义了,缺省参数对象就会一直存在。
前面讲过,函数调用的过程就是对象在另外一个名字空间的绑定过程。当在每次函数调用时,如果没有传递任何参数给这个缺省参数,那么这个缺省参数的名字就会绑定到在func_defaults中一个对应的缺省参数对象上。
>>> fooM(2)
函数fooM内的名字def1就会绑定到func_defaults中的第一个对象,def2绑定到第二个,def3则是第三个。
所以我们看到在函数foo中出现的累加现象,就是由于par绑定到缺省参数对象上,而且它是一个可变对象(列表),par.append(0)就会每次改变这个缺省参数对象的内容。
将函数foo改进一下,可能会更容易帮助理解:
>>> def foo(par=[]):
... print id(par)                  # 查看该对象的标识码
... par.append(0)
... print par
...
>>> foo.func_defaults                  # 缺省参数对象的初始值
([],)
>>> id(foo.func_defaults[0])           # 查看第一个缺省参数对象的标识码
11279792                               # 你的结果可能会不同
>>> foo()
11279792                               # 证明par绑定的对象就是第一个缺省参数对象
[0]
>>> foo()
11279792                               # 依旧绑定到第一个缺省参数对象
[0, 0]                                 # 该对象的值发生了变化
>>> b=[1]
>>> id(b)
11279952
>>> foo(b)                             # 不使用缺省参数
11279952                               # 名字par所绑定的对象与外部名字b所绑定的是同一个对象
[1, 0]
>>> foo.func_defaults
([0, 0],)                              # 缺省参数对象还在那里,而且值并没有发生变化
>>> foo()
11279792                               # 名字par又绑定到缺省参数对象上
([0, 0, 0],)
为了预防此类"问题"的发生,python建议采用下列方法:
>>> def foo(par=[]):
... if par is None:
...  par = []
... par.append(0)
... print par
使用None作为哨兵,以判断是否有参数传入,如果没有,就新创建一个新的列表对象,而不是绑定到缺省
参数对象上。
6.总结
* python是一种纯粹的面向对象语言。
* 赋值语句是名字和对象的绑定过程。
* 函数的传参是对象到不同名字空间的绑定。
7.参考资料
* 《Dive Into Python》,Mark Pilgrim,http://diveintopython.org, 2003。
* 《Python Objects》,Fredrik
Lundh,http://www.effbot.org/zone/python-objects.htm。
* 《An Introduction to Python》,David M.
Beazley,http://systems.cs.uchicago.edu/~beazley/tutorial/beazley_intro_python/intropy.pdf。
*  从Python官方网站(http://www.python.org)上可以了解到所有关于Python的知识。
发表于 2004年03月04日 10:06 AM
hoxide 发表于2004-07-26 1:57 AM
最后一个例子有问题
== 对于"python的对象与名字绑定"一文错误的纠正 == 《对于"python的对象与名字绑定"一文错误的纠正!》
http://blog.csdn.net/dreamingk/archive/2004/07/26/51658.aspx
   今天看了一篇名为"python的对象与名字绑定"的文章.前面的分析都是比较精准的.但是在最后的部分却犯了一个错误,下面由我来解析纠正一下.(请按照连接先查看他的文章)
   首先看他最后一部分的分析:
为了预防此类"问题"的发生,python建议采用下列方法:
>>> def foo(par=[]):
... if par is None:
...   par = []
... par.append(0)
... print par
使用None作为哨兵,以判断是否有参数传入,如果没有,就新创建一个新的列表对象,而不是绑定到缺省参数对象上。
   这个想法是错误的.因为:
   如果无参数调用foo如这样调用:
   foo()
   那么参数par就会被赋予参数默认值:[]
   所以par并不如作者想象的那样以为当par无参数输入的时候值会是None.
   怎么可能呢?如果是None的话,那还要参数默认值做什么呢.
   正确的方法是:
>>> def foo(par=[]):
... if par == []:      #这里比较的值应该是参数的默认值才正确
...   par = []
... par.append(0)
... print par
这样便起到了预防的作用.
CSDN上对于Python以及开源的关注太少了,甚至有些朋友对Python和开源的看法有些偏激.其实真的希望持有极端观点的朋友可以静下心来了解一下你所不了解的东西,我想那样对你对别人都是有好处的.希望有更多的人了解.
发表于 2004年07月26日 2:27 AM
hoxide 发表于2004-07-26 2:58 AM
另外补充一点None的用法.
None是什么都没有,也就什么都不是.
None一般不用于比较,事实上None只有等于None,没有大于小于等等.
注意:
None==None
但是:
[]!=None
()!=None
0!=None
而在if None/[]/()/0: 中值都是false.
关于空序列,PEP8--Python编码风格指南中建议用一下方法:
if not None/[]/()/0:
hoxide 发表于2004-07-26 2:59 AM
上面的只属于我自己的学习笔记,和正文无关.
playing5460 发表于2004-09-02 11:29 AM
if not None/[]/()/0:
这样地阀值比较安全
拐拐龙底咚 发表于2004-09-28 3:52 PM
应该是:
def foo(par=None):
if part is None:
part = []
......
为了使每次执行时默认参数都是新实例,ruby用closure解决。
下面有个例子:
Hash.new如果传一个参数,会被当作key不存在时的默认值。如:
h = Hash.new(3)
p h['xy']
会得到3
但这时会有与python同样的问题,即默认值是引用同一对象。如:
h = Hash.new([])
p h['a'].equal?(h['b'])
会得到true
如果想每次当访问key不存在时,创建一个新的[]与之对应,应该用下面的语法:
h = Hash.new{[]}
其中{...}是一个closure,在适当的时候执行。
对于python可考虑用lambda实现。
拐拐龙底咚 发表于2004-09-28 3:55 PM
不幸的是,ruby并没有把closure生成的实例与key关联上。
如:
a = Hash.new{[]}
b = a['a']
bp b
p a['a']
结果是:
[3, 4]
[]
1.2. 总结
如果真想搞清楚的话恐怕要看Python的源码了,不过我想我们只要了解在Python中对象与名字绑定这些概念,再加上对一些特例情况的理解应该就可以了。因为我们平时更关心的是值的变化。简单地总结一下,有没想到的大家可以补充:
1. 对于可变对象要注意是新对象还是对象的引用。
比如列表重复
a = [1,2,3]
b = [a]*3得到的是对a的n次引用,而不是创建了n个新对象。如果我们是只读的处理,因此无所谓,但如果要修改它们的值,而且不能相互影响,这样需要创建对象的拷贝,如:
b=[a[:] for i in range(3)]
a[:]是创建一个不同于a的新对象。而使用list comprehension 是用来执行3次这样的创建过程。(暂时只想到这个方法)
对于可变对象的复制如果只是读操作,则直接赋值即可,但如果想用于以后修改,但又不想影响原来的对象,则需要进行复制。
list 可以使用a[:]这样的处理,但如果一个列表中的元素还存在可变对象,如列表中的列表,则上面的方面不能解决问题,需要使用copy模块中的deepcopy来解决,这就是深度拷贝。它的作用就是将一个对象的所有元素,包括这些元素的子元素也都创建出新的对象,而不是原来对象的引用。
其中可变对象为:list, dict, object
2. 对于函数的参数缺省值的使用。
如果是可变参数为作缺省参数,要注意,当函数在编译时缺省参数被创建,并被保存在某个地方。这个创建过程一般只执行一次。而这样的话造成这个可变的缺省值一旦被改变,当函数再次执行值,它的值仍然被保存起来了,而不会重新初始化。这样有时会产生一些问题。但有时却的确有用。
那么从上面的简单分析可以看出,如果对象是用来读的,不会有问题。问题就出现在读写上。因此对于修改一个可变对象的值时就需要注意这个问题的。那么再分析一下,这此问题基本上可以归结为:
1.变量复制
如果想修改原对象,那么直接修改就行了,因为这正是你想要的。如果的确是想创建一个新对象,不想影响原来的对象,那么要么使用浅拷贝,要么使用深拷贝,关键是看对象的复杂程度了。
2.缺省值是可变对象
如果不想使用这个可变对象参数来作一些特殊的事,还是不要用得好。使用None或其它的非可变对象。
我想基本上容易出问题的就是这两个地方吧。