i/o多路转接和多线程问题

i/o多路转接和多线程问题

我想写一个爬虫程序,不知道用上述哪种方式比较好,觉得差不多
差不多。线程要简单一些吧。


QUOTE:
原帖由 limodou 于 2007-6-26 14:15 发表
差不多。线程要简单一些吧。

从Larbin看互联网爬虫设计http://www.example.net.cn/search/一文中看到

多线程阻塞。建立多个阻塞的线程,分别请求不同的url。相对于第一种方法,它可以更有效的利用机器的资源,特别是网络资源,因为无数线程在同时工作,所以网络会比较充分的利用,但同时对机器CPU资源的消耗也是比较大,在用户级多线程间的频繁切换对于性能的影响已经值得我们考虑。

单线程非阻塞。这是目前使用的比较多的一种做法,无论在client还是server都有着广泛的应用。在一个线程内打开多个非阻塞的连接,通过poll/epoll/select对连接状态进行判断,在第一时间响应请求,不但充分利用了网络资源,同时也将本机CPU资源的消耗降至最低。这种方法需要对dns请求,连接,读写操作都采用异步非阻塞操作,其中第一种比较复杂,可以采用adns作为解决方案,后面三个操作相对简单可以直接在程序内实现。

似乎单线程非阻塞要好些,但是真的是这样么?
limdou说的不错,用thread可以很好的封装逻辑,相信很多人都写过thread/worker/pool的程序,limdou似乎也写过
如同python-cn列表讨论过的一样,小型爬虫的瓶颈在机器性能和带宽上,而比较大的爬虫则在数据的处理上(如数据库操作)
所以你要写的爬虫如果实在看重效率,可以尝试用select/poll+nonblock的方式。我也写过,发现不值得。pycurl的测试显示, 快不了15%。而代码不好维护。
可参考twist,记得它就采用的单线程。
我是比较提倡多线程的,IO多路转接的方法造成程序复杂度增加很多。
多线程的方法并不会对CPU带来过多的消耗,因为阻塞的过程其实并不消耗CPU。当然CPU占用会根据你开的线程数量的多少有变化,毕竟同时处理几个连接和单个连接比还是不一样的。
多线程相对单线程势必是占更多资源的!这点是毫无疑问的!关键是看具体做什么!
倾向于一cpu一线程,

然后线程内做select/poll+nonblock.

写起来有些麻烦,不过效果不错.
谢谢大家的指点啊