
qq:800819103
在线客服,实时响应
qq群
在线客服,实时响应
客服电话
13318873961如果我们需要采集的网页比较多,可以使用多线程,同时使用代理IP来辅助,这样可以加快我们采集的速度,这是非常不错的方法。那么大家知道多线程怎么运用吗?对于多线程的使用技巧,其实是比较简单的,通常只需要使用到Python中的threading模板,我们可以找到Thread来控制多线程。
举个例子:
Thread使用方法为:
threading.Thread(target=线程运行的函数,args=(参数)) 其中参数用逗号分隔,并以逗号结尾。随后使用start启动。运行结果如下:
在上图,我们可以看到五个线程同步运行,因sleep设置的时间相同,所以也同步结束。
但有一个缺点是第16行代码在五个线程启动后随即也就运行了,相当于此时主线程已经结束了而那五个子线程还在运行。这该怎么办呢?我们有两个控制策略:
策略一:在start之前把子线程设置为守护线程
修改代码如下:
运行结果如下:
子线程在主线程结束的时候也同步结束,未运行的部分也就不再运行了。
策略二:在主线程中使用join,让主线程挂起等待子线程结束
修改代码如下:
从运行结果可以看到主线程停留在t.join()的位置,一直等到五个子线程全部结束后才开始继续向后运行。
以上就是需要用到的threading模板里所有的东西了。
综合上文,我们可以进行修改,整合数据,把列表分段分别交给不同的线程来处理,主线程等待所有数据处理完毕之后再进行下一步操作,如下:
五个线程分步处理各自被分配到的数据,总体运行时间大幅缩减。若是机器给力的话,可以增加线程数,得到更快的速度。
但也不能无限增加,需要根据当前设备进行控制,而且要注意线程死锁的情况,避免出现线程死锁问题。关于多线程的问题,就了解到这里,要注意多线程需要配合代理IP使用,否则也是无法达到效果的,使用代理IP,推荐黑洞代理,还是不错的,蛮多人在使用。
相关文章内容简介
1 多线程使用方法:Python中Thread可以控制多线程
如果我们需要采集的网页比较多,可以使用多线程,同时使用代理IP来辅助,这样可以加快我们采集的速度,这是非常不错的方法。那么大家知道多线程怎么运用吗?对于多线程的使用技巧,其实是比较简单的,通常只需要使用到Python中的threading模板,我们可以找到Thread来控制多线程。举个例子:Thread使用方法为:threading.Thread(target=线程运行的函数,args=(参数))... [阅读全文]
最新标签
推荐阅读
27
2019-05
代理IP哪家好?
每一个经营网站的人员应该都有这样的体会,这几年的白帽SEO越来越难做了,伴随搜索引擎技术的发展,要想通过本分的操作使得网站排名靠前的话,这要花费巨大的精力财力,而且随时还有
07
2019-08
营销补量离不开代理IP的帮助
做网络营销如果效果不好,为了达到目的,可以进行营销补量,这是网络营销人员都知道的。但营销补量并不是那么好做,需要一些方法。
04
2019-01
网站能封杀所有爬虫吗?爬虫是如何突破的
反爬虫的出现是必然的,如果对爬虫没有限制,那么许多网站都被密密麻麻的爬虫占据了,也不说什么用户体验了。因此几乎所有的网站都设了反爬虫机制,否则没有运行的必要了,但是...
01
2019-09
代理IP服务器是什么,有什么用?
代理IP服务器是在计算机上运行的专用计算机或软件系统,其充当端点设备(例如计算机)与用户或客户端从其请求服务的另一服务器之间的中介。IP代理服务器可以与防火墙服务器存在于同一
热门文章