这个问题是在爬取数据放进csv文件出现的。因为以前都是用pymysql库存进数据库的,但是某些情况下不存到数据库就存到了excel中。


报错显得很诡异,为RuntimeError: dictionary changed size during iteration 但是我运行了好几次,每次出错的地方都不一样,而且通常运行到最后就剩一个线程正常工作了。所以我在excel保存的地方写了个线程锁,解决了这个问题

建议多线程爬虫还是不要存excel了。如果数据量很大(达到100000+),后期保存的效率会很低,本人测试开了100个线程,最后的效率和开10个线程差不多,但是开始的时候很快。这个还有待研究

Categories:

Tags:

No responses yet

发表评论

邮箱地址不会被公开。 必填项已用*标注