web爬虫的新思路

最近新开发了一个爬虫,就是把scrapy和apscheduler结合,效果也不错,然后可以继续和web平台相结合,这样通过web平台可视化下命令,通过apscheduler来调度,开启scrapy进行数据的爬取。

贴一些关键代码,这个是ap的调度部分代码:

image.png

移除任务也非常简单:

image.png

启动任务的时候,会路由到一个之前注册的一个函数中:

image.png

这样就非常好管理任务,只需要加一个装饰器就可以.看一下如何启动scrapy部分

image.png

通过创建一个进程的方式来启动进程,并且等待进程结束,当爬虫爬完一个周期后,就会顺利的往下走。

总结:

这个方案是不需要用crontab来调度的,也不需要通过控制台来控制,只需要在web界面去控制就可以,但是缺点是所有创建的进程都是web进程的子进程,另外对于部署flask的时候也需要额外的配置。

暂无评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注

备案号:浙ICP备15006402号-2 备注:博客君在0.046里共执行41个查询, 总共占用内存 5.17MB