• 地址 https://pypi.org/project/lrabbit-scrapy/#description
  • 很小的一个开源爬虫库,目的是减少的一些重复的代码开发,只需要专注的抓取的逻辑实现。
  • 主要的功能就是实现了快速构建项目,数据结构的快速存储,任务中断后的如何避免重复抓取的问题。
  • 这个框架核心就几百行代码,上班摸鱼的时候一个下午写的,
    写完用了工作中自己用了一段时间,发现还不错,就开源上线啦,之后会慢慢补充新的功能。代码采用的都是python标准库中的asyncio库实现的异步并发,任务队列存储。所以抓取速度还是很快的,cpu消耗也较低,基本上的一台服务器就能完成大部分的网站的抓取,如果你想分布式抓取,那这个框架可能不太支持。
  • 配合crawlab使用更香哦!使用python 标准库中的zipfile打包zip文件上传,就能实现爬虫的管理啦
最后修改:2021 年 12 月 11 日
如果觉得我的文章对你有用,请随意赞赏