🚀🚀🚀feapder is an easy to use, powerful crawler framework | feapder是一款上手简单,功能强大的Python爬虫框架。内置AirSpider、Spider、TaskSpider、BatchSpider四种爬虫解决不同场景的需求。且支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能。更有功能强大的爬虫管理系统feaplat为其提供方便的部署及调度

track1年前 ⋅ 2415 阅读

https://github.com/Boris-code/feapder

  1. feapder是一款上手简单,功能强大的Python爬虫框架,内置AirSpider、Spider、TaskSpider、BatchSpider四种爬虫解决不同场景的需求。
  2. 支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能。
  3. 更有功能强大的爬虫管理系统feaplat为其提供方便的部署及调度。

https://feapder.com/#/feapder_platform/feaplat         爬虫管理页面

import feapder


class FirstSpider(feapder.AirSpider):
    def start_requests(self):
        yield feapder.Request("https://www.baidu.com")

    def parse(self, request, response):
        print(response)


if __name__ == "__main__":
    FirstSpider().start()


支持分布式多机器爬取数据吗?

@free2012   https://feapder.com/#/usage/Spider

文档很全面,赞一个

爬虫最难的是处理反爬策略,很多工具爬取普通站点可以,但是一旦遇到反爬就傻眼了

@卡洛儿  是的,没有看到很好的总结对付反爬的策略的开源项目

很不错的项目,点赞

有哪些使用场景?

1. 数据采集:feapder可以用来爬取各种数据,包括但不限于网页、图片、视频、音频、文本、json、xml等等,适用于从互联网中获取数据的所有场景。

2. 数据挖掘:通过数据抓取和分析,可以帮助用户发现互联网中存在的有用信息,从而解决各类问题。

3. 监控、更新:爬取并监控网页变化,及时进行更新和记录,适用于各种网站和APP的监控和更新。

4. 竞品监测:通过爬取竞品信息,了解行业动态和市场需求,为公司决策提供参考。

5. 自动化测试:利用feapder可以轻松地进行网站性能、稳定性、兼容性、安全性等方面的测试。

有哪些类似的项目?

类似的Python爬虫框架包括:

1. Scrapy:一个流行的Python爬虫框架,提供了强大的分布式爬虫功能和数据处理能力。

2. Beautiful Soup:一个Python的HTML/XML解析库,可以方便地从HTML文档中提取数据。

3. Requests-HTML:一个基于Requests的Python库,提供了对HTML文档的方便访问和处理功能。

4. PySpider:一个分布式Web爬虫框架,基于Python 3.x开发,提供了强大的爬虫调度和数据处理能力。

5. Scrapy-Redis:基于Scrapy的分布式爬虫框架,使用Redis作为任务队列和数据存储,支持海量数据抓取。

6. Grab:一个功能齐全的Python爬虫框架,支持多线程、代理、认证、强大的过滤器等功能。

7. PyQuery:一个类似于jQuery的Python库,提供了方便的HTML/XML处理和数据提取功能。

有哪些优缺点?

优点:
1. 简单易用:提供了多种类型的爬虫,可根据实际需求选择使用。
2. 功能强大:支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能,满足了大多数爬虫需求。
3. 充分利用多线程:支持多线程,可以快速地爬取大量数据。
4. 爬虫管理系统:提供了方便的部署和调度,可快速建立爬虫系统。

缺点:
1. 由于其简单易用的特性,可能缺乏一些高级功能的支持,不适合依赖于高质量的数据来进行分析和建模的场景。
2. 可能存在不稳定性问题,需要不断地更新代码来维护爬虫框架的稳定性。

全部评论: 0

    相关推荐