开源软件推荐系列13:爬虫

Scrapy（Python）
- 特点：异步高性能框架，支持数据管道（Pipeline）、中间件扩展，可导出JSON/CSV/XML等格式。
- 适用场景：大规模结构化数据抓取（如电商价格监控、新闻聚合）。
- 局限：需配合Selenium/Playwright处理动态JS页面。
Crawlee（Node.js/Python）
- 特点：内置反爬机制（代理轮换、浏览器指纹模拟），无缝切换HTTP与无头浏览器模式，适合复杂站点。
- 适用场景：需要对抗反爬的动态网页（如社交媒体、单页应用）。
Apache Nutch（Java）
- 特点：分布式架构，兼容Hadoop，严格遵循robots协议，适合搜索引擎级爬取。
- 适用场景：超大规模全网爬取（学术研究、企业级数据仓库）。

EasySpider（跨平台，支持Windows/Linux/macOS）
- 特点：拖拽式设计，支持登录认证、循环翻页、条件分支，数据可导出为CSV/JSON或存入数据库。
- 适用场景：快速采集商品信息、新闻内容等，无需编程基础。
Portia（基于Scrapy）
- 特点：通过点击网页元素定义抓取规则，自动生成爬虫，支持Ajax页面。
- 适用场景：静态页面+轻量动态页面的可视化采集。

BeautifulSoup + Requests（Python）
- 特点：HTML解析神器，搭配Requests处理HTTP请求，适合小规模快速抓取。
- 适用场景：静态页面数据提取（如博客文章、论坛内容）。
Selenium（多语言支持）
- 特点：模拟浏览器操作（点击、表单提交），完美处理JavaScript渲染。
- 适用场景：需交互的动态网页（如登录后爬取、瀑布流加载）。

Firecrawl
- 特点：专为AI优化，将网页转为LLM友好的Markdown/JSON，支持JS渲染和反爬绕过。
- 适用场景：RAG系统、知识库构建（如学术论文、竞品分析）。
ScrapeGraphAI（Python）
- 特点：用LLM理解页面结构，自动适配网站改版，减少维护成本。
- 适用场景：结构易变的网站（如频繁更新的新闻门户）。