取消

Scrapy爬虫系列4:爬取ai bot新闻

xxx 发表于 2024-09-042024-09-04T05:10:00+08:00

1 分钟阅读

$x(‘//div[contains(@class, “news-list”)][1]’) 在控制台输入，外层用单引号

让ai先学习

我一会要基于scrapy写一个爬虫，请你先学习下要爬取网页的结构，我已经了解了一些：view-source_https___ai-bot.cn_daily-ai-news_.html 文件是要爬取的网页的源码

要爬取的内容都在 class=”news-list” 里面。但class=”news-list” 里面又内嵌了 class=”news-list”

每个 class=”news-date” 都有一个class=”news-date”表示日期，还有多个class=”news-item”

class=”news-item” 里面的class=”news-content” 就是要提取的内容，里面的 h2标签里面有要提取的链接和标题，然后p标签里面有具体的内容，最后还有一个 span标签保存的是来源，这个span不需要提取。

你自己再学习下。看看这个html的详细结构。

最后成功爬取了数据

本文由作者按照 CC BY 4.0 进行授权