首页 Scrapy爬虫系列4:爬取ai bot新闻
文章
取消

Scrapy爬虫系列4:爬取ai bot新闻

$x(‘//div[contains(@class, “news-list”)][1]’) 在控制台输入,外层用单引号

让ai先学习

我一会要基于scrapy写一个爬虫,请你先学习下要爬取网页的结构,我已经了解了一些:view-source_https___ai-bot.cn_daily-ai-news_.html 文件是要爬取的网页的源码

要爬取的内容都在 class=”news-list” 里面。 但class=”news-list” 里面又内嵌了 class=”news-list”

每个 class=”news-date” 都有一个class=”news-date”表示日期,还有多个class=”news-item”

class=”news-item” 里面的class=”news-content” 就是要提取的内容,里面的 h2标签里面有要提取的链接和标题,然后p标签里面有具体的内容,最后还有一个 span标签保存的是来源,这个span不需要提取。

你自己再学习下。看看这个html的详细结构。

最后成功爬取了数据

本文由作者按照 CC BY 4.0 进行授权