Scrapy爬虫系列2:爬取豆瓣书籍排行榜

xxx 发表于 2024-08-282024-08-28T05:00:00+08:00

1 分钟阅读

爬取网站 http://book.douban.com/

起始地址：https://book.douban.com/subject/25862578/

要将代码从使用MySQL数据库改为使用本地的SQLite数据库

• MySQL使用%s作为占位符，而SQLite使用?作为占位符。

self.dbpool = adbapi.ConnectionPool(‘sqlite3’, database=’doubanbooks.db’, check_same_thread=False)

使用选择器

  
sel = Selector(response)# use response.xpath
item['name']  = sel.xpath('//*[@id="wrapper"]/h1/span/text()').extract()
year = sel.xpath(u'//*[@id="info"]//span[@class="pl" and contains(./text(), "出版年:")]/following::text()[1]').extract()
item['year']  = year[0].strip()
item['score'] = sel.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()').extract()
item['vote']  = sel.xpath('//*[@id="interest_sectl"]/div/div[2]/div/div[2]/span/a/span/text()').re(r'\d+')

  
 rules = [
        Rule(LinkExtractor(allow=(r'https://book.douban.com/subject/\d+'), restrict_xpaths='//*[@id="db-rec-section"]/div'),
             callback="parse_item", follow=True),
    ]

欢迎评论交流

Scrapy爬虫系列2:爬取豆瓣书籍排行榜

相关文章

Scrapy爬虫系列1:安装

Scrapy爬虫系列3:爬取百度热搜榜单

热门标签