结果会有如下显示,属于正常现象:
为了方便观察结果,可以加个列表存储:
将正则字符串编译成正则表达式对象
不过在实战之前,我再补充一条:()可以提取我们想要的文字 /note// 白先勇细说红楼梦【全二册】 白先勇
|
scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。关于框架使用的更多详情可浏览官方文档,本篇文章展示的是爬取漫画图片的大体实现过程。
首先是 scrapy 的安装,博主用的是Mac系统,直接运行命令行:
对于html节点信息的提取使用了 Beautiful Soup 库,大概的用法可见之前的一篇文章,直接通过命令安装:
安装完成后,直接在命令行运行命令:
可以看到如下输出结果,这时候证明scrapy安装完成了。
若当前为最后一页,则该部漫画遍历完成,否则继续通过相同方式处理下一页
大体的实现基本完成,运行起来,可以看到控制台打印情况
本地文件夹保存到的图片
scrapy框架运行的时候使用了多线程,能够看到多部漫画是同时进行爬取的。
目标网站资源服务器感觉比较慢,会经常出现请求超时的情况。跑的时候请耐心等待。
本文介绍的只是scrapy框架非常基本的用法,还有各种很细节的特性配置。
框架本身自带了个XPath类用来对网页信息进行提取,这个的效率要比BeautifulSoup高,也可以通过专门的item类将爬取的数据结果保存作为一个类返回。具体请查阅官网。
最后附上完整Demo源码
}文源网络,仅供学习之用,侵删。
在学习Python的道路上肯定会遇见困难,别慌,我这里有一套学习资料,包含40+本电子书,800+个教学视频,涉及Python基础、爬虫、框架、数据分析、机器学习等,不怕你学不会! 《Python学习资料》
关注公众号【Python圈子】,优质文章每日送达。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。