谁有python爬虫代码了给我分享一下谢谢

点击联系发帖人 时间：2022-05-21 17:41

python爬虫源代码最全

重庆是一个很不错的城市，很有特点也很有个性，感觉在重庆生活幸福感会很高哇，有点向往有木有~

重庆离成都很近，所以大家经常把重庆和成都一起比较，之前就梳理过成都的互联网环境。应大家的要求，今天再用一篇文章来梳理一下重庆的互联网环境，也欢迎大家来分享补充。

搜集重庆的程序员的工作机会还挺难的，信息比较少。不过在大家的一再催促下，我还是开始搜集了。

在介绍重庆的工作机会时，我们也会相应地介绍这家公司的薪资水平，因为社招薪资偏差太大，不具备代表性，所以着重介绍这些公司今年的校招薪资报价。大家可以根据校招薪资评估一下重庆整体的薪资水平。

了解到阿里在重庆的部门主要是蚂蚁消金，目前还没发现重庆阿里技术岗位有成规模的校招，不过蚂蚁消金的社招量还挺大的。薪资水平也很高，基本和一线城市对齐。面试难度较大，另外听说爱卡学历，进去以后内卷程度算适中吧。对于有一些技术积累的想回重庆的程序员这里是个好去处。下面时阿里在重庆社招的岗位，可以看下。

小米也是重庆程序员的最好的几大选择之一。小米在重庆主要两个业务，一个是消费金融，一个就是做芯片。在校招薪水上看到 22 届的薪资爆料大部分是 18k x 15，也有少量 sp 的薪资是 20k x 15。这薪资水平在重庆还是很香的。

字节跳动在重庆招开发的部门是懂车帝。近年来开发岗位的社招还是挺多的，21 年陆续开始有些校招的名额。我看到有个21届 C9 的硕士拿到了懂车帝校招 26k x 15 的 offer。这薪资在重庆是真爽啊。重庆懂车帝这边的业务不太稳定，据说强度还是挺大的。大家还是要和在薪资和工作强度之间做好取舍。

近几年做芯片相关的公司越来越多，芯片相关的岗位招的人越来越多，并且给出的薪资也越来越高，薪资水平已经有超过互联公司的势头。紫光展锐除了数字 IC 相关的岗位，软件开发岗位招人也挺多的。22届校招薪资是 15-19k x 12，然后根据你的表现再给 0-3 个月薪资的年终奖，具体多少看你表现了，拿3个月应该不容易，大部分估计 1-2 个月。

体面厂今年在重庆是第一年校招，招的人挺多的，22届校招软件开发岗大部分人的薪资都是 15k x 15，今年统一开奖，只给一天时间考虑。由于海康威视在重庆刚大规模招人不久，所以重庆这边的风格还不太清楚，虽然海康槽点很多，但在重庆来说，仍然是一个很不错的工作机会了。最起码技术是值得学习的。

发现重庆的汽车行业发展的不错呀，发现了好几家造汽车的公司招程序的。长安汽车的软件中心在重庆招人的量很大，也算是重庆程序员的一个还不错的去处。应届毕业生校招月薪大概在 12-18k 之间，有两三年工作经验的月薪基本都在 20k 以上，每年 1-3 个月的年终奖。长安的加班比其它公司相对好点，加班看部门，有到点就下班的部门，也有强度大的。

比亚迪我看今年校招的薪资基本都是 10k，然后额外有 33% 的浮动绩效。社招薪资水平总体比长安也差点。另外好像是有宿舍，没宿舍的话有房补，但是这块不太确定。

吉利最近在重庆大量招人，感觉也还可以。校招薪资水平和比亚迪差不多。目前工作制度差不多是 995，项目挺多挺急的。除了长安、比亚迪、吉利这三个外重庆造车行业招程序员的还有很多，就不展开说了，这三个算是头部的了。

重庆的腾讯云智是腾讯的子公司，薪酬体系和职级体系和腾讯不一样。薪酬水平比腾讯低一些，2022 届毕业生校招价是 12-14k x 16，可以参考一下。整体上比小公司好，但和腾讯阿里等肯定没法比。

留重庆的话中兴也算一个还可以的去处，如果能拿到蓝剑计划的offer的话在重庆还是不错的，年薪四十万起。常规招聘计划的 offer 月薪15 - 18k，每年额外有 1-3 个月的年终奖，在重庆来说薪资也不错了。不好的地方就是据说996是常态。

猪八戒网是重庆的本土企业，在重庆很多年了，算是重庆本土企业里面做的比较大比较好的。刚才介绍的几个公司和岗位基本上是近几年才有的，猪八戒网之前就听说过了。猪八戒和58有点类似，都是销售驱动。具体校招薪资没打听到，有一两年经验的开发大概年薪就是十几万，不会超过 20 万。近两年公司的利润还可以，不过团队貌似不太稳定。

稳定是稳定，就是薪资不高，据说今年校招应届月薪 8-9k，2-5 个月年终奖，大部分人都是 2-3个月吧。6个月试用期，试用期间工资八折。一年有两次的晋升机会，看个人能力，对于大部分人来说两年能晋升一次就算还可以了。福利方面还行，三餐免费，也有公租房。住房公积金 12%。总体来说倒是还行吧。

传音是做智能终端的，这两年势头还不错。在重庆来说也算中上游的工作机会。今年校招大部分人的薪资是 14k x 14，sp 是 17k。工作时间差不多是 985 的样子，项目忙的话周末得加班。

在重庆生活的幸福感是很高的，这也是许多人特别想留在重庆的原因。下面咱们还是分房价、教育、交通、美食等介绍一下。

就像我在介绍南京时说的，大家在一座城市的幸福感，很大程度上取决于你的工资和这座城市房价的比值。大家喜欢去重庆和成都定居，跟重庆和成都相对友好的房价关系很大。重庆在同类型城市中，房价应该算低的了吧。可以参考下从网上找到的这张房价走势图，可能不是太准，但是也能基本反映出重庆房价的水平。

如果你是一个程序员，一年挣个十七八万，夫妻两人一年挣个小三十万。在重庆买房如果不追求太大的户型，太好的地段。在重庆买房压力还真不大。

对于下一代来说，重庆的教育资源是很不错的，毕竟是直辖市。另外重庆的高考竞争压力比四川是小很多的，在全国来说也算不上卷的。

高校方面重庆有一所 985-重庆大学，一所211-西南大学，另外重庆邮电大学的计算机也不错。

重庆的美食是真多啊，重庆的辣是香辣，看起来就让人很有食欲。近两年重庆的美食已经走向全国了，相信大家也都毕竟了解了，我就不多介绍了。放张重庆火锅的图，勾下大家馋虫。

重庆是一座山城，其陡峭的地势既造就了重庆的轻轨一绝，据说也造就了重庆的拥堵，在重庆工作的小伙伴可以分享一下哇。

重庆的风景不用多说，来放一张图感受下魔幻的重庆。重庆城，红岩魂，丰都将边过鬼门。嘞是雾都~

好了，重庆就介绍到这里，也希望今后重庆的互联网环境越来越好。所有的程序员在重庆都能 wlb。

今天的分享就到这里吧，我们下篇见。

这是我开发的机器人公众号小号，目前增加了天气查询，955公司名单，关注时间查询；后面还会增加图片功能和每日送书抽奖送书活动，以及调戏功能，欢迎来体验，捧场。

全新机器人公众号上线啦，欢迎调戏！

入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python |实战项目 | 学Python就是这条捷径

干货:爬取豆瓣短评，电影《后来的我们》 | 38年NBA最佳球员分析 |从万众期待到口碑扑街！唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王｜用Python做个海量小姐姐素描图｜碟中谍这么火，我用机器学习做个迷你推荐系统电影

趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!

AI:会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火，我用机器学习做个迷你推荐系统电影

小工具: Pdf转Word，轻松搞定表格和水印！ | 一键把html网页保存为pdf！ |再见PDF提取收费！ | 用90行代码打造最强PDF转换器，word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器！｜60行代码做了一个语音壁纸切换器天天看小姐姐！｜

2).学Python真香！我用100行代码做了个网站，帮人PS旅行图片，赚个鸡腿吃
3).首播过亿，火爆全网，我分析了《乘风破浪的姐姐》，发现了这些秘密
5).你必须掌握的20个python代码，短小精悍，用处无穷
7). 我总结的80页《菜鸟学Python精选干货.pdf》,都是干货
9).发现一个舔狗福利！这个Python爬虫神器太爽了，自动下载妹子图片

}

初到大数据学习圈子的同学可能对爬虫都有所耳闻，会觉得是一个高大上的东西，仿佛九阳神功和乾坤大挪移一样，和别人说“老子会爬虫”，就感觉特别有逼格，但是又不知从何入手，这里，博主给大家纠正一个误区：爬虫并不神秘，也不高级，是一个非常好上手和掌握的东西（当然，里面也有很多坑，也有很多细节，展开说的话其实也蛮复杂的，不过它的模式和套路就摆在那里，看了小编的博客，保证你能爬下你想要的内容）。

一般情况下，爬虫分为两种，一种是静态爬虫，一种是动态爬虫，所谓静态爬虫，就是大部分信息（至少你所需要的那些信息）是写在html代码中的，而动态爬虫一般都是写在一个json文档中，这么说可能不太标准，不过初学者这样理解即可，这篇博客将会带大家领略静态爬虫，下一篇将会讲解动态爬虫。

补充一句，博主曾是忠实的Python2用户，不过现在也改到Python3了，曾经新的库会在Python2中首先兼容，然后要过好久才在Python3中集成，现在完全不用担心，Python2有了，Python3不日就会集成，Python3也会在编码方面提供更多遍历，推荐新手直接从Python3入手，当然，二者没有什么太大区别，遇到问题问问度娘就可以了了，废话不多说，我们开始爬虫的第一课！

本篇博文将从以下几个方面进行讲解
- 怎么从Html代码中定位到我要的东西？

所谓的html代码，浏览博客的你右手一定在鼠标上，好的，跟着我左手右手一个慢动作，点击右键，找到“查看网页源代码”，不同浏览器可能这个描述不太一样，博主是Chrome，不过都差不太多，是不是有看到类似下面这个图的一堆不知道是什么鬼的代码？

其实，你可以按键盘上的F12或者右键选择“检查元素”（不同浏览器不同），这时，浏览器的右侧（如果你是360浏览器，可能是在下方）弹出一个东东，类似下面红色框中的区域

这个东西就是刚才我们看的那个不知道是什么鬼的东西的树状结构，看上去会整齐一些。这就是html代码，html代码其实就是用许多个"<Y yy='aaa'>xxxx</Y>"是的结构将想要输出在页面上的内容包含起来的一种语言。下一个小节将详细介绍这个结构，总而言之，我们肉眼所看到的东西大部分都来自于html代码，html代码的作用简单来说就是程序员用一堆html代码，将需要展示的信息放在指定的位置上的一种东西，有了html代码，才有了你眼前页面上的很多元素；当然，还有其他方式来将元素展示在页面上，如css、js等渲染方式，这些我们下一篇会介绍。

知道我们所需要的信息位于html中，那么只需要找到我们需要的具体内容在哪里，然后下载下来，就大功告成了，逻辑就是这么个逻辑，所以静态爬虫的关键问题是要准确的解析html代码，一般使用BeautifulSoup这个库或者正则表达式。

怎么从Html代码中定位到我要的东西

上一节中提到，html代码中都是"<Y yy='aaa'>xxxx</Y>"结构，一对”<>”我们称之为标签，这对标签中通常会有一些内容，可能是一个数字，一段字符串，一个网页链接，或者一个图片链接等等，总之，就是我们在网页上看到的内容。”Y”称之为标签名，”yy”为其属性名，”aaa”是其属性值，”xxxx”是这个标签的内容，也就是对应于页面上的信息。一般情况下我们要获取的就是”xxxx”，有时我们可能也需要获取标签的属性值”aaa”。标签可能是唯一的，也可能是有重复的，回看刚才那张树状的标签结构，有一种分明的层次感，同一层的标签我们称他们互为兄弟标签，而一个标签和包含他的标签互为父子标签，如果a包含b，b包含c，d，则c是a的后代标签，是b的子标签，是d的兄弟标签，这个名字无所谓的，了解一下就好，一般标签名可能会重复，但标签属性名（yy）和属性值“aaa”很少重复，不过兄弟标签之间可能会出现标签名、属性名、属性值完全相同的情况，后面会介绍（就是find方法和findAll方法的区别）。

好，上实例，打开一个网址把：，是爱卡汽车中比亚迪F3的口碑页面，鼠标右键选择“检查元素”或者之间按键盘上的F12，选择那个鼠标的按钮（红色框1），然后将鼠标放到评论框附近（红色框2），如下图所示，看到检查元素界面中有一段代码背景色变成了深色（如红色框3）

每个页面有10条口碑，可见这10条口碑均存储在属性名为’class’,属性值为’review_comments_dl’的’div’标签中，当然，这个标签不是一个“叶节点”，也就是说这个标签内部还有其他标签，我们进一步看看。看下面的图片。

我们可以看到红框3中有很多相同的标签<dl>...</dl>,他们都是属性名为’class’,属性值为’review_comments_dl’的’div’标签的子标签，他们之间互为兄弟标签，我们把鼠标放在红框3的位置并选中，这时左侧网页的第一条口碑的位置就会变成深色背景，也就是说，红框3这个标签实际上对应着红框2这个区域中的内容，那么我们把红框3再具体的看一看。如下图所示。

可以看到，第一条口碑（红框中的内容）在第一个’dl’标签中（红色下划线2），同理可以看到第二条口碑在第二个’dl’标签中。再来看看这个’dl’标签，他有两个子标签，’dt’和’dd’子标签，口碑数据位于dd子标签下；好的，再来看’dd’标签，将’dd’标签展开，如下图所示。

红框3是该车的第一页的第一条口碑，位于dd标签中，及图中蓝色下划线<dd>...</dd> 中的内容，图中从开头的dd指向红框3，标注了“同级”，意思是红框3的内容是dd标签的内容，而dd标签下还有子标签，比如属性为class，属性值为useful的div标签，里面的内容1034是有多少人觉得这个口碑有用；还有一个子标签p，p标签的内容是口碑的作者；p中有一个子标签a，a标签的内容是评论来源，如图中的“比亚迪F3论坛”。

好了，现在想必读者已经对通过标签定位信息有所了解了，我们再来练习一下，我们将口碑页切换到第2页，可以看到地址变成了，多了一个’0_2’。将’0_2’改成’0_1’就跳回了第一页（实际上第一页的真实url是），而改成’0_3’就到了第三页。那么我们应该怎么获取该车型的口碑一共有几页呢？看下面的图。

依然是在开发者工具视角（及按F12弹出的窗口这个视角），将鼠标放在尾页（这里是122）或者‘下一页’上，右侧的框中会出现如图所示的画面，可以看到尾页122所在的位于属性为class，属性值为’pagers’的div标签的倒数第二个子标签中，如红框1所示；而’下一页’则位于属性为class，属性值为’pagers’的div标签的最后一个子标签中，如红框2所示。在仔细贯彻一下会发现属性为class，属性值为’pagers’的div标签与我们之前寻找口碑的标签dl是兄弟标签，位于全部的dl标签的再后面一个，也就是说，该标签的父标签与dl标签相同，即属性名为’class’,属性值为’review_comments_dl’的’div’标签。

为什么要确定尾页呢？因为构造代码时，我们要知道代码的起止位置，使用for循环良好的控制代码的开始与完结。

这个爬虫的逻辑是这样的：找到目标的车型，即其url，实际上，不同车型的url只有id不同，比如比亚迪F3的url是，其车子id是257，当id更改为258时，车型就变成了比亚迪F0；然后查看html代码，明确要爬取的内容的所在位置，明确换页规律，明确爬虫的起止位置（获取尾页信息的html位置），然后构造代码。

Python一个第三方库bs4中有一个BeautifulSoup库，是用于解析html代码的，换句话说就是可以帮助你更方便的通过标签定位你需要的信息。这里只介绍两个比较关键的方法：

首先，BeautifulSoup会先将整个html或者你所指定的html代码编程一个BeautifulSoup对象的实例（不懂对象和实例不要紧，你只要把它当作是一套你使用F12看到的树形html代码代码就好），这个实例可以使用很多方法，最常用的就是find和findAll，二者的功能是相同的，通过find( )的参数，即find( )括号中指定的标签名，属性名，属性值去搜索对应的标签，并获取它，不过find只获取搜索到的第一个标签，而findAll将会获取搜索到的所有符合条件的标签，放入一个迭代器（实际上是将所有符合条件的标签放入一个list），findAll常用于兄弟标签的定位，如刚才定位口碑信息，口碑都在dl标签下，而同一页的10条口碑对应于10个dl标签，这时候用find方法只能获取第一个，而findAll会获取全部的10个标签，存入一个列表，想要获取每个标签的内容，只需对这个列表使用一个for循环遍历一遍即可。

yy='aaa'>xxxx</Y>"，十分冗长，实际我们想要的仅仅是这个标签的内容xxxx，因此，对使用find方法后的对象再使用get_text( )方法，就可以得到标签的内容了，对应到这里，我们通过get_text( )方法就可以得到xxxx了。

好了，铺垫做的差不多了，上代码咯~~~

# 认为该条评价有用的人数

补充说明一下：try——except这个结构（看起来有点像if——else的结构）是一个非常重要的过程，为了使爬虫代码可以良好的运行，不至于刚开始爬几分钟就报错这种恶心人的情况，需要很好的利用try——except过程。程序会先执行try下的语句，如果发生失败，就会执行except下的语句，你也可以使用多个try——except嵌套的结构完成复杂的情况的覆盖，最好要保证你的try——except过程包含了程序会遇到的所有情况，那么你的代码就是趋于完美的。

讲到这里，第一节爬虫课程也就到这里了，不久之后会介绍动态爬虫，如果之后还有时间，还会介绍一下selenium这个模拟浏览的库，以及爬虫框架还有反爬虫的知识，给自己打个广告，除了爬虫可，近期也会分享一些关于word2vec和fastText文本分类算法的内容，读者有什么其他想交流的可以留言~我也是个正在学习路上的仔，希望能和各路朋友以及大牛交流。

}

我就爱股票网