谁有python爬虫代码了给我分享一下谢谢

重庆是一个很不错的城市,很有特点也很有个性, 感觉在重庆生活幸福感会很高哇,有点向往有木有~

重庆离成都很近,所以大家经常把重庆和成都一起比较,之前就梳理过成都的互联网环境。应大家的要求,今天再用一篇文章来梳理一下重庆的互联网环境,也欢迎大家来分享补充。

搜集重庆的程序员的工作机会还挺难的,信息比较少。不过在大家的一再催促下,我还是开始搜集了。

在介绍重庆的工作机会时,我们也会相应地介绍这家公司的薪资水平,因为社招薪资偏差太大,不具备代表性,所以着重介绍这些公司今年的校招薪资报价。大家可以根据校招薪资评估一下重庆整体的薪资水平。

了解到阿里在重庆的部门主要是蚂蚁消金,目前还没发现重庆阿里技术岗位有成规模的校招,不过蚂蚁消金的社招量还挺大的。薪资水平也很高,基本和一线城市对齐。面试难度较大,另外听说爱卡学历,进去以后内卷程度算适中吧。对于有一些技术积累的想回重庆的程序员这里是个好去处。下面时阿里在重庆社招的岗位,可以看下。

小米也是重庆程序员的最好的几大选择之一。小米在重庆主要两个业务,一个是消费金融,一个就是做芯片。在校招薪水上看到 22 届的薪资爆料大部分是 18k x 15,也有少量 sp 的薪资是 20k x 15。这薪资水平在重庆还是很香的。

字节跳动在重庆招开发的部门是懂车帝。近年来开发岗位的社招还是挺多的,21 年陆续开始有些校招的名额。我看到有个21届 C9 的硕士拿到了懂车帝校招 26k x 15 的 offer。这薪资在重庆是真爽啊。重庆懂车帝这边的业务不太稳定,据说强度还是挺大的。大家还是要和在薪资和工作强度之间做好取舍。

近几年做芯片相关的公司越来越多,芯片相关的岗位招的人越来越多,并且给出的薪资也越来越高,薪资水平已经有超过互联公司的势头。紫光展锐除了数字 IC 相关的岗位,软件开发岗位招人也挺多的。22届校招薪资是 15-19k x 12,然后根据你的表现再给 0-3 个月薪资的年终奖,具体多少看你表现了,拿3个月应该不容易,大部分估计 1-2 个月。

体面厂今年在重庆是第一年校招,招的人挺多的,22届校招软件开发岗大部分人的薪资都是 15k x 15,今年统一开奖,只给一天时间考虑。由于海康威视在重庆刚大规模招人不久,所以重庆这边的风格还不太清楚,虽然海康槽点很多,但在重庆来说,仍然是一个很不错的工作机会了。最起码技术是值得学习的。

发现重庆的汽车行业发展的不错呀,发现了好几家造汽车的公司招程序的。长安汽车的软件中心在重庆招人的量很大,也算是重庆程序员的一个还不错的去处。应届毕业生校招月薪大概在 12-18k 之间,有两三年工作经验的月薪基本都在 20k 以上,每年 1-3 个月的年终奖。长安的加班比其它公司相对好点,加班看部门,有到点就下班的部门,也有强度大的。

比亚迪我看今年校招的薪资基本都是 10k,然后额外有 33% 的浮动绩效。社招薪资水平总体比长安也差点。另外好像是有宿舍,没宿舍的话有房补,但是这块不太确定。

吉利最近在重庆大量招人,感觉也还可以。校招薪资水平和比亚迪差不多。目前工作制度差不多是 995,项目挺多挺急的。除了长安、比亚迪、吉利这三个外重庆造车行业招程序员的还有很多,就不展开说了,这三个算是头部的了。

重庆的腾讯云智是腾讯的子公司,薪酬体系和职级体系和腾讯不一样。薪酬水平比腾讯低一些,2022 届毕业生校招价是 12-14k x 16,可以参考一下。整体上比小公司好,但和腾讯阿里等肯定没法比。

留重庆的话中兴也算一个还可以的去处,如果能拿到蓝剑计划的offer的话在重庆还是不错的,年薪四十万起。常规招聘计划的 offer 月薪15 - 18k, 每年额外有 1-3 个月的年终奖,在重庆来说薪资也不错了。不好的地方就是据说996是常态。

猪八戒网是重庆的本土企业,在重庆很多年了,算是重庆本土企业里面做的比较大比较好的。刚才介绍的几个公司和岗位基本上是近几年才有的,猪八戒网之前就听说过了。猪八戒和58有点类似,都是销售驱动。具体校招薪资没打听到,有一两年经验的开发大概年薪就是十几万,不会超过 20 万。近两年公司的利润还可以,不过团队貌似不太稳定。

稳定是稳定,就是薪资不高,据说今年校招应届月薪 8-9k,2-5 个月年终奖,大部分人都是 2-3个月吧。6个月试用期,试用期间工资八折。一年有两次的晋升机会,看个人能力,对于大部分人来说两年能晋升一次就算还可以了。福利方面还行,三餐免费,也有公租房。住房公积金 12%。总体来说倒是还行吧。

传音是做智能终端的,这两年势头还不错。在重庆来说也算中上游的工作机会。今年校招大部分人的薪资是 14k x 14,sp 是 17k。工作时间差不多是 985 的样子,项目忙的话周末得加班。

在重庆生活的幸福感是很高的,这也是许多人特别想留在重庆的原因。下面咱们还是分房价、教育、交通、美食等介绍一下。

就像我在介绍南京时说的,大家在一座城市的幸福感,很大程度上取决于你的工资和这座城市房价的比值。大家喜欢去重庆和成都定居,跟重庆和成都相对友好的房价关系很大。重庆在同类型城市中,房价应该算低的了吧。可以参考下从网上找到的这张房价走势图,可能不是太准,但是也能基本反映出重庆房价的水平。

如果你是一个程序员,一年挣个十七八万,夫妻两人一年挣个小三十万。在重庆买房如果不追求太大的户型,太好的地段。在重庆买房压力还真不大。

对于下一代来说,重庆的教育资源是很不错的,毕竟是直辖市。另外重庆的高考竞争压力比四川是小很多的,在全国来说也算不上卷的。

高校方面重庆有一所 985-重庆大学,一所211-西南大学,另外重庆邮电大学的计算机也不错。

重庆的美食是真多啊,重庆的辣是香辣,看起来就让人很有食欲。近两年重庆的美食已经走向全国了,相信大家也都毕竟了解了,我就不多介绍了。放张重庆火锅的图,勾下大家馋虫。

重庆是一座山城,其陡峭的地势既造就了重庆的轻轨一绝,据说也造就了重庆的拥堵,在重庆工作的小伙伴可以分享一下哇。

重庆的风景不用多说,来放一张图感受下魔幻的重庆。重庆城,红岩魂,丰都将边过鬼门。嘞是雾都~

好了,重庆就介绍到这里,也希望今后重庆的互联网环境越来越好。所有的程序员在重庆都能 wlb。

今天的分享就到这里吧,我们下篇见。

这是我开发的机器人公众号小号,目前增加了天气查询,955公司名单,关注时间查询;后面还会增加图片功能和每日送书抽奖送书活动,以及调戏功能,欢迎来体验,捧场。

全新机器人公众号上线啦,欢迎调戏!

入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python |实战项目 | 学Python就是这条捷径

干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 | 用Python做个海量小姐姐素描图 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影

趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!

AI:会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影

小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf! |再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! 60行代码做了一个语音壁纸切换器天天看小姐姐!

  • 2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿吃
  • 3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密
  • 5).你必须掌握的20个python代码,短小精悍,用处无穷
  • 7). 我总结的80页《菜鸟学Python精选干货.pdf》,都是干货
  • 9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片
}

初到大数据学习圈子的同学可能对爬虫都有所耳闻,会觉得是一个高大上的东西,仿佛九阳神功和乾坤大挪移一样,和别人说“老子会爬虫”,就感觉特别有逼格,但是又不知从何入手,这里,博主给大家纠正一个误区:爬虫并不神秘,也不高级,是一个非常好上手和掌握的东西(当然,里面也有很多坑,也有很多细节,展开说的话其实也蛮复杂的,不过它的模式和套路就摆在那里,看了小编的博客,保证你能爬下你想要的内容)。

一般情况下,爬虫分为两种,一种是静态爬虫,一种是动态爬虫,所谓静态爬虫,就是大部分信息(至少你所需要的那些信息)是写在html代码中的,而动态爬虫一般都是写在一个json文档中,这么说可能不太标准,不过初学者这样理解即可,这篇博客将会带大家领略静态爬虫,下一篇将会讲解动态爬虫。

补充一句,博主曾是忠实的Python2用户,不过现在也改到Python3了,曾经新的库会在Python2中首先兼容,然后要过好久才在Python3中集成,现在完全不用担心,Python2有了,Python3不日就会集成,Python3也会在编码方面提供更多遍历,推荐新手直接从Python3入手,当然,二者没有什么太大区别,遇到问题问问度娘就可以了了,废话不多说,我们开始爬虫的第一课!

本篇博文将从以下几个方面进行讲解
- 怎么从Html代码中定位到我要的东西?


所谓的html代码,浏览博客的你右手一定在鼠标上,好的,跟着我左手右手一个慢动作,点击右键,找到“查看网页源代码”,不同浏览器可能这个描述不太一样,博主是Chrome,不过都差不太多,是不是有看到类似下面这个图的一堆不知道是什么鬼的代码?

其实,你可以按键盘上的F12或者右键选择“检查元素”(不同浏览器不同),这时,浏览器的右侧(如果你是360浏览器,可能是在下方)弹出一个东东,类似下面红色框中的区域

这个东西就是刚才我们看的那个不知道是什么鬼的东西的树状结构,看上去会整齐一些。这就是html代码,html代码其实就是用许多个"<Y yy='aaa'>xxxx</Y>"是的结构将想要输出在页面上的内容包含起来的一种语言。下一个小节将详细介绍这个结构,总而言之,我们肉眼所看到的东西大部分都来自于html代码,html代码的作用简单来说就是程序员用一堆html代码,将需要展示的信息放在指定的位置上的一种东西,有了html代码,才有了你眼前页面上的很多元素;当然,还有其他方式来将元素展示在页面上,如css、js等渲染方式,这些我们下一篇会介绍。

知道我们所需要的信息位于html中,那么只需要找到我们需要的具体内容在哪里,然后下载下来,就大功告成了,逻辑就是这么个逻辑,所以静态爬虫的关键问题是要准确的解析html代码,一般使用BeautifulSoup这个库或者正则表达式。

怎么从Html代码中定位到我要的东西

上一节中提到,html代码中都是"<Y yy='aaa'>xxxx</Y>"结构,一对”<>”我们称之为标签,这对标签中通常会有一些内容,可能是一个数字,一段字符串,一个网页链接,或者一个图片链接等等,总之,就是我们在网页上看到的内容。”Y”称之为标签名,”yy”为其属性名,”aaa”是其属性值,”xxxx”是这个标签的内容,也就是对应于页面上的信息。一般情况下我们要获取的就是”xxxx”,有时我们可能也需要获取标签的属性值”aaa”。标签可能是唯一的,也可能是有重复的,回看刚才那张树状的标签结构,有一种分明的层次感,同一层的标签我们称他们互为兄弟标签,而一个标签和包含他的标签互为父子标签,如果a包含b,b包含c,d,则c是a的后代标签,是b的子标签,是d的兄弟标签,这个名字无所谓的,了解一下就好,一般标签名可能会重复,但标签属性名(yy)和属性值“aaa”很少重复,不过兄弟标签之间可能会出现标签名、属性名、属性值完全相同的情况,后面会介绍(就是find方法和findAll方法的区别)。

好,上实例,打开一个网址把:,是爱卡汽车中比亚迪F3的口碑页面,鼠标右键选择“检查元素”或者之间按键盘上的F12,选择那个鼠标的按钮(红色框1),然后将鼠标放到评论框附近(红色框2),如下图所示,看到检查元素界面中有一段代码背景色变成了深色(如红色框3)

每个页面有10条口碑,可见这10条口碑均存储在属性名为’class’,属性值为’review_comments_dl’的’div’标签中,当然,这个标签不是一个“叶节点”,也就是说这个标签内部还有其他标签,我们进一步看看。看下面的图片。

我们可以看到红框3中有很多相同的标签<dl>...</dl>,他们都是属性名为’class’,属性值为’review_comments_dl’的’div’标签的子标签,他们之间互为兄弟标签,我们把鼠标放在红框3的位置并选中,这时左侧网页的第一条口碑的位置就会变成深色背景,也就是说,红框3这个标签实际上对应着红框2这个区域中的内容,那么我们把红框3再具体的看一看。如下图所示。

可以看到,第一条口碑(红框中的内容)在第一个’dl’标签中(红色下划线2),同理可以看到第二条口碑在第二个’dl’标签中。再来看看这个’dl’标签,他有两个子标签,’dt’和’dd’子标签,口碑数据位于dd子标签下;好的,再来看’dd’标签,将’dd’标签展开,如下图所示。

红框3是该车的第一页的第一条口碑,位于dd标签中,及图中蓝色下划线<dd>...</dd> 中的内容,图中从开头的dd指向红框3,标注了“同级”,意思是红框3的内容是dd标签的内容,而dd标签下还有子标签,比如属性为class,属性值为useful的div标签,里面的内容1034是有多少人觉得这个口碑有用;还有一个子标签p,p标签的内容是口碑的作者;p中有一个子标签a,a标签的内容是评论来源,如图中的“比亚迪F3论坛”。

好了,现在想必读者已经对通过标签定位信息有所了解了,我们再来练习一下,我们将口碑页切换到第2页,可以看到地址变成了,多了一个’0_2’。将’0_2’改成’0_1’就跳回了第一页(实际上第一页的真实url是),而改成’0_3’就到了第三页。那么我们应该怎么获取该车型的口碑一共有几页呢?看下面的图。

依然是在开发者工具视角(及按F12弹出的窗口这个视角),将鼠标放在尾页(这里是122)或者‘下一页’上,右侧的框中会出现如图所示的画面,可以看到尾页122所在的位于属性为class,属性值为’pagers’的div标签的倒数第二个子标签中,如红框1所示;而’下一页’则位于属性为class,属性值为’pagers’的div标签的最后一个子标签中,如红框2所示。在仔细贯彻一下会发现属性为class,属性值为’pagers’的div标签与我们之前寻找口碑的标签dl是兄弟标签,位于全部的dl标签的再后面一个,也就是说,该标签的父标签与dl标签相同,即属性名为’class’,属性值为’review_comments_dl’的’div’标签。

为什么要确定尾页呢?因为构造代码时,我们要知道代码的起止位置,使用for循环良好的控制代码的开始与完结。

这个爬虫的逻辑是这样的:找到目标的车型,即其url,实际上,不同车型的url只有id不同,比如比亚迪F3的url是,其车子id是257,当id更改为258时,车型就变成了比亚迪F0;然后查看html代码,明确要爬取的内容的所在位置,明确换页规律,明确爬虫的起止位置(获取尾页信息的html位置),然后构造代码。

Python一个第三方库bs4中有一个BeautifulSoup库,是用于解析html代码的,换句话说就是可以帮助你更方便的通过标签定位你需要的信息。这里只介绍两个比较关键的方法:

首先,BeautifulSoup会先将整个html或者你所指定的html代码编程一个BeautifulSoup对象的实例(不懂对象和实例不要紧,你只要把它当作是一套你使用F12看到的树形html代码代码就好),这个实例可以使用很多方法,最常用的就是find和findAll,二者的功能是相同的,通过find( )的参数,即find( )括号中指定的标签名,属性名,属性值去搜索对应的标签,并获取它,不过find只获取搜索到的第一个标签,而findAll将会获取搜索到的所有符合条件的标签,放入一个迭代器(实际上是将所有符合条件的标签放入一个list),findAll常用于兄弟标签的定位,如刚才定位口碑信息,口碑都在dl标签下,而同一页的10条口碑对应于10个dl标签,这时候用find方法只能获取第一个,而findAll会获取全部的10个标签,存入一个列表,想要获取每个标签的内容,只需对这个列表使用一个for循环遍历一遍即可。

yy='aaa'>xxxx</Y>",十分冗长,实际我们想要的仅仅是这个标签的内容xxxx,因此,对使用find方法后的对象再使用get_text( )方法,就可以得到标签的内容了,对应到这里,我们通过get_text( )方法就可以得到xxxx了。

好了,铺垫做的差不多了,上代码咯~~~

# 认为该条评价有用的人数

补充说明一下:try——except这个结构(看起来有点像if——else的结构)是一个非常重要的过程,为了使爬虫代码可以良好的运行,不至于刚开始爬几分钟就报错这种恶心人的情况,需要很好的利用try——except过程。程序会先执行try下的语句,如果发生失败,就会执行except下的语句,你也可以使用多个try——except嵌套的结构完成复杂的情况的覆盖,最好要保证你的try——except过程包含了程序会遇到的所有情况,那么你的代码就是趋于完美的。

讲到这里,第一节爬虫课程也就到这里了,不久之后会介绍动态爬虫,如果之后还有时间,还会介绍一下selenium这个模拟浏览的库,以及爬虫框架还有反爬虫的知识,给自己打个广告,除了爬虫可,近期也会分享一些关于word2vec和fastText文本分类算法的内容,读者有什么其他想交流的可以留言~我也是个正在学习路上的仔,希望能和各路朋友以及大牛交流。

}

我要回帖

更多关于 python爬虫源代码最全 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信