做linux系统运维工程师师有前途吗

用户名:justiceplus
文章数:54
评论数:612
访问量:615938
注册日期:
阅读量:1297
阅读量:3317
阅读量:426525
阅读量:1114820
51CTO推荐博文
:本文写于1号,本来只是随笔的文字,没有想到有这么多朋友的关注和认可。有朋友留言说有必要加一点体会性的文字,我觉得这个建议真的很好。有更多建议或是交流,请加关注我的新浪微博-------------------------------------------昏锅线----------------------------------------------杭州的2012显得很阴冷。1号2号是我oncall,所以大门不出、二门不迈。一边的笔记本几乎是24小时开机,今天还算清净,处理了一个工单后一直没人打扰。昨天在微博上疯了个消息,大意是说时间过的太快,转眼又是一年的最后一天了,得回首一下。一个同事回消息说:习惯回首说明你老了。是啊,从06年毕业后到今天,5年半了,奔三的人往往在这个时候总是特别的惆怅。作为一个从事了5年运维工作的我来说,不算资深,但也算是有所经历的人,这么说不过分吧。时间先回到2008年吧,也是今天,记得不错的话,镇江大雪。我和一起住的同学一起谈论憧憬着不知未来的将来,虽然谈话本身没有什么结论,但却有了一个坚定的想法:Do Something!是啊,如果就这样生活,说不定哪一天我会后悔,后悔年轻的时候没有抓住自己的机会,我不甘心只是一个小角色。于是7月,在那个最热的夏天,毅然决然的离开,放弃了生活了6年的城市(4年大学,2年工作),放弃了稳定的工作,放弃了已购的新房和当年在这里生活的一切想法。走的那一天,7月12日。登上去往上海的动车,一路上的的忐忑至今让我记忆犹新。到了上海,踏着脚下的土地,看着周围如潮的人群,内心的感觉实在是无法言喻。时间倒回到2006年。大学毕业的我成功的和其他人一样,拿到了毕业证,拿到了失业证。记不清几个月后,阴差阳错的进入到一家金融机构,做起了公司网管,这也算是我运维工作的起步吧。工作中发现自己专业知识方面实在是太过欠缺,于是养成了每天学习网络知识的习惯,我必须承认,一开始,我只是想更多的知道一些原理,后来居然发现自己着迷了。当年我拿着1500元的工资,居然省吃俭用的,凑齐1500去报名学习CCNA的课程,也算是巧合,也是个夏天。2006年十月一日,我到南京参加为其一周的培训,当时还有几个同学在南京,于是借住在同学宿舍的客厅里。这里插一句,有个兄弟宿舍里及其脏乱,地上各种垃圾里还夹杂着用完丢弃的套套,恶心的我到现在想起来还能吐。培训7天的内容现在看很简单,但是当时对于我来说还是很有压力,学完回来为了做实验,又借钱买了一台戴尔笔记本,14寸的宽屏在那个年代还是很潮的。那时候上班每天都能准点下班,下了班后就是我一个人在家里用dynamics做实验,后来虚拟机不过瘾,又花大几千买了一套cisco的设备回来每天敲实验。等我慢慢的对网络越来越有感觉的时候,突然有一天萌生了一个想法,说到底就是渴望成就感。(此处插播广告,当年这套设备总共花了系列的路由器,另加一个是带异步口的,型号应该是2511,试验中充当终端服务器。这套设备现在闲置在家中好久了,有意者愿1600出。使用设备学习的感觉要比模拟器好n多倍,私信详谈)继续回到2008年。在上海没有想象中风顺,到11月份我找到一份工作,系统工程师。上班的前一天,我跑到徐家汇的一个李宁鞋店,买了一双我看过好几遍都没有舍得买的鞋,是啊,打完折300元的鞋,现在买什么都没有当年那样的满足感了。第一个月拿到工资的时候,不禁哑然失笑了,2700元。可是,这是自己选择的路,哪怕跪着,也要走完。可是今天我必须承认,当年的这2700元的时代,却是我成长最快的时代,我第一次那么大密度的接触到那么多的技术,我不记得当时在那里度过了多少个不眠的夜晚。可是,直到现在,还有当时的一些互联网公司使用了整套由我配置的网络设备,网站使用我亲手搭建的负载均衡设备,这些足以让我满足。后来虽然经历过易趣网、51job、阿里巴巴,虽然后来工资待遇、福利方面也比那时得到改善,但是就这段经历而言绝对是最值得回忆的。不得不说在阿里巴巴的这15个月。如果说,之前的经历都是在基础性的成长,那么在阿里巴巴的经历应该算是眼界的开阔。阿里的技术人员是非常密集的,而且高手如云,你可以接触到各类在业界牛中逼哄哄的人,无论如何,只要你愿意,你都可以主动的和他们沟通学习。另外一点加班是非常正常的,我不了解其他非技术部门的情况,但是就技术类的岗位,加班是太正常不过的事情。刚来的那会儿,由于当时新上的一款产品只有我一个运维人员,产品正常的运维以及bug排查太占用时间,我几乎每天都是凌晨回去。有时候临到下班时间都没什么加班的需求,突然到7点来一个case。记得有次周末,准备下班了,突然有个用户,十万火急的跑过来说有个十万火急的需求,结果查明是内部一个测试虚拟化平台的虚拟机启动不了,当时由于不支持虚拟机的冷热迁移,只能手工hack产品逻辑,手工冷迁移,7台机器花了十几个小时才全部启动成功并恢复所有数据,一个晚上修复数据。TAXI票单上显示回家的时间是7点09分,第一次目睹杭州的早晨,我背着厚实的笔记本,感觉着肩头的承重、冬天的刺骨,还有对未来的希望。可是在那一刻,我觉得希望是一个永远都可以用来欺骗自己的词汇。这样的事情还有很多,后来虽然人员上得到了补充,但是同时所要运维的集群个数也是急剧增加,附属产品也一个个的起来,这样加班还是家常便饭,加上产品24*7的故障响应,每个运维人员在经历和体力上都同时面临着考验。此时此刻,我个人参与的产品横跨弹性计算平台(虚拟机生产控制系统)、SLB(基于lvs的软件负载均衡)、ACE(cloud engine应用托管),面对多个产品线的运维工作,在新的一年里,总结和理顺流程已经是刻不容缓的一件事情。总结一下吧,也算是对希望跨入运维或是刚刚踏入运维序列的同学的一点建议。运维工作真的是一件非常具有挑战性的工作,意味着你要付出比平常人更多的精力,意味着你必须要放弃很多休息时间,当然你也会收获很多,在知识广度上的扩充和积累绝对是非常迅速的,我个人认为可能需要你有一些小聪明或是灵性,说到底就是能迅速的弄懂很多原理来解决眼前的事情。意味着24*7的工作性质,意味着无尽的问题,意味着冬天里半夜3点中的一个电话你必须立即解决。不论是成就感还是挫折感你都能在这里体味的淋漓尽致。新形势下的运维人员也要同时具有软件开发的能力,至少不能仅仅局限于只会一种语言,运维工具的开发能力是非常重要的现代运维的特征,英语里面的一个新的词汇叫做dev-ops,说的就是这个。几年前没有开发经验就可以做运维,因为那时候的运维基本上是充当开发人员的助手、做着重复和没有技术含量的事情的,但是现在,如果说没有开发经验是做不好一个运维工程师的,在某种程度上来说,这也是我个人的短板,急需提升。可以说现代运维给运维工程师提出了更为严格的要求,运维工程师在facebook里面是最被尊重的一批人,被称之为一群“无所不懂”的家伙,他们可以给开发人员提供各种思路和帮助。一句话说,运维人员的角色已经需要你can be anyone,运维人员任重而道远,所以如果你做好准备的话,Go and have fun!本文出自 “” 博客,请务必保留此出处
了这篇文章
类别:┆阅读(0)┆评论(0)
本文收录至博客专题:《》《》
15:15:55 15:58:07 16:20:11 17:53:54 17:06:01 17:40:52 18:22:39 18:43:59 21:27:46 22:12:48 22:18:57 00:10:05 01:36:28 08:37:28 09:23:20 09:34:01 09:35:11 09:38:30 10:10:43 10:29:33 &&1&
&&页数 ( 1/6 ) &中国领先的IT技术网站
51CTO旗下网站
运维工程师的前景和职业发展
从行业角度来看,随着中国互联网的高速发展、网站规模越来越来大、架构越来越复杂,对专职网站运维工程师、网站架构师的要求会越来越急迫,特别是对有经验的优秀运维人才需求量大,而且是越老越值钱。
作者:chris来源:| 09:30
Linux运维前景
从行业角度来看,随着中国互联网的高速发展、网站规模越来越来大、架构越来越复杂,对专职网站运维工程师、网站架构师的要求会越来越急迫,特别是对有经验的优秀运维人才需求量大,而且是越老越值钱。
从个人角度,运维工程师技术含量及要求会越来越高,同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。
互联网运维是一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,给运维工程师提供了一个很好的个人能力与技术的发展空间。
运维工作的相关经验将会变得非常重要,而且也将成为个人的核心竞争力,优秀的运维工程师具备很好的各层面问题的解决能力及方案提供、全局思考的能力等。
由于运维岗位所接触的知识面非常广阔,更容易培养或发挥出个人某些方面的特长或爱好,如内核、网络、开发、数据库等方面,可以做得非常深入精通、成为这方面的专家。
当前国内外对运维人才的需求非常迫切,运维工程师的薪资也水涨船高,与研发、测试等技术部门持平,甚至超出。
Linux运维的职业发展
运维工程师从工作方式上分为几大类:
1、运维工程师/运维开发工程师:
负责具体的产品线运维工作,同时也需要掌握开发的能力,深入业务,最了解业务的痛点和问题,同时研发/优化针对产品业务需求的平台、工具和手段,能够接触到各类优秀的系统架构并有能力做出优劣对比,同时对业务的掌控决定了相应运维工程师在业务发展中的作用。长远发展是成为大型系统的架构师。
2、运维平台研发工程师:
专门研发运维相关通用平台和技术,需要有一定的产品线运维经验或从产品线中拿到运维需求。对研发能力有较高的要求,对系统的设计有较严格的标准,并且能够理解用户需求,做出适合服务运维和满足运维工程师使用体验的运维产品,长远的发展是成为各个技术纵向领域的技术专家。
3、数据库研发工程师/数据库工程师:
数据库方向是运维技术中较为特殊的一个方向,由于业务的重要性通常需要专设岗位,业界在该方向也有深厚的研究和积累。主要方向有数据库内核、云数据库等,长远发展是数据库领域的技术专家,数据库架构师。
4、运维经理/运维总监:
运维同学做事情的过程中通常需要协调多个RD和QA同学,对协调和推进能力要求比较高,对一些技术深度还不错,协调和推进能力比较高的同学非常适合转型管理职位,长远的发展和技术部门的管理职位一样目标是CTO、CEO。
各个方向上的工程师发展到一定阶段后,没有明确的界限,需要同时具备较强的运维、架构、编程、算法等能力,是一个要求很高要求的职业。以后运维工程师的素养会越来越高,规范也会越来越强,就像最近几年大家努力推荐的DevOps的概念,还有最近Google
SRE的概念的学习,都会给运维行业针对运维人员的规范和要求越来越严格。【编辑推荐】【责任编辑: TEL:(010)】
大家都在看猜你喜欢
原创头条头条外电头条
24H热文一周话题本月最赞
讲师:0人学习过
讲师:0人学习过
讲师:7人学习过
精选博文论坛热帖下载排行
本书是一本介绍当前主流计算机网络应用技术的工具图书,全面总结了当前最主流、最基础的计算机网络应用,包括局域网和互联网应用两方面。在...
订阅51CTO邮刊用户名:煮酒品茶
文章数:123
评论数:887
访问量:1127823
注册日期:
阅读量:1297
阅读量:3317
阅读量:426525
阅读量:1114820
51CTO推荐博文
煮酒品茶:感觉文章写的不错,好东西就必须转,会在自己认为重要的东西上面标红色。具体地址不清楚,但转自51CTO(wjpinrain)博友之文
转自:http://wjpinrain./502
运维中关键技术点解剖:1 大量高并发网站的设计方案 ;2 高可靠、高可伸缩性网络架构设计;3 网站安全问题,如何避免被黑?4 南北互联问题,动态CDN解决方案;5 海量数据存储架构
一、什么是大型网站运维?
首先明确一下,全文所讲的&运维&是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂
性角度考虑,如网站规范、知名度、服务器
量级、pv量等考虑,其它因素不是重点;因此,我们先定义服务器规模大于1000台,pv每天至少上亿(至少国内排名前10),如sina、baidu、
QQ,51.com等等;其它小型网站可能没有真正意义上的运维工程师,这与网站规范不够和成本因素有关,更多的是集合网络、系统
、开发工作于一身的&复合性人才&,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。所以,非常重要一定需要明
白:运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等;我在这里所讲的运维工程师就是指专职运维工程师。
【煮酒品茶: 杂牌运维飘过,这东西应该还是需求决定,以前我希望做安全这块,有兴趣,结果因为公司人员不够,安全兼运维到现在。。。。。需求决定一切吧。所以要明确目标。】
我们再来说说一般产品的&出生&流程:
1、首先公司管理层给出指导思想,PM定位市场需求(或copy成熟应用)进行调研、分析、最终给出详细设计。
2、架构师根据产品设计的需求,如pv大小预估、服务器规模、应用架构等因素完成网络规划,架构设计等(基本上对网络变动不大,除非大项目)
3、开发工程师将设计code实现出来、测试工程师对应用进行测试。
4、好,到运维工程师出马了,首先明确一点不是说前三步就与运维工作无关了,恰恰相反,前三步与运维关系很大:应用的前期架构设计、软/硬件资源评估申请
采购、应用设计性能隐患及评估、IDC、服务性能\安全调优、服务器系统级优化(与特定应用有关)等都需运维全程参与,并主导整个应用上线项目;运维工程
师负责产品服务器上架准备工作,服务器系统安装、网络、IP、通用工具集安装。运维工程师还需要对上线的应用系统架构是否合理、是否具备可扩展性、及安全
隐患等因素负责,并负责最后将产品(程序)、网络、系统三者进行拼接并最优化的组合在一起,最终完成产品上线提供用户使用,并周而复使:需求-&开
发(升级)-&测试-&上线(性能、安全问题等之前预估外的问题随之慢慢就全出来了)在这里提一点:网站开发模式与传统软件开发完全不一样,
网站一天开发上线1~5个升级版本是家常便饭,用户体验为王嘛,如果某个线上问题像M$
需要1年解决,用户早跑光了;应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障
处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化、随着应用PV增减进行应用架构的伸缩、安全、运维开发工作:
a 、尽量将日常机械性手工工作通过工具实现(如服务监控、应用状态统计、服务上线等等),提高效率。
b、解决现实中服务存在的问题,如高可靠性、可扩展性问题等。
c、大规模集群管理工具的开发,如1万台机器如何在1分钟内完成密码修改、或运行指定任务?2000台服务器如何快速安装操作系统?各分布式IDC、存储集群中数PT级的数据如何快速的存储、共享、分析?等一系列挑战都需运维工程师的努力。
【煮酒品茶:如果你问我,我会告诉你我以前写了篇提高运维十倍工作量的文章,可以实现C段中的前半部分。】
在此说明一下其它配合工种情况,在整个项目中,前端应用对于网络/系统工程师来说是黑匣子,同时开发工程师职责只是负责完成应用的功能性开发,并对应用本
身性能、安全性等应用本身负责,它不负责或关心网络/系统架构方面事宜,当然软/硬件采购人员等事业部其它同事也不会关心这些问题,各司其职,但项目的核
心是运维工程师~!所有其它部门的桥梁。
上面说了很多,我想大家应该对运维有一些概念了,在此打个比方吧,如果我们是一辆高速行驶在高速公路上的汽车,那运维工程师就是司机兼维修工,这个司机不
简单,有时需要在高速行驶过程中换轮胎、并根据道路情况换档位、当汽车速度越来越快,汽车本身不能满足高速度时对汽车性能调优或零件升级、高速行进中解决
汽车故障及性能问题、时刻关注前方安全问题,并先知先觉的采取规避手段。这就是运维工作~!
最后说一下运维工程师的职责:&确保线上稳定&,看似简单,但实属不容易,运维工程师必须在诸多不利因素中进行权衡:新产品模式对现有架构及技术的冲击、
产品高频度的升级带来的线上BUG隐患、运维自动化管理承度不高导致的人为失误、IT行业追求的高效率导致流程执行上的缺失、用户增涨带来的性能及架构上
的压力、IT行业宽松的技术管理文化、创新风险、互联网安全性问题等因素,都会是网站稳定的大敌,运维工程师必须把控好这最后一关,需具体高度的责任感、
原则性及协调能力,如果能做到各因素的最佳平衡,那就是一名优秀的运维工程师了。
另外在此聊点题外话,我在这里看到有很多人要sina、QQ、等聊自已的运维方面的经验,其实这对于它们有点免为其难:
a、各公司自已网络架构、规模、或多或少还算是公司的核心秘密,要保密,另外,对于大家所熟知的通用软件、架构,由于很多公司会根据自已实际业务需要,同
时因为原版性能、安全性、已知bug、功能等原因,进行过二次开发(如apache,php,mysql
),操作系统内核也会根据不同业务类型进行定制的,如某些应用属于运算型、某些是高IO型、或大存储大内存型。根据这些特点进行内核优化定制,如sina
memcache上进行过二次开发,搞出了一个MemcacheDB,具体做得如何我们不谈,但开源了,是值得称赞的,国内公司对于开源基本上是索取,没
有贡献;另外,服务器也不是大家所熟知的型号,根据业务特点,大部份都是找DELL/HP/ibm进行过定制;另外,在分布式储存方面都有自已解决方案,
要不就是使用现成开源hadoop等解决方案,或自已开发。但90%都是借鉴google GFS的思想:分布式存储、计算、大表。
b、各公司业务方向不一样,会导致运维模式或方法都不一样,如51.com和baidu运维肯定区别很大,因为他们业务模式决定了其架构、服务器量级、
IDC分布、网络结构、通用技术都会不一样,主打新闻门户的sina与主打sns的51.com运维模式差异就非常大,甚至职责都不大一样;但有一点,通
用技术及大致架构上都大同小异,大家不要太神化,更多的公司只是玩垒积木的游戏罢了,没什么技术含量。
c、如上面所讲,目前大型网站运维还处于幼年时期理念和经验都比较零散,没有成熟的知识体系,可能具体什么是运维,大家都要先思索一番,或压根没想过,真
正讨论也只是运维工作的冰山一角,局限于具体技术细节,或某某著名网站大的框架,真正运维体系化东西没有,这也许是目前网上运维相关资料
比较少的原故吧。或者也是国内运维人员比较难招,比较牛的运维工程师比较少见的原因之一吧。
二、运维工作师需要什么样的技能及素质
做为一名运维工程师需要什么样的技能及素质呢,首先说说技能吧,如大家上面所看到,运维是一个集多IT工种技能与一身的岗位,对系统-&网络
-&存储-&协议-&需求-&开发-&测试-&安全等各环节都需要了解一些,但对于某些环节需熟悉甚至精通,如系统
(基本操作系统的熟悉使用,*nix,windows
..)、协议、系统开发(日常很重要的工作是自动运维化相关开发、大规模集群工具开发、管理)、通用应用(如lvs、ha、web server
、db、中间件、存储等)、网络,IDC拓朴架构;
技能方面总结以下几点:
1、开发能力,这点非常重要,因为运维工具都需要自已开发,开发语言:perl、python、php(其中之一)、shell(awk,sed,expect&.等),需要有过实际项目开发经验,否则工作会非常痛苦。
【煮酒品茶:开发能力,运维要做的事儿真心很多,但批量类的事情还是要掌握一门语言,这方面可以有。】
2、通用应用方面需要了解:操作系统(目前国内主要是linux、bsd)、webserver相关
(nginx,apahe,php,lighttpd,java。。。)、数据库(mysql,oralce)、其它杂七八拉的东东;系统优化,高可靠
性;这些只是加分项,不需必备,可以边工作边慢慢学,这些东西都不难。当然在运维中,有些是有分工偏重点不一样。
3、系统、网络、安全,存储,CDN,DB等需要相当了解,知道其相关原理。
【煮酒品茶:运维人员不是人,都是神!】
个人素质方面:
1、沟通能力、团队协作:运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;这应该是现代企业的基本素质要求了,不多说。
2、工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是网站admin,最高线上权限者,一不小心就会遗憾终生或打入十八层地狱。
3、主动性、执行力、精力旺盛、抗压能力强:由于IT行业的特性,变化快;往往计划赶不上变化,运维工作就更突出了,比如国内各大公司服务器往往是全国各
地,哪里便宜性价比高,就那往搬,进行大规模服务迁移(牵扯的服务器成百上千台),这是一个非常头痛的问题;往往时间
非常紧迫,如限1周内完成,这种情况下,运维工程师的主动性及执行力就有很高的要求了:计划、方案、服务无缝迁移、机器搬迁上架、环境准备、安全评估、性
能评估、基建、各关联部门扯皮,7X24小紧急事故响应等。
4、其它就是一些基本素质了:头脑要灵光、逻辑思维能力强、为人谦虚稳重、亲和力、乐于助人、有大局观。
5、最后一点,做网站运维需要有探索创新精神,通过创新型思维解决现实中的问题,因为这是一个处于幼年的职业(国外也一样,但比国内起步早点),没有成熟体系或方法论可以借鉴,只能靠大家自已摸索努力。
三、怎样才算是一个合格的运维工程师
=====================================
1、保证服务达到要求的线上标准,如99.9%;保证线上稳定,这是运维工程师的基本责职所在。
2、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。
3、网站各层面监控、统计的覆盖度,软件、硬件、运行状态,能监控的都需要监控统计,避免监控死角、并能实时了解应用的运转情况。
4、通过创新思维解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。
5、运维知识的积累与沉淀、文档的完备性,运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。
6、计划性和执行力;工作有计划,计划后想法设法达到目标,不找借口。
7、自动化运维;能对日常机械化工作进行提炼、设计并开发成工具、系统,能让系统自动完成的尽量依靠系统;让大家更多的时间用于思考、创新思维、做自已喜欢的事情。
=====================================
以上只是技术上的一些层面,当然个人意识也是很重要的。
四、运维职业的迷惘、现状与发展前景
运维岗位不像其它岗位,如研发工程师、测试工程师等,有非常明确的职责定位及职业规划,比较有职业认同感与成就感;而运维工作可能给人的感觉是哪方面都了
解一些,但又都比上专职工程师更精通、感觉平时被关注度比较低(除非线上出现故障),慢慢的大家就会迷惘,对职业发展产生困惑,为什么会有这种现象呢?除
了职业本身特点外,主要还是因为对运维了解不深入、做得不深入导致;其实这个问题其它岗位也会出现,但我发现运维更典型,更容易出现这个问题;
针对这个问题我谈一下网站运维的现状及发展前景(也在思考中,可能不太深入全面,也请大家斧正补充)
运维现状:
1、处于刚起步的初级阶段,各大公司有此专职,但重视或重要程度不高,可替代性强;小公司更多是由其它岗位来兼顾做这一块工作,没有专职,也不可能做得深入。
2、技术层次比较低;主要处于技术探索、积累阶段,没有型成体系化的理念、技术。
3、体力劳动偏大;这个问题主要与第二点有关系,很多事情还是依靠人力进行,没有完成好的提练,对于大规模集群没有成熟的自动化管理方法,在此说明一下,大规模集群与运维工作是息息相关的如果只是百十来台机器,那就没有运维太大的生存空间了。
4、优秀运维人才的极度缺乏;目前各大公司基本上都靠自已培养,这个现状导致行业内运维人才的流动性非常低,非常多好的技术都局限在各大公司内部,如
google 50万台机器科学的管理,或者国内互联公司top 10
的一些运维经验,这些经验是非常有价值的东西并决定了一个公司的核心竞争力;这些问题进而导致业内先进运维技术的流通、贯通、与借签,并最终将限制了运维
5、很多优秀的运维经验都掌握在大公司手中;这不在于公司的技术实力,而在于大公司的技术规模、海量PV、硬件规模足够大,如baidu可怕的流量、
51.com海量数据~~~~这些因素决定了他们遇到的问题都是其它中/小公司还没有遇到的,或即将遇到。但大公司可能已有很好的解决方案或系统。
发展前景:
1、从行业角度来看,随着中国互联网的高速发展(目前中国网民已跃升为全球第一)、网站规模越来越来大、架构越来越复杂;对专职网站运维工程师、网站架构
师的要求会越来越急迫,特别是对有经验的优秀运维人才需求量大,而且是越老越值钱;目前国内基本上都是选择毕业生培养(限于大公司),培养成本高,而且没
有经验人才加入会导致公司技术更新缓慢、影响公司的技术发展;当然,毕业生也有好处:白纸一张,可塑性强,比较认同并容易融入企业文化。
2、从个人角度,运维工程师技术含量及要求会越来越高,同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。
3、网站运维将成为一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,给大家提供一个很好的个人能力与技术广度的发展空间。
4、运维工作的相关经验将会变得非常重要,而且也将成为个人的核心竞争力,具备很好的各层面问题的解决能力及方案提供、全局思考能力等。
5、特长发挥和兴趣的培养;由于运维岗位所接触的知识面非常广阔,更容易培养或发挥出个人某些方面的特长或爱好,如内核、网络、开发、数据库等方面,可以做得非常深入精通、成为这方面的专家。
6、如果真要以后不想做运维了,转到其它岗位也比较容易,不会有太大的局限性。当然了,你得真正用心去做。
7、技术发展方向:网站/系统架构师。
五、运维关键技术点解剖
1、 大规模集群管理问题
首先我们先要明确集群的概念,集群不是泛指各功能服务器的总合,而是指为了达到某一目的或功能的服务器、硬盘
资源的整合(机器数大于两台),对于应用来说它就是一个整体,目前常规集群可分为:高可用性集群(HA),负载均衡集群(如lvs),分布式储、计算存储
集群(DFS,如google gfs ,yahoo
hadoop),特定应用集群(某一特定功能服务器组合、如db、cache层等),目前互联网行业主要基于这四种类型;对于前两种类似,如果业务简单、
应用上post操作比较少,可以简单的采用四层交换机
解决(如f5),达到服务高可用/负责均衡的作用,对于资源紧张的公司也有一些开源解决办法如lvs+ha,非常灵活;对于后两种,那就考验公司技术实力
及应用特点了,第三种DFS主要应用于海量数据应用上,如邮件、搜索等应用,特别是搜索要求就更高了,除了简单海量存储,还包括数据挖掘、用户行为分析;
google、yahoo就能保存分析近一年的用户记录数据,而baidu应该少于30天、soguo就更少了。。。这些对于搜索准备性、及用户体验是至
关重要的。
接下来,我们再谈谈如何科学的管理集群,有以下关键几点:
主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;
a、服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端web
server,我们就可以有很多种类型的监控,包括应用端口
状态监控,便于及时发现服务器或应用本身是否crash、通过icmp包探测服务器健康状态,更上层可能还包括应用各频道业务的监控,常用方法是采用面业
特征码进行判断,或对重点页面进行签名,以网站被黑篡改(报警、并自动恢复被篡改数据)等等,这些只是一部份,还有N多监控方式,依应用特点而定,还有一
些问题需解决,如集群过大,如何高性能的进行监控也是一个现实问题。
b、其它就是集群状态类的监控或统计,为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。
II、故障管理
a、硬件故障问题;对于成百上千或上万机器的N多集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内
存、交换机。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,但给系统工程师足够
宽裕的处理时间。(如google不是号称同时死800台机器,服务不会受到任何影响吗);这就是考验运维工程师及网站架构师功能的地方了,好的设计能达
到google所描述自恢复能力,如gfs,糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。
b、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定,但重要的一点,是要有对这些问题的预防性措施,不能想当然,它不
会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效等。
III、自动化
自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要
一台一台裸机安装,如2000台,可能需要10人/10天,搞烂N张光盘,人力成本更大。。。而现在通过自动化工具,只需几个简单命令
就能搞定、还有如机器人类程序,自动完成以往每天人工干预的工作,使其自动完成、汇报结果,并具备一定的专家系统能力,能做一些简单的是/非判断、优化选
择等。。。这些好处非常明显不再多说。。。应该说,自动化运维是运维工程师职业化的一个追求,利已利公,虽然这是一个异常艰巨的任务:不断变更的业务、不
规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素,都可能会对现有自动化系统产生影响,所以需要模块化、接口化、变因参数化等因
此,自动化相关工作,是运维工程师的核心重点工作之一,也是价值的体现。
煮酒品茶:说的很细,我可以好好学习下,有个方向,大体应该就是那些东西,但是会细化了,此也特指具体的运维人员而不是复合型的运维人员,所以对很多工位并不是一定很适合,但是会有一个方向,要掌握的东西很多,随着现在云的起来,我想很多自动化的东西都可以实际,如高可用,负载等,硬件自动化我认为可以交给云来做,软件自动化也就是笔者提到的一门开发语言,修改一万个帐号密码,指定特定任务,我想我以前写过一篇文章
《思维发散-减轻运维工作量》http://cwtea./330 很粗糙,但是应该还会蛮有用的,以即脚本类处理,更多的是高可用,高性能,高扩展等一系列的软硬配合,再加上良好的沟通能力。以及或许无比枯燥的工作环境,总而言之普通运维人员是神,牛比运维人员是神中的神。本文出自 “” 博客,请务必保留此出处
了这篇文章
类别:┆阅读(0)┆评论(0)
11:31:11 11:43:04 12:02:18 12:39:07 12:40:28 12:41:25 12:41:39 12:41:54 15:40:10 23:12:41 23:19:40 02:36:13 09:05:36 11:24:20 11:30:01 &&1&
&&页数 ( 1/3 ) &}

我要回帖

更多关于 aix系统运维工程师 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信