|
|
51CTO旗下网站
|
|
挪动端

IT运维条记:操卖白粉的心,赚卖白菜的钱!

本文以叙事方式稀释了许多运维场景、技能与总结。作者讨论了:项目办理、云盘算架构、高效集会办理、网络平安办理、运维主动化架构设计、项目团队办理、两地三中央架构、职员办理、运维架构体系计划、运维感悟等等与运维亲密相干的典范案例及场景。

作者:韩晓光泉源:高效运维|2017-12-01 09:21

本文故事场景纯属虚拟,人物皆为假名,除此之外都是真实干货。

本文以叙事方式稀释了许多运维场景、技能与总结。作者讨论了:项目办理、云盘算架构、高效集会办理、网络平安办理、运维主动化架构设计、项目团队办理、两地三中央架构、职员办理、运维架构体系计划、运维感悟等等与运维亲密相干的典范案例及场景。

项目办理及云盘算架构

明天周五,多云雾霾,我到了单元,接杯水瞅了瞅窗外,云遮雾罩,有种做梦的觉得,不知为啥眼睛跳的凶猛,这不是好兆头。

我习气先翻开邮箱,再翻开即时通讯软件,再翻开云条记,看看 24 小时价班状况、任务邮件、项目邮件、即时音讯和技能文章,经过这些内容信息根本上能概览昨天任务和明天要干的事变,同时理解一些最新技能静态。

面临昏黄的窗外,我在想:任务人生便是在层层迷雾中探究,不时拨云见日,开辟眼界和路途,完成假造梦乡到理想天下的变化。

看完邮件和一些 OA 内容,我把明天要办事情分别四个条理:

  • 紧张并且紧急。
  • 紧急但不紧张。
  • 紧张但不紧急。
  • 既不紧张又不紧急。

上午 10:00,我要召开每周项目例会,讨论云盘算项目停顿状况和前期布置,做好四控两管一和谐任务(我仿佛干了监理的任务)。

这个项目严重,我们将经过这些严重项目促进公司片面晋级转型技能架构,由传统信息化建立转型深化挪动互联网式开展,向资源集约型、平台支持型变化。

并提供继续集成与优化效劳,趋势矫捷疾速交付,由单一的运维资源交付转型片面云化生态运营交付。

我们的云盘算架构体系如下:

围绕上述架构原型,我们要在特定工夫、预算、资源限定内根据标准完成云盘算项目建立,工夫紧义务重,整个项目组压力大,动力也大。

说到项目办理,它是一门大学问,做运维办理、零碎集成,信息化建立,项目司理等任务都需求理解,这里梳理了一个项目办理 5 大流程 10 大知识范畴知识图,有兴味各人可以看看 PMBOk 等相干材料,这里不再赘述。

高效集会办理

说到闭会,也是一个技能活。为了进步集会服从和效能,我通常会这么做:

  • 自创《罗伯特议事规矩》。比方集会要有掌管人、记载人以维持好集会实行效能;集会要有详细、明白、可操纵的举动发起。

集会要有巨细主题,不要跑题,发言有序、偶然限。避实就虚,不人身打击,不质疑公家偏好,习气,文明观等。

  • 提早发集会议题,材料。防止会上暂时看材料,暂时讨论,一切都是暂时拍脑壳,招致集会冗长、效能差。
  • 做好集会纪要,遵照 SMART 准绳。明白集会的结论,义务、实行人和限期,做好任务义务追踪、追溯。

关于我们云盘算项目停顿,我看了下上周集会纪要,以后另有两个紧张题目待处理:

  • 云盘算中心网络跑外部 BGP 及 OSPF 题目。
  • 经过 VRF 处理多 VPN 路由转提问题。

这些题目都很顺手且紧张,因而题目交由王宜牵头处理。王宜是我们的一个全栈型 SRE 人才。

他从前端 CDN、负载、署理到后端数据库、存储样样通,熟习网络架构,我们的新建 IDC 网络架构便是他主导设计的,他还能写的一手好代码,我们的运维主动化平台的中心模块也是他次要完成的。

但有些遗憾的是王宜同窗总是喜好下去就干,不喜好写计划,不喜好写文档总结,无法和谐好团队。

自打让他担任带团队之后,后果仍然是他一团体在全线战役,没有发扬整个团队的代价。

为此我跟王宜谈了屡次,希冀他能发扬更大才能,每当我们讨论到技能和办理的均衡干系时,终极每每堕入究竟技能紧张照旧办理紧张的漩涡中。不知广阔读者冤家有何见地?

网络平安办理

项目会刚开不久,这时网络平安担任人刘森,脸色凝重,让我出来一下。

我随着他到了隔邻集会室,刘森拿出一份文件来说,这是外部平安审计后果,我们另有平安破绽,需求立即整改,不然下周一内部审计过去就分歧适了。

我看了看陈诉,外面提到的平安题目提要如下:

如今网络平安是运维常态化重点任务,我们通常活期做平安破绽扫描、浸透测试。

针对平安破绽,我们常用的破绽修复战略如下:

  • 严厉各地区之间拜访限定与断绝,制止效劳器之间的相互拜访,避免内网挪动浸透。
  • 下线有题目的零碎,保存证据,重新装置摆设备机后再上线。
  • 严厉营垒机拜访权限,什么脚色的人运用什么权限。
  • 增强零碎 ip tables 拜访战略,严厉使用拜访战略。
  • 修正相干零碎的账号暗码。
  • 晋级打补丁,修复零碎、使用破绽。
  • 清算有木马等非常的零碎效劳器。

固然有上述许多平安防护步伐,但我们总还隐隐担忧平安,有种一入平安深似海,回顾沧桑惊心胸。也因而我们正在探究从全体网络架构、平安架构层面彻底处理平安防控题目。

由于是限期平安整改,停止到下周一必需完成。我们得立即找人手开端修复破绽。

思索到这次平安限期整改的紧张告急性,我布置王宜参加刘森平安整改项目组。王宜是一个全栈型技能人才,盼望他能协助刘森尽快处理这些平安题目。

运维主动化架构设计

关于批量增编削查、暗码盘问修正,批量打补丁,零碎摆设,监控办理等任务,我们有本人研发的一套运维主动化综合办理平台,总体功用框架设计如下图:

本运维主动化是一体化处理方案,从我们的实践业务需求动身,基于 DevOps 理念,引入轻量级 IT 效劳办理体系,以 CMDB 资源办理为中心驱动,围绕运维监控及主动化办理为建立主体,构建起矫捷运维效劳办理体系。

经过运维主动化办理处理方案交融、一致办理运维职员、资源、事情流程,一致监控办理 IT 资源,无效联系关系整合数据信息,从而促进运维办理任务的规范化、流程化、可视化、主动化、智能化、产物化。

终极目的是要提供更好地运维效劳交付才能,更好地支持我们以后及将来业务疾速妥当开展。

如下是本运维主动化零碎逻辑架构计划图:

关于运维主动化零碎的设计与完成思绪,我们老大(后文行将进场)曾提出了他的一些发起:

  • 功用要精专,模块要解耦,不要过分设计。
  • 产物要适用,可以很好支持业务,而不是仅仅做成纯技能实际产物。
  • 运维主动化是把双刃剑,要特殊留意平安防护和权限控制。

对此我有些不解,我总想把该零碎做成大一统紧耦合,主动化到极致,寄盼望于运维主动化束缚运维职员,但实践状况我逐步意会到二八准绳和中庸之道,凡事要过度恰如其分,凡事要柔韧不行用尽。

项目团队办理

上午的项目会、平安事变和一些运维琐事交错在统统,让人觉得工夫飞快,眼看就要 12:00 了,我瞥见刘森和王宜仿佛还在由于平安修复项目组怎样组建、怎样分工,怎样开工的事变争论不时。

我不由得过来也参加了他们的争论之中,我把我总结的布鲁斯·塔克曼的团队开展阶段模子及应对步伐给他们讲了讲,盼望他们能从中取得一些代价和协助。

说完我先走了,我得赶忙吃点午饭,预备一些资料。下周需求召开立项研讨会。

我计划晋级优化中心数据库零碎的技能架构,为此我已初拟了个立项陈诉。思索到项目严重,我需求明天下战书提早向老大报告请示征求一下意见。

两地三中央架构概述

下战书 14:00,我定时离开老大的办公室,直奔主题阐明我的想法。

由于汗青缘由,我们的这组中心数据库零碎存在一些隐患:

  • 有些模块的数据库 rac 集群心跳线照旧百兆,无法保证集群的功能及波动性。
  • 存储阵列曾经过保,并且容量及功能都无限,难以支持零碎业务开展。
  • 以后缺乏无效地数据备份及灾备维护。

因而我发起重新晋级优化架构,从全体设计上处理这些题目,次要思绪如下:

  • 基于两地三中央少量成熟方案,构建同城双活及时同步,异地灾备异步同步体系,施行双机 RAC+Dataguard 双层冗余。
  • 基于使用、数据库及存储阵列级多条理数据同步,经过存储延续性维护应对使用逻辑毛病,外加磁带归档存储。

两地三中央是什么样的架构,上面我给一个表示图例:

我以为我思索地很全面,我稀里哗啦说了一通,但发明老大没有欣赏之意。

老大问:“你能否与业务部分,研发部分,商务部分一块讨论过这个方案?”

“这个……没有…….”我支支吾吾说:“我以为这是纯技能方案…..”

老大又问:“互联网运维和传统信息化运维有区别么?”

“这个,谁人…..”我临时间脑壳空缺了。

老大持续再问:“你这方案的优化创新思绪在那边?”

这时我觉得一股寒气直入后脊梁,头脑飞速但混乱:“我这个方案有许多成熟案例,这种技能架构已有很多多少年了……”

“是很多多少年了,你还在照搬多年前的技能架构,方案毫无创新。”,老大如有所思:

  • 起首你应该理解业务,技能与业务不克不及两张皮,技能要与其他部分业务协同,技能要支持业务开展。
  • 其次我们不克不及再走传统信息化那种封锁竖井式路途,要走平台化、集群散布式、矫捷可继续、开放互联、协作共赢的生态路途。
  • 最初再次提示你们,从业务到技能到运营,你们需求相互协同与支持。

我有种顿悟的觉得,但同时我也想赶忙分开这里。忽然我的手机短信响了,是一条告警表现“严峻毛病,MySQL 主从差别步”,我有种解围的觉得。

赶忙跟老大说:“我有个监控诉警,小毛病,得去理解下状况”,说完赶忙从办公室出来了。

我走到王宜那边问:“谁在处置 MySQL 主从差别步的毛病?”

王宜很自大地说:“我在处置,这个小题目我能处理。”

“平安破绽防护停顿咋样了?”我问。

“刘森让我协助他做零碎平安加固和打补丁”,王宜有些无法地心情说:“他基本不理解我这边任务状况,我明天不断在忙,基本没工夫做零碎平安加固的事变,等我把 MySQL 的题目处理了,再做零碎 ip tables 控制战略…..”

我没有再说什么,只是在想,实在我更盼望王宜他们团队的组员行止理(而不是王宜间接处置),盼望发扬其团队每团体的代价。

但我又想,王宜自身也需求锤炼团队办理和谐才能,以是照旧由王宜本人判别怎样和谐团队任务吧。

传统运维 VS 互联网运维异同比照

我走回本人的办公位,冥思苦想互联网运维与传统运维有什么区别呢?不知广阔读者冤家有何见地?我先说说鄙见吧。

传统运维与互联网运维的差别,可以归结为如下 6 大差别:

  • 架构差别。
  • 任务内容差别。
  • 知识体系差别。
  • 面向工具差别。
  • 运维职员差别。
  • 体制理念差别。

这里只摆放一个架构差别的图解,如下图所示:

网络大流量事情处理

这时,张驰快步向我走来,看着有些焦急:有毛病,我们的多个域名翻开非常迟缓,网站功能监测频发告警。

固然我干 IT 任务 10 余年了,但当我听到“毛病”这俩字,依然觉得逆耳敏感。

作为运维人,常常要救火,头脑需求岑寂,做到胆大心小,行事可以忙但不克不及乱。关于这种拜访毛病,我们通常会基于网络架构条理逐一捋顺排查和定位。

网站架构通常如下图所示:

基于网站架构及网民拜访的数据流向,我们逐一排查 CDN、源站、负载平衡……

很快,我们发明一个老旧负载平衡设置装备摆设上并发衔接数激增,如下图所示:

依据我们以往经历,这种突发激增每每由某种网站运动惹起的。

颠末网安部梳理 CDN 监测信息、负载状况、域名网站、流控监测信息,网站业务运转信息,我们很快确定了局部网站迟缓缘由。

由于歹意刷票招致突发大并发衔接,过分耗费设置装备摆设功能,由于这台负载老设置装备摆设处置并发功能无限,因而该负载下网站都呈现了拜访迟缓题目。

我看了下工夫 17:45,网安部分刘森向我走来,他怀着一种光荣(找到了题目缘由)和一些冤枉(又是投票,这是业务层面事变,不是运维招致的毛病)向我反应细致毛病由来。

等他说完缘由,我问道:“业务影响范畴有多大?后续怎样处理?什么工夫彻底处理?”

关于这些题目,刘森貌似还没预备好怎样答复。

我接着说道:做运维需求熟习业务才干更好地支持业务,基于业务场景的运维是运维代价观的紧张表现。

这个时分,我们老大也走了过去:“题目处理怎样样了?要放松处理,不要保存题目留宿”,老大又说:“发作了这么多题目,你们要从架构体系层面高高在上式地处理题目,而不是每天忙于主动救火”。

我答复道:“好的,我赶忙落实处置歹意刷票题目……”。

老大又说道:“另有,你们要思索怎样晋级转型架构体系,遵照公司战略目的,经过技能创新晋级并引领业务开展”。

关于老大的发起,我如有所思…..不外我照旧先处理当下顺手的刷票题目吧。关于这种歹意刷票景象,许多行业已家常便饭了,思索到投票业务多样性,我们运维处理思绪也有许多方法。

罗列如下:

  • 调解负载平衡流量,将大流量的业务切换到小流量的负载上,或许独自设置装备摆设(软、硬)负载。
  • 运用 IP 地点过滤,经过 CDN、前端防火墙、负载、署理、Lua 等软硬件对歹意 IP 停止过滤。
  • 经过 Session 会话、Cookies 验证来避免歹意刷票。
  • 经过实名制注销、登录验证码等来避免歹意刷票。
  • 把业务搬到私有云上,借助私有云资源来防护歹意刷票,也是一种手腕。

职员离任景象与缘由归纳综合

不知不觉工夫曾经 18:50 了,这时我们值班效劳台 Service Desk 同事打回德律风说(需求二线支持),业务部分反应公布零碎十分迟缓,乃至打不开,图片、JS、CSS 加载迟缓。

但我检查网站功能监控并未告警,从监控来看有些动摇,但貌似没有太分明非常。

这是为什么?这能够是前端或零碎相干题目,我想找王宜核对一下,但刘森说他曾经上班走了。

“他不是在协助你处理平安防护的题目么,怎样没有个里程碑式结论就走人了?”我有些惊讶。

“这个平安事变。。。。。我们待会再商量吧”,刘森无法地说“我如今给王宜打德律风,优先处置业务用户反应题目”。

稍后刘森说:“王宜德律风没人接,您看下步怎样办?”

这时我脑筋里起首一闪念,想起了一个运维长辈已经给我说过“做运维任务,要有高度责任心,不甩锅不背锅”。

我拿起德律风,间接拨通了王宜团队的组员李智的号码。我把题目景象给他描绘了一下。

李智说:“头,这个题目景象有些笼统,我们明天都做过什么变卦么?”

我犹疑了一下,“明天的变卦有许多,不外你先查查前端零碎吧,我再找人查其他关键”。

李智也犹疑了一下“……我能够近来也要变化一下…..”

“你说什么?”我好想没听懂。

“我正想找您说这事……”李智说“我计划离任了……”

“啊?”我没持续说。

“这个转头再说吧……”李智转移了话题“我先处置题目吧”。

我挂下德律风,有种焦头烂额的觉得。我想了想:铁打的营盘,流水的兵,离任倒也是正常景象。

能够离任缘由多种多样,但归结起来,(自创马斯洛需求条理实际)无外乎以下几种诉求得不到满意:生理需求(人为报酬)、平安需求(公司表里情况)、社会需求(文明、交际)、恭敬的需求(人文关心、团队建立)、自我完成的需求(职业开展)、自我逾越的需求(人生开展)。

变卦经历总结

我还在猜测李智的离任缘由,这时王宜德律风打回德律风说方才没听见德律风响。我把题目给他又复述了一遍,他仿佛晓得了什么。

“能够由于批量化操纵,招致前端有组特别的 Ngnix 零碎的 ip tables 设置装备摆设错了”,王宜说:“估量李智不清晰这套零碎情况,以是这事照旧由我来处置吧”。

没过一会,王宜反应说题目处理了。次要缘由是:这组特别的 Ngnix 在负载前面,但由于错误的 ip tables 战略,收到负载恳求则不处置抛弃,因而形成超时 TCP 重传,负载只能再向 Ngnix 分派恳求,云云形成拜访恳求迟缓不波动。

固然题目处理,但我总结经验如下:

  • 只管即便防止变卦,应坚持不行变根底设备。
  • 一次变卦只做一件事,同时做好变卦的记载。
  • 条件容许的话,在做变卦之前先做好测试、应急回退步伐。
  • 做变卦最好有施行者,有复核(共同)职员,有任务互备职员。最好能做到相干职员周知。
  • 变卦最好周五之前做,夜晚做。
  • 运维主动化确实是把双刃剑,没有规范化、流程化的批量主动化能够是劫难。

运维架构体系计划

这时我忽然想起老大的提示,我应该从架构体系的层面梳了解决以后一锅粥似的一系列题目。运维架构体系是运维的根底及中心竞争力。

经过运维体系的构建及美满,使我们的运维做到波动牢靠,精确齐备,标准迷信。

以面向效劳、继续交付为中心,从人、事、物、流程这四个方面把运维体系停止解构,它们相互相互作用,配合构建了一个完好适用的运维体系。

前文已论述了传统运维与互联网运维的差别层面维度的差别,但从另一方面来看,作为运维,照旧有许多配合之处。

这里我将从一个架构高度对待和计划运维,如下图所示:

上面罗列了这四个方面各自的寄义及相干内容:

  • 人:比方美满岗亭职责与职业开展、进步团队技能程度、美满技艺分享与培训、美满团队绩效稽核、标准任务举动标准等。

目标是要建成一支任务高效、技能程度高、勾结波动、有职业素养的运维团队。

  • 事:比方做好一样平常根底运维任务,保证好消费业务运转。不时探究新的运维理念与技能,探究优化零碎架构。

详细可以分为几大块,比方运维流程办理,资源架构计划,应急与毛病处置,监控与优化,平安与防护,项目及一样平常任务等等。

目标是要明确运维做什么准确的事,怎样准确地办事,办事有章法,波动高效能。

  • 物:次要是怎样办理好零碎运维所触及的种种资源。比方机房情况、办公设置装备摆设、效劳器、网络设置装备摆设、操纵零碎、使用软件、东西等种种软硬件资源。

目标要使各种资源设置装备摆设办理妥当,清晰资源属性,晓得从哪来,如今哪,要去哪使得物尽其用,物有所值,安顿妥当。

  • 流程规范:运用流程规范将上述要素(人、事、物)无机地联合,有序迷信地流转、高效波动地运转。

比方资源计划与推销,种种规范标准、项目标准、软硬件设置装备摆设摆设标准、平安制度、任务交代等等。

如下罗列一个平安岗亭运维计划图:

想着想着,不以为已进入深夜,我看下工夫,早晨 22:17 了。繁忙了一天,觉得整个身材被掏空,终于回抵家可以洗把脸睡了。

早晨做起了梦,梦乡不行描绘,我把这个奇葩的梦乡画面贴出来,请读者帮我解梦,说说你们的了解。

运维同理心

这固然是一个梦,但梦倒是真实的表达。作为运维任务者,此中的悲欢离合,谁解此中味?大概谁干谁晓得。

任务繁琐:推销设置装备摆设软硬件,上架贴标签,零碎情况软硬件摆设,统计核实设置装备摆设信息、复核零碎变卦状况,搬家设置装备摆设,调优零碎……云云任务,日复一日,年复一年,会让人觉得无始无终。

鸭梨山大:有句话说的好“操着卖白粉的心,赚着卖白菜的钱。”,运维种种繁琐任务交错一块,在无限工夫、精神和沉重任务状况下,我们倍感鸭梨山大。零碎毛病、上线、调优、晋级、规复等特别情况下,我们的身心都面对着不行描绘的感觉……

设置装备摆设零碎毛病:设置装备摆设零碎,尤其是过保的硬件设置装备摆设,很容易出毛病。机房情况、温湿度,业务的读写频仍度,业务职员蛮横地运用,种种要素都市招致设置装备摆设零碎不测毛病。不测便是不测,每每呈现在不适当的工夫、所在。常常会让运维职员莫名忧郁。

熬夜加班:有没有他人节沐日团聚 Happy,你在苦逼的加班熬夜。有没有他人吃喝畅聊,你在角落里苦逼的近程 VPN,有没有半夜中午向间谍一样起床敲代码,低声细语的频仍打德律风?有没有。。。。。。?横竖我都有。。。。。

IT 消防员:我们便是 IT 消防员,我们的最高地步便是无我地步,各人都很舒适时都想不起来我。一旦想起来我,能够IT情况出题目了。。。。。。我们只要硬着头皮去开头,捐躯我一个,幸福一各人。

背黑锅:运维职员有天生背黑锅的宿命。当你找不出他人的题目时,那就只能背黑锅,大概找出题目,也能够一同背黑锅。任何行业任务都有其冤枉为难的一壁,背黑锅是运维职员成熟历练的必经之路。

我觉得梦里有种逆耳有熟习的铃声响起,不……我忽然醒了,原来是手机响了……..

韩晓光,Devops Master、信息零碎项目办理师、ITIL Foundation、RHCE,著有《零碎运维片面剖析:技能、办理与理论》一书。

【编辑引荐】

  1. Python这么热,运维要不要追逐Python的高潮?
  2. 阿里宣布开源容器技能Pouch和P2P文件分发零碎“蜻蜓”
  3. 通博8888官网运维职员最常用150个下令汇总
  4. 京东大范围数据中央网络运维监控之眼
  5. 嵌入式通博8888官网 Kernel错误跟踪技能
【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0
分享:
各人都在看
猜你喜好

读 书 +更多

通晓正则表达式(第3版)

随着互联网的敏捷开展,简直一切东西软件和顺序言语都支持的正则表达式也变得越来越弱小和易于运用。本书是解说正则表达式的经典之作。本书...

订阅51CTO邮刊

点击这里检查样刊

订阅51CTO邮刊