机房运维工程师是做什么的 什么是运维工程师

作为一个长期的运维岗,我想做点事情帮助大家学习运维 。都是干货,没卖过 。
1.什么是运维工程师?
运营工程师,负责维护和保证整个服务的高可用性,并不断优化系统架构提高部署效率,优化资源利用率,提高整体ROI(百度百科) 。总的来说,我们是园丁,制度是花园 。只有爱护好园内的花草,整个园林才能吸引长期稳定的流量 。
【机房运维工程师是做什么的 什么是运维工程师】二、运维工程师的工作内容
顾名思义,运维工程师的主要内容就是运维 。运维主要是保证一个系统长期稳定的工作 。主要有以下几点:
1.问题发现:当系统出现异常时,需要尽快恢复业务,保证系统的可用性 。在这里,借助监控平台和报警平台,我们可以通过短信和邮件告知自己系统出现故障 。
2.问题处理:设计和开发一些处理工具 。当系统出现故障时,该工具可以快速自动解决这些故障,从而恢复系统 。
3.问题跟踪:通过故障发生时的一些表象(日志、监控、告警)找到问题的根源,找到开发修复的发展,修改配置原因的配置,第三方原因找到第三方 。
4.配置管理:一个系统将有多个模块和版本 。我们可以通过配置管理工具来管理这些不同模块和版本的配置,保证这些配置发布到生产环境后,系统能够正常运行 。
三 。容量要求
我们来看看某招聘网站对运维工程师的岗位要求 。
第一
1.计算机专业,全日制大专以上学历,2年以上相关工作经验;
2.了解Linux系统原理,掌握Linux操作系统常用命令,有Linux常见HA集群故障排除经验(HA Proxy/KeepLived/NGNIX/Apache/Tomcat/Redis等 。);
3.了解Tomcat/Apache/ActiveMQ/Kafka等中间件、Web服务器和消息队列产品;
4.熟悉至少一种Zabbix/Nagios/Catci监控工具,并使用该工具进行初步的问题定位和故障分析;
第二
1.大专以上学历 。2.1年以上Linux操作系统运维经验;3.熟悉linux,docker,以及Tomcat,Mysql,Redis,Nginx,ELK等的安装部署 。4.熟悉常用命令、Shell脚本编程和docker容器的使用;5.熟悉Linux系统高可用性技术、负载均衡、集群等技术解决方案;
第三
1.2年以上系统运维、监控运维等工作经验 。2.精通Linux系统操作 。3.熟悉常用监测测井工具的使用,如Zabbix、Prometheus、ELK等 。有APM使用经验者优先 。4.较强的沟通、协调和语言能力,善于团队合作,工作细致谨慎 。
分为Linux基础、容器、监控工具和数据库 。除了这些,我觉得还需要了解Shell/Python等编程语言和网络知识 。除了技术能力,还要有责任心、细心、主动、安全意识等软素质 。
四 。Linux基金会
Linux基础包括对Linux的整体理解和命令的使用 。
了解Linux:推荐鸟哥的Linux私厨:基础学习 。我个人认为这是一本适合小白的入门书 。
命令:运维中常用的命令一般涉及CPU、设备驱动、DRAM、IP、端口、应用、DB等 。
动词 (verb的缩写)容器
常见的容器有Apache、Tomcat、Nginx、Weblogic、docker等 。我建议可以设置一套当地的环境来练手 。Tomcat在我参与的项目中被广泛使用 。这里推荐鸟哥的Linux私厨:服务器设置 。
不及物动词监控工具
目前有Zabbix,Catci,Nagios,Puppet等 。是常用的 。这个可以根据情况有选择的知道 。我参与过的几个项目使用的监控工具都不一样,基本都是换个药,监控CPU、内存、日志、吞吐量等信息 。
七 。数据库?资料库
常用的数据库有MySQL、Oracle、PgSQL、MSSQL等 。作为运维,不能只是简单的增删查,还要参与安装、巡检、性能调优、备份等 。不同的数据库语法都差不多,记住对应的关键词就行了 。比如查当前时间,MySQL用now,oracle用sysdate 。
八 。程序设计语言
学习编程语言是为了更快地定位和解决系统故障 。比如我曾经参与过一个项目,就是开放服务系统 。当系统向外部网元发送打开指令时,需要外部网元回复成功或失败 。当外网元回复第三种情况(实际回复成功,格式改变)时,我们的系统无法识别 。这时会报错,工单无法完成 。当时我用python写了一个工具,定时扫描出这种工单,模拟通知成功,让工单正常完成 。
九 。网络知识
熟练使用数据包捕获工具tcpdump,fiddler等 。,了解防火墙,IP,端口等 。,并推荐TCP/IP协议的详细解释 。
X.软质量
一个好的运维,软质量是必不可少的 。
责任:意识到自己负责的工作的主人,第一时间响应报警,而不是等着别人来处理;如果你处理不了,尽快同时请求援助 。我对下面兄弟的要求是10分钟回应,30分钟解决,2小时汇报 。运维岗位会有很多工作,尤其是现场运维,但是要记住客户是上帝,客户的问题第一 。可以先回应,再解决 。不要给客户一种你不重视他的感觉 。当问题超过2小时无法解决时,需要向领导汇报,由领导协调售前团队安抚客户,售后团队提供解决方案 。
小心:运维可以直接操作生产环境,你的任何操作都可能造成系统故障,从而影响业务 。所以每次操作前,都要小心翼翼,反复确认 。无论你敲单多快,都会节省一点时间 。一旦出了问题,就会产生持久的影响 。比如2017年某省某项目上线,因为命令敲得快,没有目录确认执行,主备数据全部清空空,导致当地业务中断2小时,手机根本没有信号 。
进取性:运维所需技能广泛,需要不断学习,提升自己 。遇到问题,做好分析和记录 。好的记忆胜过糟糕的书面记忆 。录音也是一个自我提升的过程 。
安全意识:运维的权限非常大,通常包括服务器的root权限,一个api的私钥等等 。对于这些数据,最好加密存储在本地,一定不能存储在网络云盘中 。生产环境高于一切 。
XI 。结束语
以上观点为个人观点 。如有不正确之处,请指正 。接下来的几页,我会详细介绍技术的学习,比如Linux的常用命令,容器的加固等 。,并收集一些与大厂相关的面试问题 。

    推荐阅读