运维体系建设思考-稳定性篇
前言 工作以来一直在做运维平台相关的研发工作,最近计划总结下对运维体系建设的思考,总结出一个通用模型,后续持续迭代,欢迎一起探讨交流。运维的工作主要有三个方向,稳定性、效率、成本,本篇是第一篇,稳定性篇。 下面开始正文 概述 运维工作的核心目标是保障线上业务可以稳定的运行,降低故障发生次……
专注于可观测性、AIOps、云原生、认知科学
分享下最近写的 url 监控 项目 urlooker,监控web服务可用性及访问质量,采用go语言编写,易于安装和二次开发
使用golang开发项目也有一年时间了,也开发了一些web的项目,把项目中一些第三方库抽离出来,整理了一个go web开发脚手架,Toruk主要包括一下几个部分:
上节讲了关于机器指标的采集,本节讲一下业务数据的采集,业务数据其实我们做的主要就是制定规范,告诉用户按照什么样的数据格式上报数据
根据经验,数据格式主要需要下面几个指标
收到数据采集,那我们主要需要哪些数据呢?
上面的数据大致可以分为两类:
采集方式也有两种:push和pull 当agent数量非常庞大时,如果采用pull的方式,server端需要保持大量的链接,非常消耗性能,所以我们采用agent push数据的方式
……从公司产品上线的那一天就开始需要运维,而监控则是运维中重要的一环,那我们想一下,为什么要监控呢,因为要保证线上服务出问题之后或者即将出问题时能立刻感知,此外有些数据我们想知道它的发展趋势。这其实已经道出了监控的最小功能点: 收集信息,进行处理,发出提醒,数据展示
机器数量:n < 5 假如公司的只有一款产品部署在一台机器,那我们只要写一个监控脚本,收集机器的信息和业务指标,再加一些判断,就完事了
……参与开发和维护小米的falcon系统也有挺长时间了,总结一下falcon的一些优点和缺点。如果对falcon不了解,建议先对下这篇文章《open-falcon介绍》
先说下具备的优势: