企业监控平台建设-需求分析篇
前言 工作以来一直在做监控平台相关的工作,最近计划写一系列文章总结下对企业监控平台建设的思考,本文是第一篇 需求分析 产品设计 架构设计 模块设计 运维 运营 下面开始正文 确定目标 在做任何事情的之前,我们要先思考做这件事情的意义和价值。企业为什么需要监控平台呢?公司的首要目标是创造利润,创造利润……
专注于可观测性、AIOps、云原生、认知科学
上节讲了关于机器指标的采集,本节讲一下业务数据的采集,业务数据其实我们做的主要就是制定规范,告诉用户按照什么样的数据格式上报数据
根据经验,数据格式主要需要下面几个指标
收到数据采集,那我们主要需要哪些数据呢?
上面的数据大致可以分为两类:
采集方式也有两种:push和pull 当agent数量非常庞大时,如果采用pull的方式,server端需要保持大量的链接,非常消耗性能,所以我们采用agent push数据的方式
……从公司产品上线的那一天就开始需要运维,而监控则是运维中重要的一环,那我们想一下,为什么要监控呢,因为要保证线上服务出问题之后或者即将出问题时能立刻感知,此外有些数据我们想知道它的发展趋势。这其实已经道出了监控的最小功能点: 收集信息,进行处理,发出提醒,数据展示
机器数量:n < 5 假如公司的只有一款产品部署在一台机器,那我们只要写一个监控脚本,收集机器的信息和业务指标,再加一些判断,就完事了
……参与开发和维护小米的falcon系统也有挺长时间了,总结一下falcon的一些优点和缺点。如果对falcon不了解,建议先对下这篇文章《open-falcon介绍》
先说下具备的优势: