凤凰网:基于服务树的监控系统实践

《凤凰网:基于服务树的监控系统实践》要点:
本文介绍了凤凰网:基于服务树的监控系统实践,希望对您有用。如果有疑问,可以联系我们。

凤凰网

作者介绍

kun:凤凰网运维开发,负责公司运维自动化平台设计开发,InfluxDB contributer、open-falcon contributer 、golang爱好者.

一、传统监控系统的困扰

说到监控,大家肯定能列举不少,zabbix、nagios、open-falcon、Prometheus等.凤凰网和其他大多数互联网公司一样,一开始选择了开源的zabbix来做为公司的监控系统.就这样,相安无事,多年过去了.随着公司服务器的不断增长,我们遇到了一些难题:

  1. 当服务器量级达到3000左右时,监控数据存储和查询遇到瓶颈.
  2. 业务上报监控系统不方便,没有相应的接口或SDK.
  3. zabbix中的组概念没有层次和依赖关系,不利于服务治理.
  4. 一些定制化的监控需求难以满足(集群监控等).

相信第一个问题很多体量稍大的公司都遇到过,大家用得最多的一个解决方案是拆分zabbix,部署多套来分担压力.但是后端查询过慢的问题没有从根本上解决,而且增加了维护成本,考虑到zabbix后端是c语言写的,二次开发有一定难度,于是我们打算自己造个轮子.

二、自建监控系统需求分析

2.1关于服务树

先简单介绍下几个概念:

服务树:某些公司为了方便管理服务集群,利用树形结构建立起了一种服务组织关系,方便集群          服务治理,以服务集群节点为管理单元,而不是某台机器.

Open-Falcon:是小米开源的一套分布式高性能监控系统,支持服务树管理.

有人可能会问,你们为什么不直接用开源的 open-falcon,不得不承认,open-falcon 的某些设计还是非常不错的,我们也从中学习了很多思路.但是由于小米公司当时没有开源出结合监控的服务树,我们不得不自己设计一套适合自己,也可能适合你的服务树.

基于服务树,我们可以更方便的管理自己的服务,服务树是整个监控系统的基础服务,后来我们开发的发布系统也是基于服务树实现的.基于 golang 的运维友好性和高性能,整个服务树是用 golang 实现的,对于新手来说,上手难度也不高.服务树架构图如下:

监控系统

服务树架构图

2.2关于高可用

考虑到服务树(service registry)组件的重要性,架构上一定是高可用的,于是我们底层数据存储 store 层多实例是基于 raft 算法保证数据一致性的,最底层是用了 boltDB 来存储服务树的数据,另外为了提高服务树的读性能我们还为 store 层添加了支持 lru 算法的 cache 模块,cache 结构体如下:

// Cache implements a non-thread safe fixed size LRU cache. type Cache struct {    mu        sync.RWMutex    count     int    evictList *list.List    items     map[string]map[string]*list.Element    size    uint64    maxSize uint64    enable bool    logger *log.Logger }

在启动服务树的时候,我们可以指定服务树开启的内存大小,现在我们开启了 50M,效果还是非常不错的.

2.3关于扩展性

如果你启动了 3 个实例,正常情况下 raft 底层是有一个 leader 和两个 follower 的,写操作必须落在 leader 上才能成功,很多开源软件也都是这样的,但是这样服务树就有状态了,对于用户提交数据不是特别友好.

于是我们在 cluster 这一层会做判断,如果进来一个写操作,直接尝试本机,如果失败了,再把请求转发到 leader 上,底层帮助用户做数据转发,这样用户不用关心那个是 leader,3台对他来说是一样的,前端加个负载均衡可以随便接受请求了.

在这里我们底层还做了一些工作,就是把 cluster 监听的 TCP 端口和 raft 数据同步的端口复用,这样,用户的配置也就精简了.

另外服务器可以根据一定策略自动注册到服务树上的某个服务节点当中,机器,报警,权限在服务中都是一种资源,这种资源都有增删改查的操作,对于服务树来说这些没有什么区别,只是人定义了它,服务树中一切皆资源,后期扩展极为方便.

2.4关于性能

zabbix 很大的一个问题就是用结构型数据库来存储了时序性数据.考虑到整个监控系统的配置数据和监控指标数据是有不同特点的:

  • 配置数据:量小、读取频繁、可用性要求高
  • 监控数据:量大、读取冷热分明、可用性要求高

可以考虑把监控配置数据抽象城资源存储到服务树中,保证数据可用性,而对于监控指标数据可以存储到时序性数据库当中,开源的有 OpenTSDB、InfluxDB、Prometheus等.

2.5关于业务数据上报

业务上有越来越多上报打点需求,我们可以考虑从 agent 端开放出接口,把业务上报的数据作为普通数据一起打包入库,这样也复用了监控系统数据传递的整条链路,同时降低了系统维护难度.对于一些标准的基础服务采集,我们采用插件的方式来实现,在 zabbix 中叫模板,比如 nginx 的一些指标,mysql 的一些指标等.

三、自建监控系统构建

设计需求分析完了,关于凤凰网的监控架构,我们先上架构图:

监控系统

3.1系统数据流

服务器通过拉取服务树的用户配置采集策略,通过部署的agent进行监控数据采集上报,每个IDC内部会有一个消息队列防止公网传输延迟或丢数据,数据会进入消息队列,然后会有router模块负责把数据写入到InfluxDB中.

由于InfluxDB已经闭源了集群功能,为了保证后端数据的高可用,我们通过router进行多写.受限于大量的写入请求,我们通过router对后端InfluxDB做了分片,这样当后端某个db出问题时,不至于影响其他服务数据写入和报警.

报警我们用了开源的kapacitor,为了提高用户易用性,我们围绕它做了一些改进,也在支持了监控指标的无值监控.

3.2各模块功能

  • agent:采集服务器上的各种资源监控指标
  • registry:服务树,管理各种采集,报警策略
  • MQ:消息队列,负责数据缓冲和容错
  • router:后端数据的读写入口,负责数据分片和多写
  • InfluxDB:开源的时序数据库
  • Alarm:报警组件,负责向各渠道下发报警消息,报警屏蔽和报警收敛等

3.3为什么选择InfluxDB

InfluxDB是一个时序数据库,为时序数据而生,它新版的TSM存储引擎性能非常好,数据压缩做的非常好.

举个例子,2000台左右服务器,100天数据占用400G空间.面对10s级别的上报采集频率,这个成绩是非常不错的.

目前,监控系统大部分监控项是10秒级的上报粒度,InfluxDB的每秒写入5w.每天入库的数据点10亿.

四、Highlight

agent原生支持Windows,开源社区支持linux做的比较好,但是我们公司有些微软的服务(exchange)是windows服务器,于是我们做了很多工作来原生支持win系统,

Highlight

支持windows的相关源文件

支持第三方打点上报,方便开发接入监控系统,我认为这个已经是现在监控系统的标配了.

凤凰网:基于服务树的监控系统实践

监控上报

插件库支持丰富,得益于开源社区,支持插件监控,拥有完善的插件库

凤凰网:基于服务树的监控系统实践

相关插件

更优化的图像展示速度,在长时间跨度查询的时候能够做到快速展示,支持grafana展示 (原生支持)

凤凰网:基于服务树的监控系统实践

仪表板显示

支持自动注册,服务器根据主机名自动注册到服务树相应节点,根据节点的配置自动采集和报警

凤凰网:基于服务树的监控系统实践

新节点注册

更优化的agnet,agnet的安全性和性能是我们非常关注的问题,我们尽可能降低agent的资源消耗(mem.used<30MB cpu.used<1%),为此我们还砍了一些采集项.

agnet

内存占用率

CPU

CPU占用率

支持分级报警,方便值班人员看到正在发生的报警,每个报警持续的时长,以及是否恢复.

凤凰网:基于服务树的监控系统实践

报警DashBord

灵活的机器管理,你可以看到当前机器有无报警,机器状态是否online,如果机器维护可以随时设置为维护状态,屏蔽这台机器的所有报警,专注于处理问题.

凤凰网:基于服务树的监控系统实践

机器管理

五、展望

回到文章开头遇到的问题,我们借助于现有的开源时序数据库,大量监控数据的写入和读取已经不是问题了.

服务树的出现可以更好的帮助运维人员管理自己的服务集群,同时我们在 agent 端开启了一个 unix domain socket 用于本机的业务上报,这是一个异步接口,不会阻塞请求,甚至可以把监控平台看成是一个开放的消息总线,通过这个上报接口,给了自己和他人一个无限可能.

未来的监控系统肯定会更加智能,这也是最近比较火的“AIOPS”的一部分,运维监控系统拥有大量的监控原始数据却没能发挥它的价值,通过分析这部分数据我们可以挖掘很多潜在的有价值的信息,从而降低运维成本,提高运维效率,这部分数据甚至可以通过人工标注后进行机器学习,这样监控系统就可以不用设置报警策略来进行报警了.

机器学习、人工智能的盛行给运维工作带来更多畅想和变革,这也是我们正在努力的方向.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


起步 处理器架构,参考 x86是指intel的开发的一种32位指令集 intel和amd早期的cpu都支持这种指令集 AMD比Intel率先制造出了商用的兼容x86的CPU,AMD称之为AMD64 Intel选择了设计一种不兼容x86的全新64为指令集,称之为IA-64,后来支持AMD64的指令集,
pscp pscp -P 22 C:\work\test.txt root@192.168.1.5:/home/data pscp -P 22 root@192.168.1.5:/home/data/test.txt C://work// 检索 find / -name default.config
文件处理 ls -a # 显示所有文件 ls -l # 显示详细信息 ls -d # 显示路径 mkdir /目录名称 # 创建目录 cd /目录名称 # 切换目录 pwd # 显示当前路径 rmdir /目录名称 # 删除目录 cp -rp [目录名称] [目标目录] # 复制目录到目标目录 cp
准备一台电脑(我就用联想拯救者r7000演示) 参考博客制作启动盘 插上U盘,启动电脑,一直按F2 进入如下页面后,将U盘设置为第一启动项,点击exit,保存并退出 之后进入如下页面,选择第三项 进入如下页面,选择第四项 进入如下页面,选择第一项,选中后,先不要点Enter 按e键,将inst.st
认识 Linux系统是参考了UNIX系统作为模板开发的,但没有使用UNIX的代码;是UNIX的一种,但不是衍生版 在Linux内核的基础上开发是发行版 分区 逻辑分区永远从5开始 步骤 挂载:可理解为分配盘符,挂载点即是盘符名;不同之处:Linux中是以空目录名称作为盘符 Hda 第一块硬盘 Hda
文件处理命令 以 . 开头的文件是隐藏文件 以 - 开头表示这是一个文件 以 d 开头表示是一个目录 以 l 开头表示是一个软链接 第一个root是所有者,第二个root是所属组 ls -h 以文件默认大小后缀 显示 ls -i 查看i节点(唯一标识) 所有者:只能有一个,可变更 所属组:只能有一个
参考 01 02 03 前提环境 本地安装VirtualBox,并安装CentOS8,配置网络后,window系统上putty能连接到CentOS8服务器 配置步骤 右键服务器复制 启动复制后的服务器,查看ip和hostname发现和原来的服务器一样,需要修改 hostname # 查看主机名 vi
文件搜索命令 星号匹配任意字符,问号匹配任意单个字符 -iname 根据文件名查找且不区分大小写 -ok 命名会有一个询问的步骤 如果没有找到指定文件,可输入命令:updatedb 更新文件资料库;除tmp目录不在文件资料库收录范围之内 locate -i 文件名 # 检索时不区分大小写 which
安装环境 安装最新版的Virtual Box,点击安装 下载centos8镜像 创建虚拟机,可参考 选择下载到本地的镜像 设置启动顺序 点击启动 启动过程中报错:“FATAL:No bootable medium found!” 1.没有选择iso镜像 2.光驱没有排在第一位置 3.镜像只能选择x8
Linux严格区分大小写 所有内容文件形式保存,包括硬件 Linux不靠扩展名区分文件类型 挂载:将设备文件名和挂载点(盘符)连接的过程 Linux各个目录的作用 bin表示二进制 服务器注意事项 远程服务器不允许关机,只能重启 重启时应该关闭服务 不要在服务器访问高峰运行高负载命令 远程配置防火墙
IDE连接Linux,上传下载文件 参考1 参考2 连接Linux 上传下载文件 本地项目打包后上传 查看是否上传成功,右键下载 补充 后端项目开发完成后,需clean掉临时文件target文件夹,且只推送修改过的文件 前端项目开发的过程中,需要在每个子组件中使用scoped,确保每个子组件中的编码
起步 LTS与普通版本的区别 LTS版本的发布周期更长,更加稳定 安装jdk sudo mkdir /usr/lib/jvm # 在Ubuntu中创建目录 pscp D:\安装包\linux源码包\jdk-8u291-linux-x64.tar.gz chnq@192.168.0.102:/tmp
前言 最近在b站上看了兄弟连老师的Linux教程,非常适合入门:https://www.bilibili.com/video/BV1mW411i7Qf 看完后就自己来试着玩下,正好手上有台空闲的电脑就尝试不使用虚拟机的方式安装Linux系统 安装步骤 制作启动盘 下载ISO镜像,我这里下载的是Cen
新建虚拟电脑 设置内存和处理器 设置硬盘大小 完成 设置 查看光驱 设置启动顺序 点击启动 选择第1项 进入图形安装界面 选择安装位置,开始安装 设置root密码 重启 登录 查看本地文件夹 配置网络,点击设置 查看宿主机ip C:\Users\ychen λ ipconfig 无线局域网适配器 W
源码包安装需手动下载后安装 二进制包则在package目录下 rpm命令管理rpm包 若某个rpm包依赖于某个模块,需要到网站www.rpmfind.net查询该模块依赖的包,安装这个包后自动安装模块,之后就能安装rpm包了 安装升级时使用包全名 查询卸载时使用包名 虚拟机中的Linux系统安装rp
首先进入命令模式,再输入以下命令 命令模式用于输入命令 插入模式可对文件编写操作 编辑模式下的命令是在冒号后输入 :12, 15d # 删除指定范围的行,这里是删除12到15行 :n1,n2s/old/new/g ## 表示从n1行到n2行,old表示旧的字符串 vim使用小技巧:自定义快捷键,如快
使用源码包安装,需要自己指定安装位置,通常是 /usr/local/软件名/ linux中要想启动执行文件,应使用绝对路径 /绝对路径/rpm包名 start ## 执行方式一 service rpm包名 start ## 执行方式二 使用源码包安装后,由于自定义安装路径,就不能使用service命
网络命令 在收邮件的用户中,输入 mail 可查看邮件信息,输入序列号查看详细信息 在mail命令下,输入h 查看所有邮件的列表 输入:d 序列号 # 删除邮件 last # 统计所有用户登录或重启时间,用于日志查询 lastlog # 显示包括未登录用户的登录时间 lastlog -u 用户id
若要使用yum管理,必须能连接网络,首先配置网络IP 进入yum源文件中启动容器 使用yum源头安装rpm包不需要进入package路径,同时也不需要使用包全名,会有yum自动管理 安装软件组
简介 client即是本机安装的docker,相当于git Docker_host相当于centos系统 registry则是docker仓库,相当于GitHub 镜像用于创建docker容器,一个镜像可以创建多个docker容器 容器是由镜像创建的运行实例,(镜像相当于类,容器相当于类创建的对象)