夜莺初探-二·功能介绍

发布时间 2023-04-17 00:35:26作者: 5432

夜莺初探-二·功能介绍

前言

前一篇我们搭建了夜莺监控v6,这篇主要介绍v6使用。

登陆

通过浏览器我们登陆上夜莺系统,用户名root,密码root.2020,登录后自行修改密码。

添加数据源

此时基础设施-机器列表应该可以看到我们上篇部署Categraf的机器了,为了能在页面上看到采集的数据,还需要去配置数据源(系统配置-数据源),我们上篇用的是VM(victoria-metrics),所以选择添加Prometheus Like

名称为 xxxVM

URL为vm的地址 http://localhost:8428

write_addr为vm远程写地址http://localhost:8428/api/v1/write

write_addr就是用于推送数据给TSDB。n9e和Prometheus一样支持记录规则(recording rules),对于仪表板特别有用,通过记录规则,预先把经常需要或者计算量大的表达式的结果保存下来查询用

关联告警引擎集群为 default

时序指标-即时查询

保存数据源后就可以通过时序指标-即时查询来确认下采集的数据,例如cpu_usage_idle,mem_free等等,也能通过仪表盘去查看,导入内置仪表盘的模版(Linux Host by Categraf)也能看到数据

时序指标-记录规则

通过时序指标-记录规则可以主动添加记录规则,提前计算指标入库,其他使用地方改为引用这个提前计算值,从而减轻时序库压力。新增完成后新的指标就会按照设置的频率计算指标值保存到时序库。
和仪表盘场景类似,用记录规则也能解决多个告警规则用到相同计算指标的问题。

记录规则主要是为了减少时序库计算压力的而设置的一种规则。最常见实用场景就是仪表盘中,当不同用户需同时查看时序库相同计算指标值,会引起重复计算问题,导致时序库压力倍增。

日志分析-即时查询

添加es数据源后,可以通过日志分析-即时查询对日志进行查询

链路追踪-即时查询

添加yaeger数据源后,可以通过链路追踪-即时查询对调用整体情况以及单次调用进行追踪还能用生成调用拓扑图链路追踪-拓扑分析

基础设施-机器列表

除了上面三种数据源的监控,基础设施-机器列表里能查看到管理的机器。上篇构建的环境中通过Categraf把采集数据推送给n9e,n9e再转发给TSDB,这样做的好处是让机器能出现在这里的对象列表中,主要好处是:

  1. 绑定标签,把标签赋值给时序数据,方便web端查看;
  2. 绑定业务组,做权限限制,特定业务组成员才能去执行告警自愈功能的脚本;
  3. 告警管理-告警规则中规则配置,可以限制仅在当前业务组生效,或者用标签过滤,减少非关注告警干扰。

仪表盘-监控仪表盘

这里就是我们查看可视化数据的地方,一开始接触我们如果不熟悉有哪些指标,夜莺提供了很多内置的大盘配置仪表盘-内置仪表盘

告警管理-告警规则

介绍完采集数据管理和展示的部分,接下来的就是另一个重要的部分告警,和仪表盘类似我们不熟悉情况下可以先选取告警管理-内置规则做模版来使用告警功能。
告警规则设置中我们可以看到基础配置中有个附加标签的配置,其目的主要是用于后续告警屏蔽和告警订阅,通过这个标签来过滤告警。

规则配置由两种类型Metric和Host。

  1. Metric配置的是指标数值的告警,可以配置同一个指标的多个规则,例如内存剩余小于50是触发二级告警,剩余小于20触发一级告警,通过启用级别抑制只发生最高级别高级,减少重复触发的告警发送。
  2. Host配置的是机器类型告警,告警条件目前提供了机器失联(失联时间),机器集群失联(失联比例)和机器时间偏移(时间戳偏移量),需要告警的机器可选筛选全部,按业务组,按标签或者机器标识。

通知配置中需要注意的就是回调地址配置,一个很常见的使用场景就是故障自愈,告警发生后通过回调地址发送消息给故障自愈平台,例如磁盘满了,故障自愈收到消息后执行清理对应磁盘的操作或者就是对接企业内部的通知媒介。

告警管理-屏蔽规则

告警屏蔽使用的场景是已知将来一段时间会一直存在触发告警的条件(正在解决告警中,服务变更期间),我们可以设置一定时间内不用再重复发送告警。

告警管理-订阅规则

订阅规则能力是提供关注特定服务变更的用户,用于接收告警消息,常用于不同团队来处理告警或者告警升级场景。

告警管理-活跃告警

还处于异常状态的告警信息可以通过告警管理-活跃告警查看,还提供了告警管理-历史告警可以看到告警快照。

告警自愈-自愈脚本

夜莺提供了故障自愈能力,可以配合上面告警规则中回调地址的配置实现执行自愈脚本。

人员组织-用户管理

提供了丰富的管理维护功能,有用户管理,团队管理,业务组管理,权限管理。

最后感谢看完,由于作者水平有限,使用很多工具并不熟悉,如有错误和遗漏欢迎指出,感谢谅解。

参考资料:

https://www.cnblogs.com/gschain/p/11697293.html