不止于监控,夜莺 V6 全新升级为开源观测平台


不止于监控,夜莺 V6 来了!今天我们郑重发布夜莺 6.0 beta 版本,全面支持 Metrics、Logging、Tracing,向着构建开源、开放、完整的可观测性解决方案迈进。您可以借助夜莺 V6,接入和管理 Prometheus、ElasticSearch、Jaeger 多种数据源,实现数据的统一可视化、告警和分析。

🚀 可以在页面管理数据源了

无需修改配置文件里的Clusters配置了,直接在页面就可以管理了。除了兼容 Prometheus 查询协议的数据源,也支持 Jaeger 和 ElasticSearch 作为数据源接入。

🚀 可以接入 ElasticSearch 数据源了

类似 Grafana 的配置体验,可以接入已有的 ElasticSearch 数据源,自然的,就可以在夜莺里查看 ElasticSearch 的数据了,监控大盘的图表数据也可以从 ElasticSearch 获取。

🚀 可以接入 Jaeger 数据源查看链路数据了

Jaeger 在 CNCF 蓝图中,是链路追踪的佼佼者,所以我们首先支持了 Jaeger,目前做到的效果是可以在夜莺里查看 Trace 甘特图和拓扑依赖。

现在这个版本,可以把 metrics、logging、tracing 的数据都做到可视化了,只是数据串联方面还差一些,后续版本继续迭代优化,万里长征先走了一步。

🚀 架构做了简化

Nightingale 5.x 的版本,至少需要 n9e-webapi 和 n9e-server 两个模块,6.x 开始默认只需要一个模块了,就叫 n9e。我们先来回顾一下 5.x 的架构:

假设两个集群,Region01是中心机房,部署了一整套夜莺,Region02和Region01的网络链路不好,所以Region02单独搞了一套 TSDB,n9e-server 跟随 TSDB,所以 Region02 也部署了一套 n9e-server。图上其实少画了 Redis,n9e-webapi 和 n9e-server 都依赖 Redis,可以全局用一个 Redis,也可以每套 n9e-server 部署自己的 Redis。

6.x 版本把 webapi、pushgateway、alerting 模块合并成一个n9e模块了,这个模块可以对接多个数据源,n9e模块也可以部署多个实例组成集群,架构上变简单了。

当然,如果某个机房和中心机房之间网络链路不好,想在这个边远的机房下沉部署一套时序库+告警引擎,也是OK的。除了 n9e 模块,我们也单独提供了 n9e-pushgw(数据转发网关) 和 n9e-alert(告警引擎),这俩模块是可选的,平时都用不到,只是应对边远机房网络链路不好的情况。

🚀 可维护性提升

除了架构方面做了简化,降低了维护复杂度,很多配置也挪到页面上管理了。比如单点登录相关的配置、告警发送模板相关的配置:

角色管理也挪到页面上了,不用像 5.x 的版本那样,只能通过修改数据库创建新的角色了。

🚀 增加了内置监控大盘

5.x 的版本其实就有内置监控大盘,但是必须把内置监控大盘导入到自己的业务组使用。6.x 开始,提供了内置大盘的浏览页面,可以不用导入自己的业务组直接使用。

欢迎夜莺社区的小伙伴一起共建共创,把内置监控大盘搞的多多的,为社区建设添砖加瓦,功在当代利在千秋!

🚀 增加了内置告警规则

同理,也内置了各类组件的告警规则,极大的增加了便利性。当然了,我们也非全能,期待社区小伙伴一起共建共创,把内置告警规则也搞的多多的,如果不知道如何贡献,可以联系我们 🤝

🚀 继续优化了告警规则

附加标签支持变量了,于是,我们可以对告警的vector的标签做一些二次处理。

对于机器失联告警、机器时间偏移做了更好的实现。废弃了原本的 target_up 指标的生成逻辑,在告警规则里直接内置支持了机器失联告警和时间偏移告警,甚至,额外增加了机器失联比例告警。

阈值告警也做了优化,一个告警策略里可以配置多个规则,指定不同的级别,而且支持级别抑制,高级别的告警抑制低级别的告警。

商业版本则更加强大,不止支持普通的阈值告警,还支持算法告警引擎、SLS告警引擎等。如有需要欢迎 联系我们,做产品交流、试用产品,合作共赢 :)

顺便介绍一下告警规则的多时间段配置,其实 5.15 版本就支持了,但是很多人不知道,借此机会也一并说一下。这个功能是社区提出的,对于一些特定的场景非常有用。

🚀 继续优化了屏蔽规则

增加了大家心心念念的周期性屏蔽,惊不惊喜意不意外?看图就知道这个是啥意思了,我就不详细解释了。有没有感觉开源夜莺的一些功能已经比很多商业软件做的都好了 😎

🚀 继续优化了订阅规则

订阅规则引入了“订阅事件持续时长超过(秒)”的配置,这个功能很酷,一定程度上可以实现告警升级的功能,不过相比完备的告警升级,还是差点意思,没有认领、排班之类的功能,如果想建立统一的告警事件中心,接收各类监控系统的告警事件,统一做告警降噪、认领、升级、排班、协同等功能,请使用我们的 FlashDuty,FlashDuty是SaaS版本的OnCall中心,有免费套餐可用~

另外,订阅规则可以重新定义回调地址,可以对一些特定的告警事件做自动化处理,比如把特定的告警事件发给FlashDuty~~

🚀 夜莺开源社区发展和治理

夜莺监控,于2022 年 5 月 11 日,正式托管于中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。在计算机学会的支持和带动下,在快猫星云和众多公司的持续投入下,和数千名社区用户的积极参与,截止当前,夜莺开源项目在 Github 上获得了 6K star,1K fork,近 100 位 Contributor,夜莺开源社区展现出了蓬勃的生机。

夜莺 V6,是夜莺监控往全栈可观测性解决方案迈进的关键一步,是夜莺项目管理委员会和夜莺开源社区共同努力的成果。

🚀 夜莺开源项目大事记

  1. 2020 年 3 月,夜莺监控由滴滴技术正式在 Github 开源,凭借其优秀的产品设计、灵活性架构和明确清晰的定位,夜莺监控快速发展为国内最活跃的企业级云原生监控方案。
  2. 2022 年 5 月 11 日,夜莺监控正式捐赠予中国计算机学会开源发展委员会 CCF ODC,为 CCF ODC 成立后接受捐赠的第一个开源项目。
  3. 2022 年 8 月 1 日,发布夜莺监控开源社区治理架构,并公示相关的任命和社区荣誉。
  4. 2023 年 3 月 9 日,夜莺 V6 全新发布,夜莺监控升级为开源观测平台。

🚀 交流和联系

V6 beta 版本,欢迎各位小伙伴安装试用 👉 部署指南 👈 可观测性这个事,我们是认真的!


相關推薦

2023-08-08

项目在2023.7月底发布了V6版本,这个版本开始,项目目标不止于做一款开源监控系统,而是要做一款开源可观测性平台,不过路漫漫其修远兮,初期只是把日志数据源引入并完成了基本的可视化,后续会着力打通指标和日志的数

2023-08-29

家好,夜莺项目发布 v6.1.0 版本,这是一个中版本迭代,不止是 bugfix 了,而是引入了既有功能的增强。具体增强了什么功能,下面一一介绍。 1. 增强可观测性数据串联 从 v6.1.0 开始,对日志索引模式做了增强,支持设置某个

2023-08-22

。夜莺采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,融入了顶级互联网公司可观测性最佳实践,沉淀了众多社区专家经验,开箱即用。 github地址:https://github.com/ccfos/nig

2023-04-09

,可以和 Prometheus、VictoriaMetrics 等无缝集成 正在尝试从监控系统往观测平台发展,引入了 metrics、logging、tracing 数据源管理,争取未来真正做到 all-in-one,做到良好的数据串联 夜莺项目共计 95 contributors,6000+ stargazers,100+ rele

2023-04-16

What’s Changed feat: 监控大盘 Elasticsearch 源卡片查询条件支持 sortBy 配置 refactor: 新增大盘迁移工具页面,从 ga.4 开始大盘详情页面去除了右上角全局的 Prometheus 集群切换,可通过数据源变量来实现全局切换数据源。新增的大盘

2023-04-29

置是否显示指标值和设置单位、小数位数 @masterjyq feat: 监控大盘变量新增别名设置 feat: 支持机器自动分组,在 categraf config.toml 的 heartbeat url 后面加上 ?gid=x 就可以根据业务组 ID 自动分组了 feat: 机器列表增加心跳时

2022-02-16

少有一个rw权限的团队管理员可以看到所有团队列表,而不止是看到自己所属的团队,防止团队成员全部离职没有人再来管理这个团队的情况优化了大盘更新逻辑、一键规整逻辑、大盘变量在一条promql中重复出现没有replace的问题

2023-10-14

大家好,夜莺项目发布 v6.3.0 版本,新增 Loki 和 TDEngine 数据源支持,并持续优化部署体验,本文为大家简要介绍一下相关更新内容。 Loki、TDEngine 数据源支持 实际上,从 v6.2.0 开始,就支持了这俩数据源,不过还有些小瑕疵,

2023-07-13

ermant Agent健康状态,包括进程内任何异常情况,通过自带监控服务,一屏了然。 2.基于路由规则模型统一和链路染色:基于统一规则,支持各类复杂场景的流量治理,如全链路灰度发布,压测流量Mock,同机房调用路由等。 3.系

2023-08-06

的 Pigsty Yum 源,并支持了国产信创操作系统统信UOS20。 监控系统重制:视觉配色 Pigsty v2.2 中,对监控面板进行了彻底的重制,充分利用 Grafana v10 的新特性,为用户带来耳目一新的可视化体验。 最直观的变化是色彩。Pigsty v2.2&

2022-09-08

盘 如图 5 所示为接入 KubeVela 的 Kubernetes API Sserver 服务的监控大盘。通过插件向所有子集群下发 Exporter,将数据向各集群的 Prometheus 服务暴露,然后汇聚到管控集群进行集中可视化。花一份时间完成 N 个集群的监控数据和大盘接

2023-06-21

新一代云原生大数据管家,致力于快速实现部署、管理、监控以及自动化运维大数据云原生平台,帮助用户快速构建起稳定、高效、自愈、可弹性伸缩的大数据云原生平台。 DataSophon 兼容复杂环境,得益于自身良好的架构设计

2022-11-08

行流程 Grafana Labs 表示,过去开发者可以使用 Grafana 来监控基础设施,并使用 OpenTelemetry 来监控 API,但是前端应用程序缺乏监控解决方案,因此开发者无法掌握终端用户的实际使用状况,现在 Faro 填补了这个空缺。 Faro 还提

2023-10-09

); 6. [H5端] 重新设计了Demo的登录界面; 7. [服务端] 升级amqp-client库至5.x版; 8. [服务端] 解决桥接模式下MQ断线自动恢复时消费者Chennal未主动清理,导致channel越来越多的问题(无消费者与其关联的空channel): 9. [Android]