基于Zabbix主动发现机制实现Nacos服务动态监控
基于Zabbix主动发现机制实现Nacos服务动态监控
一、 快速部署Zabbix7.0
使用Docker-compose快速搭建Zabbix7.0监控平台,请参考文档: Zabbix7.0 Docker-compose部署指南
二. Nacos注册中心简介
Nacos(Dynamic Naming and Configuration Service)是阿里巴巴开源的服务注册与配置中心,主要提供两大核心功能:
- 服务发现与管理:实现微服务的注册、发现和健康监测
- 动态配置管理:支持配置信息的集中管理和动态更新
- 服务元数据管理:存储包括服务版本、健康状态等关键信息
作为微服务架构的核心组件,Nacos能有效解决服务拓扑动态变化带来的管理难题。
三、 从Nacos获取服务列表
3.1 服务查询接口
GET http://{nacos_url}/nacos/v1/ns/catalog/services
参数说明:
- namespaceId:命名空间标识
- pageNo:当前页码(支持分页)
- pageSize:每页记录数
3.2 服务发现脚本
创建 nacos_service_discovery.py
实现双模式查询:
#!/usr/bin/python3
import requests
import json
import sys
nacos_url = "http://srebro.cn:8848"
namespace = "base-uat"
page_size = 1000
services_cache = [] # 全局缓存提升性能
def get_all_services():
global services_cache
if services_cache:
return services_cache
services = []
page_no = 1
while True:
url = f"{nacos_url}/nacos/v1/ns/catalog/services?namespaceId={namespace}&pageNo={page_no}&pageSize={page_size}"
try:
resp = requests.get(url, timeout=10)
resp.raise_for_status()
data = resp.json()
services.extend(data['serviceList'])
if len(services) >= data.get('count', 0):
break
page_no += 1
except Exception as e:
print(f"Error: {e}")
break
services_cache = services
return services
def main():
if len(sys.argv) > 1:
service_name = sys.argv[1]
for service in get_all_services():
if service["name"] == service_name:
print(service.get("healthyInstanceCount", 0))
return
print(0)
return
discovery = {"data": []}
for service in get_all_services():
discovery["data"].append({
"{#SERVICE_NAME}": service["name"],
"{#HEALTHY_COUNT}": service.get("healthyInstanceCount", 0)
})
print(json.dumps(discovery))
if __name__ == "__main__":
main()
3.3 脚本执行模式
- 自动发现模式(无参数):
$ python3 nacos_service_discovery.py
{
"data":[
{
"{#SERVICE_NAME}":"srebro-app-alarm",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-oss",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-sys",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-meta",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-message",
"{#HEALTHY_COUNT}":2
},
{
"{#SERVICE_NAME}":"srebro-uc",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-org",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-workflow",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-platform-iot-master",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-app-risk",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-job",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-export",
"{#HEALTHY_COUNT}":1
},
{
"{#SERVICE_NAME}":"srebro-gateway",
"{#HEALTHY_COUNT}":1
}
]
}
- 健康实例查询(带服务名参数):
$ python3 nacos_service_discovery.py srebro-app-alarm
1
四、 Zabbix-agent 客户端配置
在 zabbix_agentd.conf
中添加自定义监控项:【允许自定义KEY ,千万不能忘记 UnsafeUserParameters=1】
# 服务自动发现
UserParameter=nacos.enhanced.discovery,/usr/local/zabbix/bin/nacos_service_discovery.py
# 健康实例数查询
UserParameter=nacos.health.current[*],/usr/local/zabbix/bin/nacos_service_discovery.py "$1"
重启 zabbix-agent
服务
systemctl restart zabbix-agent
测试使用 zabbix-get
获取数据
[root@localhost bin]# /usr/local/zabbix/bin/zabbix_get -s 172.22.33.201 -k "nacos.health.current[srebro-message]"
2
五、 Zabbix模板配置
5.1 创建模板
属性 | 值 |
---|---|
模板名称 | Nacos Services Health Monitor |
模板组 | Templates |
5.2 配置自动发现规则
参数 | 配置值 |
---|---|
名称 | Discover Services with Healthy Count |
类型 | Zabbix客户端主动式 |
键值 | nacos.enhanced.discovery |
更新间隔 | 1h |
5.3 创建监控项原型
监控项原型配置项:
参数 | 配置值 |
---|---|
名称 | Health instances of {#SERVICE_NAME} |
类型 | Zabbix客户端主动式 |
键值 | nacos.health.current["{#SERVICE_NAME}"] |
信息类型 | 数字(无正负) |
更新间隔 | 1m |
5.4 创建触发器原型
触发器配置参数:
参数 | 配置值 |
---|---|
名称 | 服务 {#SERVICE_NAME} 实例数 < 1 |
表达式 | last(/Nacos Services Health Monitor/nacos.health.current["{#SERVICE_NAME}"])<1 |
严重性 | 灾难 |
描述 | 服务 {#SERVICE_NAME} 健康实例数降为0,可能导致服务不可用 |
六. 监控数据验证
通过 监测 → 最新数据
查看监控数据:
七、扩展建议
- 报警升级:配置连续报警机制,防止偶发误报
- 数据可视化:创建聚合仪表盘展示核心服务健康状态
- 日志追踪:结合ELK日志平台的异常日志关联分析
- 感谢你赐予我前进的力量
赞赏者名单
因为你们的支持让我意识到写文章的价值🙏
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 运维小弟
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果