夜莺v6监控系统实战：Categraf数据采集与VictoriaMetrics存储配置详解-尧图手机网站定制

1. 开篇为什么选择夜莺v6 Categraf VictoriaMetrics如果你正在为团队搭建一套稳定、易用且功能强大的监控系统那么夜莺v6、Categraf和VictoriaMetrics这个组合绝对值得你花时间深入了解。我最早接触这个组合是在一个需要快速搭建混合云监控的项目里当时被Prometheus的运维复杂度和存储成本搞得有点头疼尝试了这套方案后发现它确实能解决很多实际问题。简单来说你可以把这三者想象成一个高效的监控流水线Categraf是遍布在各个服务器、容器、中间件上的“传感器”负责采集一切你关心的数据VictoriaMetrics是一个性能强悍、存储成本低廉的“超级仓库”专门存放这些时间序列数据而夜莺v6则是整个系统的“大脑”和“控制中心”它负责把仓库里的数据以直观的图表展示出来并根据你设定的规则在异常发生时第一时间发出告警。这套方案有几个让我特别心动的优点首先是“开箱即用”夜莺自带了大量针对Linux主机、MySQL、Redis等常见对象的仪表盘和告警规则模板省去了从零画图、写规则的麻烦。其次是性能与成本平衡得好VictoriaMetrics在单机模式下就能轻松处理百万级时间线的写入和查询数据压缩比高对硬盘非常友好。最后是架构清晰易于扩展从单机测试到大规模生产集群都有成熟的部署模式可以参考。接下来的内容我会手把手带你走通从零搭建这套监控系统的全过程重点会放在Categraf的“花式”采集技巧和VictoriaMetrics的关键配置调优上这些都是我踩过坑、验证过的最佳实践。2. 环境准备与核心组件部署在开始配置数据流转之前我们得先把“舞台”搭好。这里假设你有一台干净的Linux服务器CentOS 7 或 Ubuntu 20.04我们将把所有核心组件都部署在这台机器上形成一套All-in-One的测试环境。生产环境可以考虑将组件拆分部署。2.1 部署时序数据库 VictoriaMetricsVictoriaMetrics是我们监控数据的最终归宿。我选择它而不是Prometheus主要看中其卓越的压缩效率和查询性能单机版就能扛住不小的数据量。首先我们去GitHub Releases页面下载最新稳定版的单机二进制包。以amd64架构为例# 创建工作目录 mkdir -p /opt/victoriametrics cd /opt/victoriametrics # 下载请替换为最新版本号例如 v1.123.0 wget https://github.com/VictoriaMetrics/VictoriaMetrics/releases/download/v1.123.0/victoria-metrics-linux-amd64-v1.123.0.tar.gz # 解压 tar zxvf victoria-metrics-linux-amd64-v1.123.0.tar.gz # 你会得到一个名为 victoria-metrics-prod 的二进制文件接下来我们创建一个Systemd服务文件来管理它这样服务可以随系统启动也方便管理。创建文件/etc/systemd/system/vm.service内容如下[Unit] DescriptionVictoriaMetrics - fast, cost-effective time series database Afternetwork.target [Service] Typesimple Usernobody Restarton-failure ExecStart/opt/victoriametrics/victoria-metrics-prod \ -storageDataPath/opt/victoriametrics/data \ -retentionPeriod3 \ -httpListenAddr:8428 # 关键参数解释 # -storageDataPath: 数据存储目录 # -retentionPeriod: 数据保留月份3表示3个月 # -httpListenAddr: 监听地址和端口默认8428 ExecReload/bin/kill -HUP $MAINPID LimitNOFILE65536 [Install] WantedBymulti-user.target这里我设置了3个月的数据保留期你可以根据磁盘大小和需求调整-retentionPeriod。启动并设置开机自启sudo systemctl daemon-reload sudo systemctl start vm sudo systemctl enable vm sudo systemctl status vm # 查看状态确认Active: active (running)用curl http://localhost:8428/metrics测试一下如果能看到VictoriaMetrics自身的监控指标输出说明服务已经正常启动了。2.2 部署监控告警中心夜莺v6夜莺v6的二进制包同样可以从其官方下载页面获取。部署过程也很直接# 创建夜莺工作目录 mkdir -p /opt/n9e cd /opt/n9e # 下载夜莺v6请替换为最新版本例如 v6.7.2 wget https://download.flashcat.cloud/n9e-v6.7.2-linux-amd64.tar.gz tar zxvf n9e-v6.7.2-linux-amd64.tar.gz # 初始化数据库需要提前安装MySQL并创建数据库 n9e_v6 # 将自带的SQL文件导入 mysql -h your_mysql_host -u root -p your_password n9e_v6 n9e.sql接下来是配置夜莺的核心环节。编辑/opt/n9e/etc/config.toml文件找到数据库和Redis的配置部分夜莺用MySQL存配置元数据用Redis做缓存和心跳[DB] # MySQL连接信息 Host 127.0.0.1 Port 3306 User n9e Pass YourSecurePassword Name n9e_v6 ... [Redis] # Redis连接信息 Address 127.0.0.1:6379 Password ...最关键的一步是告诉夜莺把接收到的监控数据转发到哪里。在配置文件中找到[Pushgw]部分配置Writers[Pushgw] # 启用标签重写规范数据格式 LabelRewrite true [[Pushgw.Writers]] # 指向我们刚启动的VictoriaMetrics的Remote Write接口 Url http://127.0.0.1:8428/api/v1/write # 超时等设置保持默认即可 Timeout 10000这个配置的意思是所有采集器如Categraf上报给夜莺的数据都会被夜莺的Pushgw模块转发到http://127.0.0.1:8428/api/v1/write也就是VictoriaMetrics的数据写入接口。同样创建Systemd服务文件/etc/systemd/system/n9e.service来管理[Unit] DescriptionNightingale v6 - all-in-one observability platform Afternetwork.target mysql.service redis.service [Service] Typesimple WorkingDirectory/opt/n9e ExecStart/opt/n9e/n9e Restarton-failure LimitNOFILE65536 [Install] WantedBymulti-user.target启动夜莺sudo systemctl start n9e。访问http://你的服务器IP:17000使用默认账号root和密码root.2020即可登录。首次登录记得修改密码。3. Categraf采集器从入门到精通配置Categraf是整个监控体系的“数据触手”它的配置灵活性直接决定了你能监控到什么。解压Categraf后其conf目录结构非常清晰conf/ ├── config.toml # 主配置文件 └── input.xxx/ # 各个采集插件的配置目录 ├── xxx.toml └── ...3.1 主配置文件核心解析我们先看config.toml这是全局调度中心。有几个区块需要特别关注[global] # 机器标识非常重要用于区分不同被监控节点。建议使用IP或唯一主机名。 hostname 192.168.1.100 # 采集频率默认15秒一次对大多数场景够用 interval 15 [writer_opt] # 数据上报的批处理大小和队列设置影响内存和网络 batch 2000 chan_size 10000 [[writers]] # 这是核心指定数据上报给谁。我们上报给夜莺的接口。 url http://192.168.1.100:17000/prometheus/v1/write # 如果夜莺开启了认证需要填写下面的用户名密码 # basic_auth_user # basic_auth_pass timeout 5000hostname是黄金参数它会是所有监控数据的一个核心标签ident或host在夜莺里分组、筛选机器都靠它。确保集群内不重复。[[writers]]可以配置多个实现数据双写或多写。比如你可以同时写给测试环境和生产环境的夜莺或者同时写给夜莺和一个中心的Prometheus。3.2 系统基础监控不止是CPU和内存conf/input.system/目录下的配置负责采集操作系统基础指标。默认的system.toml已经涵盖了CPU、内存、磁盘、网络、负载等。但有些细节可以优化[[instances]] # 采集频率继承自global.interval这里可以覆盖 interval 15s # 磁盘忽略列表有些虚拟文件系统或特殊挂载点不需要监控 ignore_fs [tmpfs, devtmpfs, overlay, squashfs] # 网络接口忽略列表同样忽略lo、docker虚拟网卡等 ignore_interfaces [lo, docker0, veth.*] # 是否收集每个磁盘的IO详情 gather_disk_io true # 是否收集每个网络接口的流量详情 gather_per_net_interface true我建议把gather_disk_io和gather_per_net_interface都打开。虽然这会增加一些时间线数量但在排查磁盘瓶颈或网络流量异常时你能精确到是哪块盘、哪个网卡出了问题价值巨大。3.3 进程监控精准定位应用状态conf/input.procstat/下的procstat.toml是用来监控特定进程的利器。它不仅能看进程是否存在还能监控其资源占用。配置模板如下[[instances]] # 方法1通过进程名匹配使用 pgrep # search_exec_substring nginx # 方法2通过命令行参数匹配更精确使用 pgrep -f search_cmdline_substring java -jar myapp.jar # 方法3在Windows上通过服务名匹配 # search_win_service MyService # 为这些监控数据添加自定义标签便于在夜莺里分类 labels { service my_java_app, region shanghai } # 采集的指标维度 gather_total true # 采集进程组的总资源如所有Java进程的CPU总和 gather_per_pid false # 为每个PID单独生成指标序列慎用可能造成高基数 gather_more_metrics [threads, fd, io, cpu, mem, uptime]这里有个实战经验对于像Java应用这种通常一个服务跑多个进程的建议设置gather_total true而gather_per_pid false。这样你会得到procstat_cpu_usage{service“my_java_app”}这样的指标代表了该服务所有进程的CPU总和既满足了监控需求又避免了因Pid频繁变化产生的大量时间线对存储更友好。3.4 插件化采集MySQL监控实战Categraf的强大在于其丰富的插件生态。以MySQL监控为例配置在conf/input.mysql/mysql.toml[[instances]] # 连接地址 address 127.0.0.1:3306 username monitor # 强烈建议创建一个只读监控账号 password StrongPassword123 # 关键采集项开关 extra_status_metrics true # 采集更多 SHOW GLOBAL STATUS 指标 extra_innodb_metrics true # 采集InnoDB状态指标 gather_schema_size true # 采集每个数据库的大小 gather_table_size false # 采集每张表的大小表多时慎用 gather_slave_status true # 采集主从复制状态 # 连接和查询超时 timeout 5s # 实例标识标签 labels { instance mysql-master-01, role master } # 自定义查询示例监控慢查询数量 [[instances.queries]] mesurement slow_queries metric_fields [count] label_fields [db] request SELECT schema_name as db, COUNT(*) as count FROM information_schema.processlist WHERE command ! Sleep AND time 10 GROUP BY schema_name 配置好后重启Categraf你就能在夜莺里看到MySQL相关的上百个指标从连接数、查询频率到InnoDB缓冲池命中率一应俱全。夜莺社区还提供了现成的MySQL监控仪表盘模板导入后就能获得专业的监控视图。3.5 启动与调试Categraf配置完成后我们可以用调试模式先跑一下看看数据采集是否正常cd /opt/categraf # 测试模式运行只采集不上报并在控制台打印指标 ./categraf --test --inputs system,mem,disk,net,procstat如果看到一串串格式为metric_name value timestamp labels的输出说明采集正常。然后正式以后台服务运行# 使用自带的systemd服务文件 sudo cp conf/categraf.service /etc/systemd/system/ sudo systemctl daemon-reload sudo systemctl start categraf sudo systemctl enable categraf sudo systemctl status categraf检查日志tail -f logs/categraf.log没有报错并且有类似“successfully pushed … metrics”的日志说明数据已经成功上报给夜莺了。4. 打通数据链路夜莺与VictoriaMetrics的深度集成当Categraf开始上报数据后这些数据会经过夜莺最终落入VictoriaMetrics。我们需要在夜莺的Web界面上完成最后一步配置让夜莺知道去哪里查询这些数据来做告警和看图。4.1 在夜莺中添加VictoriaMetrics数据源登录夜莺Web界面默认http://ip:17000进入【系统配置】-【数据源】。点击“添加数据源”填写以下关键信息名称自定义如VictoriaMetrics-Prod。URL VictoriaMetrics的查询地址即http://你的VM地址:8428。注意这里是查询根路径不是write接口。超时保持默认即可。Remote Write URL 这里不需要填写。这个字段是旧版夜莺用于接收数据的我们已经在服务端配置文件config.toml的[[Pushgw.Writers]]里配置过了数据会由夜莺服务端主动推送给VM。保存后这个数据源就添加成功了。你可以点击旁边的“即时查询”测试一下选择刚添加的数据源在查询框输入up并执行如果能看到你部署了Categraf的机器ident标签对应你的hostname并且值为1说明整个链路完全打通了Categraf采集数据 - 上报夜莺 - 夜莺转发给VictoriaMetrics存储 - 夜莺从VictoriaMetrics查询数据展示。4.2 关键参数调优保障系统稳定性默认配置能跑起来但要应对生产环境的数据量还需要对一些关键参数进行调优。VictoriaMetrics 调优要点数据保留与存储-retentionPeriod参数决定了数据保存多久。需要根据你的磁盘空间和监控需求权衡。例如-retentionPeriod12保留一年。VictoriaMetrics的数据压缩率很高通常1个监控点1个时间线一天的数据不到1KB。内存限制VictoriaMetrics默认会使用所有可用内存来缓存数据以加速查询。在生产环境你可能需要通过-memory.allowedPercent或-memory.allowedBytes来限制其内存使用避免影响系统其他服务。持久化确保-storageDataPath指向的目录挂载在可靠的磁盘上最好是SSD能极大提升查询性能。夜莺 Pushgw 调优要点在夜莺的config.toml中[Pushgw]部分控制着数据转发[Pushgw] # 并发处理数据的协程数根据CPU核心数调整 Concurrent 10 # 转发数据时的HTTP连接池设置 [[Pushgw.Writers]] Url http://127.0.0.1:8428/api/v1/write Timeout 10000 # 最大空闲连接数提升转发效率 MaxIdleConns 100 MaxIdleConnsPerHost 100如果监控目标很多比如超过500台数据推送量巨大可以适当增加Concurrent值并调整MaxIdleConnsPerHost避免频繁创建HTTP连接的开销。Categraf 调优要点在Categraf的config.toml中[writer_opt].batch 控制每次上报的数据点批量大小。网络状况好可以调大如5000减少请求次数网络不稳定可以调小如1000避免单个请求过大失败。[writer_opt].chan_size 内存队列大小。如果看到日志有“channel is full”的警告说明采集速度大于发送速度需要调大这个值或者检查网络和夜莺服务端是否正常。5. 实战进阶仪表盘配置与告警规则设定数据有了接下来就是让它产生价值可视化和告警。5.1 导入与自定义仪表盘夜莺内置了非常丰富的仪表盘模板。进入【仪表盘】-【导入】你可以看到“Linux基础监控”、“MySQL监控概览”、“Redis监控”等模板。直接选择克隆就能瞬间得到一个专业的监控视图。以Linux主机监控为例克隆后打开仪表盘你会看到CPU、内存、磁盘、网络等各类图表已经自动关联了VictoriaMetrics数据源中的对应指标如cpu_usage_idle,mem_used_percent。这些指标名称正是Categraf的input.system插件采集并上报的。如果你想自定义图表点击“编辑”-“添加面板”。在查询框里你可以使用VictoriaMetrics兼容的PromQL进行查询。例如想查看所有机器5分钟的平均负载可以输入avg(system_load5) by (ident)。夜莺的图表编辑器交互很友好支持多种图表类型和丰富的显示选项。5.2 配置核心告警规则告警是监控系统的灵魂。夜莺的告警规则配置非常灵活。进入【告警管理】-【告警规则】。场景一机器存活告警这是最基础的告警。新建一条规则规则名称机器失联告警数据源选择我们添加的VictoriaMetrics数据源查询表达式up 0。up指标是Categraf自动上报的代表采集器自身状态0表示失联。触发条件查询结果 ! 空持续1分钟。告警级别紧急生效业务组选择对应的业务组。场景二CPU使用率告警更精细化的告警示例规则名称 CPU使用率过高查询表达式100 - avg(cpu_usage_idle) by (ident) 90。这里计算的是非空闲CPU百分比。触发条件查询结果 ! 空持续3分钟。避免因瞬间抖动产生误报。告警级别警告附加标签可以添加metriccpu_usage方便在告警事件中分类。场景三进程数异常告警利用前面配置的procstat插件规则名称 Nginx进程异常查询表达式procstat_lookup_count{search_cmdline_substringnginx} 1。这个指标表示匹配到的进程数量。触发条件查询结果 ! 空持续30秒。进程消失需要立刻告警。告警级别紧急配置好告警规则后别忘了在【通知设置】里配置告警接收渠道比如邮件、钉钉、企业微信等这样当告警触发时相关信息就能及时送达对应的运维人员。6. 生产环境部署与高可用考量单机部署适合测试和小规模场景。当监控规模扩大例如超过1000台主机就需要考虑高可用和分布式部署。对于VictoriaMetrics单机版VictoriaMetrics Single有性能上限。当每秒写入数据点超过百万或者查询负载很高时应考虑迁移到VictoriaMetrics Cluster集群版本。集群版将存储、查询和写入组件分离可以独立扩展能轻松应对亿级时间线的监控规模。对于夜莺夜莺服务本身是无状态的状态存在MySQL和Redis。可以通过部署多个n9e实例前面用Nginx做负载均衡来实现高可用。只需要确保所有实例连接同一个MySQL和Redis即可。对于Categraf每台需要监控的机器上都需要部署一个Categraf实例。为了便于管理可以编写一个统一的安装配置脚本通过Ansible、SaltStack等运维工具批量下发。重点是要规划好hostname的命名规则如{region}-{env}-{app}-{ip}这样在夜莺的机器列表里才能清晰地识别和管理。边缘机房场景这是夜莺架构的一个亮点。如果公司有网络不稳定的边缘机房可以在边缘机房内部署n9e-edge组件。n9e-edge不依赖中心的MySQL/Redis它从中心n9e同步告警规则然后直接查询边缘机房的VictoriaMetrics或Prometheus进行告警判断再将告警事件上报给中心。这样即使网络中断边缘机房的告警功能也不受影响。从我的经验来看这套组合的扩展路径非常平滑。初期可以用All-in-One方式快速验证。业务增长后先将VictoriaMetrics升级为集群然后横向扩展夜莺实例。最后根据机房分布情况考虑引入n9e-edge模式。这种渐进式的演进方式能让监控系统始终稳稳地支撑业务发展。

夜莺v6监控系统实战：Categraf数据采集与VictoriaMetrics存储配置详解

相关新闻

【技术人必看】Oracle OCP认证：DBA职业进阶的黄金钥匙

计算机二级openGauss考试必备：VirtualBox 6.1.16详细安装指南

中文长文档处理新范式：BERT文本分割模型镜像免配置部署

最新新闻

如何用KKManager轻松管理14款游戏模组：终极模组冲突检测指南

ARI-PREDEX 调压控制器 ARI ARMATUREN Fig 12.705

openeuler/kernel-docs实用教程：快速查找内核会议记录与技术资料

一键找回丢失的QQ空间记忆：GetQzonehistory完整使用指南

ParsecVDisplay：解锁Windows虚拟显示新姿势，告别多屏焦虑

LosslessCut无损编辑架构：FFmpeg GUI工具的技术革新与多场景应用

日新闻

Nginx防御TLS重协商攻击实战：从原理到配置与监控

华为防火墙双通道远程管理实战：Web与SSH配置详解

AD74413R与PIC18F65K40的高精度工业数据采集方案

周新闻

月新闻