Prometheus监控Linux服务器系统

墨颜丶2023-01-022025-04-15

Node_exporter部署脚本

#!/bin/bash
# 按需修改
# CentOS7增强版部署脚本 - 支持多架构/安全增强/智能检测

# 全局配置
set -euo pipefail
VERSION="1.9.0"
GREEN='\e[32m'
RED='\e[31m'
RESET='\e[0m'

# 0. 系统检测
echo -e "${GREEN}[INFO] 系统初始化检测...${RESET}"
ARCH=$(uname -m)
case $ARCH in
    x86_64) ARCH="amd64";;
    aarch64) ARCH="arm64";;
    *) echo -e "${RED}[ERROR] 不支持的架构: $ARCH${RESET}"; exit 1 ;;
esac

# 1. 修复yum源（仅限CentOS）
if grep -q "CentOS" /etc/os-release; then
    echo -e "${GREEN}[INFO] 修复yum源...${RESET}"
    sudo cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup
    sudo curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo || {
        echo -e "${RED}[ERROR] yum源更新失败${RESET}";
        exit 1;
    }
    sudo yum clean all
    sudo yum makecache
fi

# 2. 依赖检查与安装
declare -a DEPS=("wget" "tar" "openssl")
for pkg in "${DEPS[@]}"; do
    if ! command -v $pkg &> /dev/null; then
        echo -e "${GREEN}[INFO] 安装依赖: $pkg...${RESET}"
        sudo yum install -y $pkg || {
            echo -e "${RED}[ERROR] $pkg 安装失败${RESET}";
            exit 1;
        }
    fi
done

# 3. 下载并解压（多架构支持）
DOWNLOAD_URL="https://github.com/prometheus/node_exporter/releases/download/v${VERSION}/node_exporter-${VERSION}.linux-${ARCH}.tar.gz"
echo -e "${GREEN}[INFO] 下载 Node Exporter...${RESET}"
if ! wget -q -O node_exporter.tar.gz "$DOWNLOAD_URL"; then
    echo -e "${RED}[ERROR] 下载失败，请检查版本或网络${RESET}"
    exit 1
fi
tar zxf node_exporter.tar.gz || { echo -e "${RED}[ERROR] 解压失败${RESET}"; exit 1; }

# 4. 安全部署
echo -e "${GREEN}[INFO] 安全部署配置...${RESET}"
[ -d /opt/prometheus/ ] || sudo mkdir -p /opt/prometheus/
sudo mv "node_exporter-${VERSION}.linux-${ARCH}/" "/opt/prometheus/node_exporter/"
sudo mkdir -p "/opt/prometheus/node_exporter/data"


# 5. 用户权限管理
if ! id "prometheus" &>/dev/null; then
    echo -e "${GREEN}[INFO] 创建 prometheus 用户...${RESET}"
    sudo useradd -r -s /sbin/nologin prometheus || {
        echo -e "${RED}[ERROR] 用户创建失败${RESET}";
        exit 1;
    }
fi
sudo chown -R prometheus:prometheus "/opt/prometheus/node_exporter"

# 6. 服务配置（动态路径）
cat <<EOF | sudo tee /etc/systemd/system/node_exporter.service > /dev/null
[Unit]
Description=Node Exporter
Documentation=https://prometheus.io/docs/guides/node-exporter/
After=network.target

[Service]
User=prometheus
Group=prometheus
ExecStart=/opt/prometheus/node_exporter/node_exporter \
  --web.listen-address=0.0.0.0:9100 \
  --collector.systemd \
  --collector.systemd.unit-whitelist="(ssh|docker|prometheus).service"
Restart=on-failure
RestartSec=30s
LimitNOFILE=65536
StandardOutput=journal
StandardError=journal

[Install]
WantedBy=multi-user.target
EOF

# 7. 防火墙配置
configure_firewall() {
    if systemctl is-active --quiet firewalld; then
        sudo firewall-cmd --permanent --add-port=9100/tcp && \
        sudo firewall-cmd --reload
    elif command -v iptables &> /dev/null; then
        sudo iptables -A INPUT -p tcp --dport 9100 -j ACCEPT
        sudo service iptables save
    else
        echo -e "${RED}[WARN] 未检测到防火墙服务，请手动开放端口 9100${RESET}"
    fi
}
configure_firewall

# 8. 启动服务
sudo systemctl daemon-reload
sudo systemctl enable --now node_exporter

# 9. 部署验证
check_service() {
    if ! systemctl is-active --quiet node_exporter; then
        echo -e "${RED}[ERROR] 服务启动失败，查看日志：journalctl -u node_exporter -n 50${RESET}"
        exit 1
    fi
    echo -e "${GREEN}[SUCCESS] 服务已启动，监听端口：${RESET}"
    ss -tunlp | grep 9100
    curl -s http://localhost:9100/metrics | grep 'node_' | head -5
}
check_service

添加配置

vim prometheus/prometheus.yml

# 定义一个名为 node-exporter 的采集任务
- job_name: 'node-exporter'
  # 采集间隔为15秒 
  scrape_interval: 15s
  static_configs:
  # 采集本地 Node Exporter 数据 
  - targets: ['node_exporter:9100']
    labels:
      instance: Prometheus服务器
  # 采集 IP 为 192.168.56.102 的 Node Exporter 数据
  - targets: ['192.168.56.102:9100']
    labels:
      instance: 102服务器

常用监控指标

http://192.168.56.101:9090/graph

CPU 监控指标

指标名称	含义	备注
`node_cpu_seconds_total{mode="idle"}`	CPU在空闲模式下花费的总秒数	计算使用率：`(1 - avg(rate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance)`
`node_cpu_seconds_total{mode="user"}`	CPU在用户模式下花费的总秒数
`node_cpu_seconds_total{mode="system"}`	CPU在系统模式下花费的总秒数
`node_load1`	1分钟内的系统平均负载	建议结合CPU核心数评估，当值 > CPU核心数说明负载过高
`node_load5`	5分钟内的系统平均负载	长期负载指标，反映系统持续压力
`node_load15`	15分钟内的系统平均负载	趋势分析参考值

内存监控指标

指标名称	含义	备注
`node_memory_MemTotal_bytes`	系统总内存大小（字节）	单位转换：/ (1024^3) 转换为GB
`node_memory_MemFree_bytes`	空闲内存量（字节）
`node_memory_MemAvailable_bytes`	可用内存量（字节）	更准确的内存可用指标（>=3.14内核版本）
`node_memory_Buffers_bytes`	缓冲区内存量（字节）
`node_memory_Cached_bytes`	缓存内存量（字节）
`node_memory_SwapTotal_bytes`	总交换空间大小（字节）
`node_memory_SwapFree_bytes`	空闲交换空间大小（字节）

磁盘监控指标

指标名称	含义	备注
`node_disk_read_bytes_total`	磁盘读取总字节数	配合rate()函数计算IO吞吐量：`rate(node_disk_read_bytes_total[5m])`
`node_disk_written_bytes_total`	磁盘写入总字节数	配合rate()函数计算IO吞吐量：`rate(node_disk_written_bytes_total[5m])`
`node_disk_reads_completed_total`	完成的磁盘读操作总数
`node_disk_writes_completed_total`	完成的磁盘写操作总数
`node_disk_io_time_seconds_total`	磁盘I/O操作所花费的总时间（秒）

文件系统监控指标

指标名称	含义	备注
`node_filesystem_free_bytes{mount="/"}`	根分区剩余空间（字节）	预测空间耗尽：`predict_linear(node_filesystem_free_bytes[6h], 6*3600)`
`node_filesystem_size_bytes`	文件系统总大小（字节）
`node_filesystem_avail_bytes`	文件系统可用空间（字节）
`node_filesystem_files`	文件系统中文件总数
`node_filesystem_files_free`	文件系统中可用文件数
`node_filesystem_size_bytes`	文件系统总大小（字节）	查询总磁盘大小: `node_filesystem_size_bytes{fstype!="", mountpoint="/"}`
`node_filesystem_avail_bytes`	文件系统可用空间（字节）	查询空闲磁盘大小: `node_filesystem_avail_bytes{fstype!="", mountpoint="/"}`

网络监控指标

指标名称	含义	备注
`node_network_receive_bytes_total`	网络接收总字节数	按设备筛选：`{device="eth0"}`
`node_network_transmit_bytes_total`	网络发送总字节数	按设备筛选：`{device="eth0"}`
`node_network_receive_errs_total`	网络接收错误总数
`node_network_transmit_errs_total`	网络发送错误总数
`node_network_receive_drop_total`	网络接收丢弃总数
`node_network_transmit_drop_total`	网络发送丢弃总数