使用Prometheus监控和告警Kubernetes集群

使用Prometheus监控和告警Kubernetes集群

Kubernetes是一种非常重要的容器编排引擎。它可以让我们轻松地管理和部署容器化应用程序。然而，当应用程序部署在Kubernetes集群上时，我们可能需要监控它们的状态和性能，以便及时进行故障诊断和优化性能。在本文中，我将介绍如何使用Prometheus监控和告警Kubernetes集群。

1. 理解Prometheus

Prometheus是一种开源的监控和警报工具。它可以收集来自各种应用程序和服务的度量数据，并将它们存储在一个时间序列数据库中。同时，Prometheus还提供了一种灵活的查询语言，可以让我们查询并分析存储在数据库中的数据，并生成各种报告和可视化图表。

2. 安装Prometheus

在开始使用Prometheus监控Kubernetes之前，我们需要先安装Prometheus。我们可以通过以下步骤在Kubernetes集群中安装Prometheus：

- 创建一个命名空间：kubectl create namespace monitoring
- 创建配置文件prometheus-configmap.yaml，并将以下内容复制到该文件中：

apiVersion: v1
kind: ConfigMap
metadata:
  name: prometheus-server-conf
  namespace: monitoring
data:
  prometheus.yml: |
    global:
      scrape_interval: 15s
    scrape_configs:
      - job_name: 'prometheus'
        static_configs:
          - targets: ['prometheus-server:9090']
      - job_name: 'kubernetes-apiservers'
        kubernetes_sd_configs:
        - role: endpoints
        scheme: https
        tls_config:
          ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
        bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
        relabel_configs:
        - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]
        action: keep
        regex: default;kubernetes;https
      - job_name: 'kubernetes-pods'
        kubernetes_sd_configs:
        - role: pod
        relabel_configs:
        - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
        action: keep
        regex: true
        - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
        action: replace
        target_label: __metrics_path__
        regex: (.+)
        - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
        action: replace
        target_label: __address__
        regex: (.+):(?:\d+);(\d+)
        replacement: $1:$2
        - source_labels: [__meta_kubernetes_pod_node_name]
        action: replace
        target_label: kubernetes_node
        - source_labels: [__meta_kubernetes_pod_name]
        action: replace
        target_label: kubernetes_pod_name
  prometheus.rules: |
    groups:
    - name: kubernetes.rules
      rules:

- 应用配置文件：kubectl create -f prometheus-configmap.yaml -n monitoring
- 创建Prometheus服务器：kubectl create -f prometheus-server.yaml -n monitoring，并将以下内容复制到prometheus-server.yaml文件中：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: prometheus-server
  namespace: monitoring
spec:
  replicas: 1
  selector:
    matchLabels:
      app: prometheus-server
  template:
    metadata:
      labels:
        app: prometheus-server
    spec:
      containers:
      - name: prometheus
        image: prom/prometheus:v2.25.0
        args:
          - "--config.file=/etc/config/prometheus.yml"
          - "--storage.tsdb.path=/prometheus/data"
        ports:
        - name: web
          containerPort: 9090
        volumeMounts:
          - name: prometheus-server-conf
            mountPath: /etc/config
          - name: prometheus-storage
            mountPath: /prometheus/data
      volumes:
      - name: prometheus-server-conf
        configMap:
          name: prometheus-server-conf
      - name: prometheus-storage
        emptyDir: {}

- 创建服务：kubectl create -f prometheus-service.yaml -n monitoring，并将以下内容复制到prometheus-service.yaml文件中：

apiVersion: v1
kind: Service
metadata:
  name: prometheus-server
  namespace: monitoring
spec:
  selector:
    app: prometheus-server
  ports:
  - name: web
    port: 9090
    targetPort: web
  type: ClusterIP

3. 开启Prometheus指标

现在，我们已经安装了Prometheus，但是我们还需要配置一些指标来收集我们所需的数据。在Kubernetes集群中，我们可以通过在Pod的配置中添加注释来开启指标。我们可以使用以下注释：

annotations:
  prometheus.io/scrape: "true"
  prometheus.io/path: "/metrics"
  prometheus.io/port: "9100"

例如，我们可以使用以下命令在Kubernetes集群中创建一个名为nginx的Deployment，并为其开启指标：

kubectl create deployment nginx --image=nginx --replicas=3 --port=80 --labels app=nginx
kubectl annotate deployment nginx prometheus.io/scrape="true"
kubectl annotate deployment nginx prometheus.io/path="/nginx_status"
kubectl annotate deployment nginx prometheus.io/port="80"

4. 创建Prometheus警报

一旦我们开启了指标收集，我们就可以开始创建警报规则。在Prometheus中，我们可以使用PromQL查询语言来定义警报规则。例如，以下PromQL查询用于计算NGINX服务器的CPU利用率：

sum(rate(container_cpu_usage_seconds_total{namespace="default", name=~"^k8s_nginx.*"}[1m])) by (pod_name)
/

sum(kube_pod_container_resource_limits_cpu{namespace="default", container=~"^k8s_nginx.*"}) by (pod_name)

我们可以将此查询作为警报规则的一部分，并在达到一定阈值时触发警报。我们可以使用以下Prometheus配置文件来定义警报规则：

groups:
- name: kubernetes.rules
  rules:
  - alert: HighCPUUsage
    expr: sum(rate(container_cpu_usage_seconds_total{namespace="default", name=~"^k8s_nginx.*"}[1m])) by (pod_name) /
          sum(kube_pod_container_resource_limits_cpu{namespace="default", container=~"^k8s_nginx.*"}) by (pod_name) > 0.8
    for: 1m
    labels:
      severity: warning
    annotations:
      summary: "High CPU usage detected"
      description: "The CPU usage for NGINX containers is above 80%"

5. 总结

在本文中，我们介绍了如何使用Prometheus监控和告警Kubernetes集群。我们首先安装了Prometheus，然后开启了指标收集和定义了警报规则。通过使用Prometheus，我们可以及时发现Kubernetes集群中的故障和性能问题，并采取必要的措施来解决它们。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

使用Prometheus监控和告警Kubernetes集群