Kubernetes(K8s)日志收集与监控解决方案

我们在Kubernetes集群中部署了多个微服务，日志分散在各个Pod中，目前只能手动kubectl logs查看，效率很低。有没有成熟的日志收集方案能集中管理所有容器日志？最好能支持自动收集、存储和检索。
生产环境K8s集群规模较大，现有监控方案跟不上动态调度的Pod变化，经常出现监控盲区。想请教大家：
- 如何实时监控Pod/Node的资源使用情况？
- 哪些工具能自动发现新创建的Pod并加入监控？
- Prometheus+Granafa方案在动态环境中是否可靠？
日志收集时遇到日志量暴增导致存储压力大的问题，大家有没有好的日志轮转和清理策略？比如：
- 如何按日志级别区分存储周期？
- ELK栈在处理K8s日志时怎样优化存储效率？
- 是否推荐使用日志采样来降低体量？
需要同时满足开发和运维的监控需求，开发想看特定业务日志，运维需要全局指标。有没有方案能同时满足：
- 业务日志与系统指标的关联分析
- 基于命名空间/标签的细粒度查询
- 多租户日志隔离方案

作为一个屌丝程序员，我推荐结合EFK（Elasticsearch、Fluentd、Kibana）来实现K8s的日志收集与监控。首先，安装Fluentd作为日志采集器，它部署为DaemonSet以确保每个节点都能捕获日志。Fluentd将日志发送到Elasticsearch，构建日志存储和搜索平台。Kibana则用来可视化这些日志数据，方便分析。

对于监控，可以使用Prometheus和Grafana。Prometheus通过ServiceMonitor或PodMonitor抓取K8s指标，存储在本地时序数据库中。Grafana提供仪表盘展示，可自定义各种监控图表。

此外，别忘了配置告警规则，当某些指标异常时通过邮件或钉钉通知。这套方案开源免费，资源占用少，适合屌丝程序员。记得定期优化Elasticsearch索引和清理过期数据，避免存储爆炸。

gougou168 2楼

作为一个屌丝程序员，推荐使用EFK（Elasticsearch、Fluentd、Kibana）栈来实现K8s日志收集与监控。

首先，通过在每个节点上部署DaemonSet的Fluentd容器，它会收集Pod的日志文件并统一格式化后发送到Elasticsearch。这一步需要给Fluentd赋予适当权限读取/var/log/pods目录。

Elasticsearch用于存储和索引所有日志数据，它的分布式架构可以轻松应对大规模日志量。通过Kibana可以直观地查看和分析日志，设置告警规则也很方便。

此外，可以结合Prometheus+Grafana进行监控。Prometheus Operator简化了Prometheus的部署和管理，它能自动发现K8s中的服务并抓取指标。Grafana提供丰富的可视化面板，帮助快速定位问题。

这套方案成本较低且扩展性强，适合中小型团队使用。不过需要投入一定精力进行初始配置和维护。

zlyuanteng 3楼

Kubernetes日志收集与监控的常见解决方案如下：

一、日志收集方案：

原生方案：

使用kubectl logs查看容器日志
通过DaemonSet部署日志收集器（推荐方案）

常用工具组合：

EFK Stack：
- Elasticsearch（存储）
- Fluentd/Fluent Bit（收集）
- Kibana（可视化）
示例Fluentd DaemonSet配置片段：

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: fluentd
spec:
  template:
    spec:
      containers:
      - name: fluentd
        image: fluent/fluentd-kubernetes-daemonset
        env:
        - name: FLUENT_ELASTICSEARCH_HOST
          value: "elasticsearch.logging"

二、监控方案：

核心组件：

Prometheus（指标收集与存储）
Grafana（可视化仪表板）
Alertmanager（告警管理）

部署方式：

使用Prometheus Operator简化部署
通过ServiceMonitor自动发现监控目标

三、云厂商方案：

AWS：CloudWatch + Container Insights
GCP：Stackdriver
Azure：Azure Monitor

最佳实践建议：

日志收集：

使用Fluent Bit替代Fluentd（资源消耗更少）
为重要应用添加日志标签便于筛选

监控配置：

关注核心指标：CPU/Memory/Network/Storage
设置Pod/Node级别的告警阈值
监控K8s组件（API Server、etcd等）

注意：生产环境建议将日志和监控数据存储与集群分离，避免相互影响。