'monitoring' 태그의 글 목록

monitoring

[PROMETHEUS] 프로메테우스 2024.10.17 2
[DOCKER] 헬스체크 2024.10.03 2

[PROMETHEUS] 프로메테우스

dongburiii 2024. 10. 17. 13:28

2024. 10. 17. 13:28

728x90

프로메테우스란?

프로메테우스는 사운드 클라우드에서 처음 제작한 모니터링 & 알람에 초점이 맞춰진 모니터링 오픈소스 툴이다.
요청 발생 수, DB 연결 수 등의 숫자로 치환될 수 있는 시계열 데이터를 메트릭스(Metrics) 라 하는데, 이를 시계열 데이터로 저장 및 수집하는 툴이다.

특징

다차원 시계열 데이터를 메트릭스 명과 key-value 쌍으로 관리한다.
PromQL 이라는 쿼리 언어로 차원들을 관리한다.
다른 저장소에 종속되지 않는다.

데이터 수집 방법

엔드포인트에 HTTP 요청을 통해 데이터를 스크레이핑 한다.
exporter를 배포해 해당 exporter의 엔드포인트를 통해 데이터를 스크레이핑한다.

시스템 메트릭 수집

프로메테우스가 서버의 시스템 메트릭스(Load Average, CPU Usage 등)을 수집하는 방법은 node-exporter를 사용하는 것이다.
- node-exporter는 시스템 정보를 수집하는 툴이라고 생각하면 편하다.

Node Exporter 실행

컨테이너로 이를 시행시킬 수 있다.
아래처럼 설정한다. 이렇게 했을 때, exporter의 엔드포인트로 접근해 데이터를 수집할 수 있다.

services:
    exporter:
        image: prom/node-exporter:v1.8.2
        container_name: exporter
        expose: 9100
        command:
          - '--path.procfs=/host/proc'
          - '--path.rootfs=/rootfs'
          - '--path.sysfs=/host/sys'
          - '--collector.filesystem.mount-points-exclude=^/(sys|proc|dev|host|etc)($$|/)'
        volumes:
            - /proc:/host/proc:ro
            - /sys:/host/sys:ro
            - /:/rootfs:ro
        networks:
            - proxy

path.roofts 설정
- 호스트 전체 모니터링을 위한 설정
- 루트 디렉토리에 대해 바인딩 시켜, Exporter가 호스트 FileSystem에 접근하게 해 주는 옵션
- 이후 루트 디렉토리를 볼륨으로 넣음
- 일반 디렉토리면 그냥 넣어주면 된다.

프로메테우스 실행

설정

프로메테우스 설정
- prometheus.yml 파일로 해야 인식한다. 물론 볼륨으로 넣을 때, 명칭을 바꿔주는 것도 가능하다.
- 수집할 대상의 엔드포인트를 정의한다.
- 이는 scrape_configs 에 그 타겟 대상과 라벨링이 가능하다.

global:
    scrape_interval: 15s
    evaluation_interval: 15s

# Set the scrape interval to every 15 seconds. Default is every 1 minute.

rule_files:
    - alert.rules.yml
      alerting:
        alertmanagers:
            - static_configs:
            - targets: ["host.docker.internal:9093"]

scrape_configs:
    - job_name: 'System Server'
      static_configs:
        - targets: ['node:9100']

    - job_name: 'cAdvisor'
      static_configs:
        - targets: ['cadvisor:8080']

설정 옵션 관련 내용
- global: 전체적인 데이터 수집에 대한 전역 설정
- scrape_configs: 수집 작업에 대한 정의
- remote_write: 수집된 메트릭을 원격 엔드포인트로 전달하기 위한 설정

컨테이너 설정

prometheus.yml 파일 이외에도 alert.rules (장애 알람 규칙) 등 다른 설정들도 먹일 수 있다.
해당 설정들은 /etc/prometheus 경로에 넣어주면 된다.

services:
    prometheus:
        image: prometheus:v2.54.1
        volumes:
            - ./prom-config/prometheus.yml:/etc/prometheus/prometheus.yml
            - ./prom-config/alert.rules.yml:/etc/prometheus/alert.rules.ym
            - prometheus_data:/prometheus
        command:
            - '--config.file=/etc/prometheus/prometheus.yml'
            - '--storage.tsdb.path=/prometheus'
            - '--web.console.libraries=/etc/prometheus/console_libraries'
            - '--web.console.templates=/etc/prometheus/consoles'
            - '--web.enable-lifecycle'
        networks:
            - proxy
        restart: unless-stopped
        ports:
            - 9090:9090

GUI

이제 http://localhost:9090으로 접근해 보면 아래와 같이 확인할 수 있다.
아래 랜딩페이지 화면에서 PromQL을 통해 데이터를 쿼리해 볼 수 있다.

또한 현재 데이터를 수집하고 있는 대상을 확인하는 방법은 Status - Target으로 확인할 수 있다.
- 여기서 현재 정상적으로 데이터가 수집되고 있는지도 확인할 수 있다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'데브옵스 devOps > Monitoring' 카테고리의 다른 글

[CNCF] OpenTelemetry(OTel)란? (0)	2024.11.22

[DOCKER] 헬스체크

dongburiii 2024. 10. 3. 10:11

2024. 10. 3. 10:11

728x90

계기

컨테이너를 구동하였을 때,
해당 컨테이너가 정상적으로 올라간 것으로 보였지만 로그를 확인하거나 exec 명령어로 컨테이너 내부에 접근하고자 했을 때 문제가 발생하고 있는 것을 확인한 적이 여러번 있었다.

때문에 컨테이너의 정상 여부(Health) 를 주기적으로 체크하며 모니터링 할 필요가 있다.

healthcheck 옵션

docker compose 설정
- healthcheck 라는 설정을 함으로써 가능하다.
  - test: 헬스체크 시도 시에 실행할 동작을 정의한다. 단순 curl/wget 으로 요청을 날려볼 수 있고, CLI를 넣을 수도 있으며, 함수를 실행시킬 수도 있다.
  - interval: 말 그대로 체크 실행 주기를 의미한다.
  - timeout: 실행된 헬스체크 동작에 대한 리턴을 기다리는 시간(timeout)을 의미한다.
  - retries: 타임아웃이 걸려 체크 실패 시 재시도 횟수를 의미한다. 재시도까지 전부 실패하면 unhealthy 상태가 된다.
  - start_period: 컨테이너 구동을 기준으로, 헬스체크를 시작할 때까지의 시간을 의미한다. 처음 구동 시, 초기 세팅에 시간이 많이 걸리는 경우가 있기 때문
- 상태값
  - 0 : healthy. 즉 건강한 상태이다.
  - 1 혹은 다른 숫자: unhealthy. 비정상적인 문제가 발생하고 있다.

services:
    app:
        expose:
            - ${APP_PORT}
        healthcheck:  
            // 헬스체크를 위해 실행할 함수
            test: curl --fail http://localhost:5000/ || exit 1  

            // REDIS 체크의 경우
            test: [ "CMD", "redis-cli", "--raw", "incr", "ping" ]

            // 체크 실행 주기
            interval: 40s 
            // 타임아웃 
            timeout: 30s  
            retries: 3  
            // 컨테이너 구동 후 체크 시작할 시점
            start_period: 60s

DockerFile 설정

도커 파일 설정은 Dockerfile의 이미지 빌드 과정에 입력된다.
이외 헬스 체크 주기 등의 옵션은 컨테이너 구동 시 입력한다.

FROM asdcasdcas
# ... 빌드 내용

# 컨테이너에서 구동하는 어플리케이션의 /health 엔드포인트에 요청을 날리는 것이 헬스체크 방식이다.
HEALTHCHECK CMD curl --fail http://localhost/health

docker container run -d -p 8080:80 --health-interval 5s app_image/stable/latest

결과

헬스체크가 완료되면 아래처럼 보이게 된다.

주기 설정에 관하여

healthcheck 는 어찌 되었건 cpu 등 서버 리소스를 사용하기 때문에 적당한 주기(interval)로 실행시켜야 한다.
또한 실제로 헬스체크 동작을 실행시켰을 때 받아올 수 있는 정도의 주기로 실행해야 한다.
- 만약 헬스체크 대상 어플리케이션의 특정 함수 동작 주기가 1분인데, 10초마다 헬스체크를 한다면, 이는 자원 낭비일 것이다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'데브옵스 devOps > Docker' 카테고리의 다른 글

[DOCKER] 도커 port / expose 에 대해 (1)	2024.10.21
[DOCKER] 도커 네트워크에 관하여 (0)	2024.10.18
[Docker] 도커 및 도커 컴포즈 설치 (0)	2024.09.25
[Docker] 도커란? (1)	2024.09.25
[Docker] Private 도커 허브와 크레덴셜 (7)	2024.09.24

PREV 이전 1 NEXT 다음

DH Developement

monitoring

[PROMETHEUS] 프로메테우스

프로메테우스란?

특징

데이터 수집 방법

시스템 메트릭 수집

Node Exporter 실행

프로메테우스 실행

설정

컨테이너 설정

GUI

'데브옵스 devOps > Monitoring' 카테고리의 다른 글

[DOCKER] 헬스체크

계기

healthcheck 옵션

주기 설정에 관하여

'데브옵스 devOps > Docker' 카테고리의 다른 글

+ Recent posts

티스토리툴바