본문 바로가기
DataOps/Kafka

Slash2023 - 토스ㅣSLASH 23 - Kafka 이중화로 다양한 장애 상황 완벽 대처하기

by BenKangKang 2023. 10. 10.

 

 

 

TL;DR

  • 카프카는 토스에서 핵심 기술로 사용되고 있음(금융 관련 정보 제공, 모든 로그 수집, CDC)
  • 쿼리만으로 실시간 프로세싱이 가능한 ksqlDB 사용 중
  • Active-Active 로 IDC 이중화하여 DR 시스템 구축
  • Kafka Connect + Offset Sync로 Kafka 이중화 구성
  • 많은 부분을 자동화해서 사용 중이다 (이중화 토픽들 자동 생성)

 

카프카로 입수하는 정보

  • 서비스 간 비동기 통신
  • 클라이언트, 서버
  • 네트워크 보안 장비 시스템 로그
  • 서비스 데이터로그 CDC

 

안정적인 카프카 운영 방법

1. 장애 발생 징후 미리 감지

2.장애 발생 시 대응 시나리오 잘 갖추기

 

장애 종류

1. 카프카 클러스터 내 일부 노드 장애 -> 카프카는 분산 시스템이라 가용성 해치지 않고 서비스 유지됨, 극복 가능

2. IDC 전면 장애 -> 치명적인 장애, IDC 이중화로 극북 가능, DR(Disaster Recovery) 구축 필요

 

 

이중화 예시

Active-Active

 

- Kafka 모든 메트릭 정보를 프로메테우스로 수집 후 Thanos Ruler 이용해 조건 충족되면 알림

- 클러스터 모든 로그는 ElasticSearch 실시간 수집, 후 ElastAlert 이용해서 에러 로그 발생 시 알림 주도록 구성

 

 

 

 

 

댓글