TL;DR
- 카프카는 토스에서 핵심 기술로 사용되고 있음(금융 관련 정보 제공, 모든 로그 수집, CDC)
- 쿼리만으로 실시간 프로세싱이 가능한 ksqlDB 사용 중
- Active-Active 로 IDC 이중화하여 DR 시스템 구축
- Kafka Connect + Offset Sync로 Kafka 이중화 구성
- 많은 부분을 자동화해서 사용 중이다 (이중화 토픽들 자동 생성)
카프카로 입수하는 정보
- 서비스 간 비동기 통신
- 클라이언트, 서버
- 네트워크 보안 장비 시스템 로그
- 서비스 데이터로그 CDC
안정적인 카프카 운영 방법
1. 장애 발생 징후 미리 감지
2.장애 발생 시 대응 시나리오 잘 갖추기
장애 종류
1. 카프카 클러스터 내 일부 노드 장애 -> 카프카는 분산 시스템이라 가용성 해치지 않고 서비스 유지됨, 극복 가능
2. IDC 전면 장애 -> 치명적인 장애, IDC 이중화로 극북 가능, DR(Disaster Recovery) 구축 필요
이중화 예시
- Kafka 모든 메트릭 정보를 프로메테우스로 수집 후 Thanos Ruler 이용해 조건 충족되면 알림
- 클러스터 모든 로그는 ElasticSearch 실시간 수집, 후 ElastAlert 이용해서 에러 로그 발생 시 알림 주도록 구성
'DataOps > Kafka' 카테고리의 다른 글
[Kafka] Kafka Connect 란? (0) | 2024.06.05 |
---|---|
[Kafka] 컨슈머 그룹 - 토픽 컨슘 관계(?) 삭제 (0) | 2024.05.02 |
[if(kakao)2022] 카프카, 대규모 클러스터 운영 후기 정리 (0) | 2023.09.29 |
[카프카] Rebalancing (0) | 2023.09.06 |
[Kafka] UI Tools 분석글 공유 (0) | 2023.03.13 |
댓글