본문 바로가기

DataOps41

[Elasticsearch] 노드 역할 완벽 가이드: Hot, Warm, Cold를 넘어서 Elasticsearch 클러스터를 운영하면서 "노드 역할을 어떻게 설정해야 할까?"라는 고민을 해보셨나요? 많은 개발자들이 Master, Data, Cold 정도만 알고 있지만, 실제로는 훨씬 더 다양하고 정교한 노드 역할들이 존재합니다.이번 글에서는 Elasticsearch의 모든 노드 역할을 살펴보고, 각각의 특징과 최적의 활용 방법을 알아보겠습니다.🎯 왜 노드 역할이 중요한가?Elasticsearch는 분산 시스템이기 때문에 각 노드가 수행하는 역할에 따라 클러스터의 성능과 안정성이 크게 달라집니다. 적절한 노드 역할 설정은:성능 최적화: 워크로드에 맞는 하드웨어 리소스 할당비용 절약: 데이터 생명주기에 따른 스토리지 비용 최적화확장성: 필요에 따른 유연한 클러스터 확장안정성: 장애 발생 시 빠.. 2025. 7. 15.

[Kafka] 컨슈머 리밸런싱: 파티션 할당 전략 깊이 있게 이해하기 리밸런싱의 종류1. 적극적 리밸런싱(Eager Rebalance) - '레인지(Range), 라운드 로빈(RoundRobin), 스티키(Sticky)이 사용하는 전략- 리밸런싱이 일어나는 경우 모든 컨슈머가 데이터 수신을 중단하고 파티션 그룹 구성 포기함 이로인해 모든 작업을 멈추는 stop the wolrd 현상 일어남- 리밸런싱 이후에 컨슈머들이 새롭게 파티션을 할당 받는 방식 순서1. 모든 컨슈머는 아파치 카프카로부터 데이터 수신을 중단.2. 자신들이 가지고 있던 파티션의 그룹 구성을 포기 (대기 시간 동안에는 LAG가 급격하게 증가).3. 리밸런싱 이후에는 컨슈머들이 그룹에 다시 참여하고, 새로운 파티션을 할당 받음. 2. 협력적 리밸런싱(Cooperative Rebalance, Incremen.. 2025. 5. 30.

Elasticsearch Data Streams 시계열 데이터를 다루는 많은 엔지니어들이 직면하는 문제가 있습니다. 시간이 지남에 따라 계속 쌓이는 로그, 메트릭, 이벤트 데이터를 어떻게 효율적으로 관리할 것인가? 특히 대규모 환경에서는 이러한 데이터의 저장, 관리, 쿼리가 상당한 도전이 됩니다. Elasticsearch의 Data Streams 기능은 이런 문제를 해결하기 위한 우아한 솔루션을 제공합니다.Data Streams란 무엇인가?Elasticsearch 7.9 버전에서 정식 출시된 Data Streams는 시계열 데이터를 위한 특별한 추상화 계층입니다. 기존에 여러 개의 인덱스를 수동으로 관리하던 방식에서 벗어나, 마치 하나의 인덱스처럼 동작하는 데이터 관리 패러다임을 제공합니다.가장 중요한 점은 Data Streams가 백엔드에서 여러 인.. 2025. 3. 27.

[Database] INSERT 작업 최적화: 부하 감소를 위한 실용적인 접근법 데이터베이스는 많은 애플리케이션의 핵심 구성 요소입니다. 특히 대량의 데이터를 처리하는 서비스에서 INSERT 작업은 성능에 상당한 영향을 미칠 수 있습니다. 이 글에서는 데이터베이스 INSERT 작업 시 부하를 줄이는 다양한 방법과 실제 예시를 살펴보겠습니다.1. 효율적인 INSERT 구문 사용하기기본 INSERT vs 특수 INSERT 구문INSERT IGNORE 대신 ON DUPLICATE KEY UPDATE 사용INSERT IGNORE는 충돌이 발생할 경우 오류를 무시하고 작업을 계속합니다. 하지만 이 방식은 모든 경우에 최적이 아닙니다.-- 일반적으로 사용되는 방식INSERT IGNORE INTO users (id, name, email, created_by) VALUES (1, 'John', .. 2025. 3. 20.

[MySQL] 중복 데이터 처리하기: INSERT IGNORE, REPLACE INTO, ON DUPLICATE KEY UPDATE 가이드 개요데이터베이스 작업에서 중복 키 처리는 매우 중요한 부분입니다. MySQL은 이러한 중복 상황을 처리하기 위한 여러 방법을 제공하고 있습니다. 이 포스트에서는 INSERT IGNORE, REPLACE INTO, ON DUPLICATE KEY UPDATE 세 가지 방식에 대해 각각의 특징, 장단점, 그리고 적절한 사용 시나리오를 살펴보겠습니다.중복 키란?중복 키(Duplicate Key)는 테이블에 이미 존재하는 고유 값(UNIQUE 또는 PRIMARY KEY)과 동일한 값을 다시 삽입하려 할 때 발생합니다. 기본적으로 MySQL은 중복 키 삽입 시도 시 에러를 발생시키지만, 이를 다양한 방식으로 처리할 수 있습니다.예를 들어, 다음과 같은 users 테이블이 있다고 가정해 보겠습니다:CREATE TAB.. 2025. 3. 20.

[Mysql] pt-online-schema-change 로 서비스 중단 없이 데이터베이스 스키마 변경하기 개요이 글에서는 운영 환경에서 스키마 변경이 필요할 경우, 어떻게 무중단 변경을 수행하는지 살펴보고. 관련해서 Mysql Online DDL, pt-online-schema-change 에 대해서 알아봅니다. 상황회사에서 사용하는 프로그램에서 요청 결과를 log 형식으로 데이터베이스에 저장하고 있습니다. 시간이 흘러 데이터가 많이 쌓였고, 자연스레 쿼리 성능이 떨어지기 시작했습니다. 확인해보니 34,977,366개의 데이터가 쌓여있었고 인덱스 개선을 통해 이를 개선해보기 결정했습니다. Mysql 8.0 을 사용 중이기 때문에 Mysql Online DDL(https://mystudylab.tistory.com/207) 을 활용해도 되었지만, 테이블의 크기가 크고 DML 이 자주 일어나는 테이블에 적용하면.. 2025. 3. 17.

[Mysql] MySQL Online DDL 개요이 글에서는 Mysql Online DDL에 대해서 알아봅니다.MySQL Online DDLMySQL의 Online DDL은 테이블 구조를 변경하면서도 서비스 중단을 최소화하기 위해 설계되었습니다. 등장 전에는 스키마 변경 시, 무조건 테이블 전체 락이 걸리기 때문에 운영 환경에서 사용하기 어려움이 있었습니다.데이터가 많을 수록 중단 시간은 더 오래걸리기 때문에 다른 전략이 필요헀고, DBA들은 복잡한 우회 방법을 개발해야 했습니다:수동으로 새 테이블 생성 후 데이터 일괄 복사트리거를 사용한 변경 내용 동기화테이블 스왑 및 애플리케이션 재시작MySQL 5.6 버전부터 공식적으로 Online DDL 기능을 도입되었고. 이 기능을 통해 많은 ALTER TABLE 작업을 테이블에 대한 전체 락(lock)을.. 2025. 3. 17.

[Kafka] 카프카 메시지 저장 방식, 오프셋이 2개씩 증가? 카프카 저장 단위카프카 메시지는 세그먼트라는 저장 단위로 관리되며 세그먼트 내부에 레코드가 쌓이는 형식입니다.[Topic]└── [Partition] ├── 00000000000000000000.log # 활성 세그먼트 (Active Segment) ├── 00000000000000000000.index # 오프셋 인덱스 ├── 00000000000000000000.timeindex # 타임스탬프 인덱스 ├── 00000000000000456789.log # 이전 세그먼트 ├── 00000000000000456789.index └── 00000000000000456789.timeindex 실제로 카프카에 접속해 토픽 데이터를 확인할 수 있습니다. test1이.. 2024. 11. 25.

[Spark] SparkSQL (DataFrame, DataSet) 구조와 장점 2024. 8. 21.

[Spark] Spark란? Spark?데이터 센터나 클라우드에서 대규모 분산 데이터 처리를 하기 위해 설계된 통합형 엔진 2024. 8. 21.

이전 1 2 3 4 5 다음

티스토리툴바