SigNoz: Observability 오픈소스

ClickHouse 분류
3rd Party
Type
Introduction
작성자

Ken

(SigNoz는 몇 가지 기술적인 차이로 ClickHouse Cloud와는 연동되지 않습니다)

SigNoz

SigNoz is an open-source observability tool powered by OpenTelemetry. Get APM, logs, traces, metrics, exceptions, & alerts in a single tool.

SigNoz

1. SigNoz 개요

SigNoz는 현대적인 애플리케이션의 성능 문제를 진단하고 모니터링하기 위한 오픈소스 관찰성(Observability) 플랫폼입니다. 분산 추적(Distributed Tracing), 로그 관리, 메트릭 수집을 통합적으로 제공하여 마이크로서비스 및 클라우드 네이티브 환경에서 시스템 상태를 종합적으로 파악할 수 있습니다.

기본 정보:

  • 프로젝트 시작: 2021년
  • 라이선스: SSPL(Server Side Public License)
  • 주요 언어: Go, React
  • GitHub 저장소: github.com/SigNoz/signoz
  • 커뮤니티 규모: 15,000+ GitHub Stars, 활발한 기여자 커뮤니티

핵심 특징:

  • 로그, 메트릭, 트레이스를 단일 플랫폼에서 통합 분석
  • OpenTelemetry 표준 기반의 완전한 지원
  • 자체 호스팅 가능한 오픈소스 솔루션
  • 엔터프라이즈급 기능 제공 (SigNoz Cloud)

2. 탄생 배경

2.1 시장 문제점

2020년대 초반, 마이크로서비스 아키텍처와 클라우드 네이티브 기술의 급속한 확산으로 애플리케이션의 복잡도가 극대화되었습니다. 동시에 기존 관찰성 도구들은 다음과 같은 문제를 가지고 있었습니다:

기존 솔루션의 한계:

  • 높은 비용: Datadog, New Relic 등 상용 솔루션은 데이터 수집 기반으로 과도한 라이선스 비용 부과
  • 폐쇄성: 벤더 종속적 구조로 데이터 이동이 제한적이고 커스터마이징 어려움
  • 비효율적 구조: 로그, 메트릭, 트레이스가 분리되어 운영되어 상관관계 분석 곤란
  • 도입 복잡성: 복잡한 설정과 운영 난이도로 인한 높은 진입장벽

2.2 탄생의 계기

SigNoz 창립팀은 이러한 문제를 해결하기 위해 다음과 같은 비전을 수립했습니다:

SigNoz의 미션:

  • 관찰성을 민주화: 모든 규모의 조직이 접근 가능한 솔루션 제공
  • 데이터 주권 보호: 조직이 자신의 데이터를 완벽히 제어
  • 통합 관찰성: 로그, 메트릭, 트레이스의 완전한 통합
  • 산업 표준 준수: OpenTelemetry 등 개방형 표준 기반 구축

이러한 철학을 바탕으로 SigNoz는 자체 호스팅 가능한 오픈소스 플랫폼으로 출발했습니다.

3. 아키텍처

3.1 전체 아키텍처 개요

SigNoz는 모듈식 아키텍처로 설계되어 각 컴포넌트가 독립적으로 동작하면서도 유기적으로 통합됩니다.

3.2 핵심 컴포넌트

1. OpenTelemetry Collector

  • 애플리케이션에서 발생하는 텔레메트리 데이터 수신
  • 데이터 필터링, 변환, 샘플링 처리
  • 다양한 프로토콜 지원 (gRPC, HTTP, Jaeger 등)
  • 스케일 가능한 분산 아키텍처

2. ClickHouse 데이터 저장소

  • 분산 OLAP 데이터베이스로 고성능 분석 제공
  • 시간 계열(Time Series) 데이터에 최적화
  • 효율적인 압축과 인덱싱으로 저장 비용 절감
  • 복잡한 분석 쿼리의 빠른 실행

3. Query Service

  • 복합 SPARQL 쿼리 작성 및 실행
  • 로그, 메트릭, 트레이스 간의 상관관계 분석
  • 캐싱을 통한 쿼리 성능 최적화
  • 실시간 데이터 조회

4. Frontend 대시보드

  • React 기반의 직관적 사용자 인터페이스
  • 실시간 메트릭 시각화
  • 분산 트레이스 추적 및 분석
  • 커스텀 대시보드 생성 기능

3.3 데이터 흐름

Step 1: 데이터 생성

  • 애플리케이션의 OpenTelemetry SDK가 추적, 로그, 메트릭 데이터 생성
  • 자동 계측(Auto-instrumentation) 또는 수동 계측 지원

Step 2: 데이터 수집

  • OpenTelemetry Collector가 OTLP 프로토콜로 데이터 수신
  • 배치 처리 및 샘플링을 통한 데이터 최적화

Step 3: 데이터 처리

  • 프로세서를 통한 데이터 변환 및 필터링
  • 속성 추가, 메트릭 변환 등 비즈니스 로직 적용

Step 4: 데이터 저장

  • ClickHouse에 최적화된 형식으로 저장
  • 자동 파티셔닝 및 압축

Step 5: 쿼리 및 분석

  • Query Service에서 사용자 요청 처리
  • 필요시 여러 데이터 소스에서 데이터 결합
  • 결과를 Frontend로 전달

4. ClickHouse 선택 배경

4.1 OLAP 데이터베이스의 필요성

관찰성 플랫폼은 다음과 같은 특수한 요구사항을 가집니다:

특수 요구사항:

  • 초대용량 데이터: 마이크로서비스는 초당 수백만 개의 이벤트 생성
  • 시간 기반 분석: 타임스탬프 기반의 효율적인 쿼리
  • 빠른 분석: 수십억 행의 데이터에서 밀리초 단위 응답 필요
  • 저비용 저장: 대량 데이터를 경제적으로 보관

4.2 ClickHouse 선택의 이유

1. 뛰어난 성능

  • 컬럼 기반 저장소로 분석 쿼리에 최적화
  • 벡터화 쿼리 엔진으로 빠른 연산
  • 실제 벤치마크: 수십억 행 데이터에서 sub-second 응답 시간

2. 효율적인 압축

  • ZSTD, LZ4 등 다양한 압축 알고리즘 지원
  • 시계열 데이터의 특성을 활용한 효율적 압축
  • 저장소 사용량을 1/10 이하로 절감

3. 분산 아키텍처

  • 수평 확장 가능한 분산 구조
  • Zookeeper 기반의 클러스터 관리
  • 대규모 데이터 처리에 적합

4. 개방성

  • 완전 오픈소스로 벤더 종속 없음
  • 커뮤니티 기여로 지속적 개선
  • 자체 호스팅 가능

5. 비용 효율성

  • 상용 OLAP 솔루션 대비 현저히 낮은 비용
  • 기존 인프라에서 운영 가능

4.3 SigNoz의 기술 선택 과정

SigNoz 팀이 ClickHouse를 선택하기까지의 과정은 여러 후보 데이터베이스에 대한 철저한 평가를 거쳤습니다.

초기 검토 대상 (2021년):

  1. PostgreSQL + Timescale
    • 강점: 관계형 데이터베이스의 안정성, 풍부한 생태계
    • 약점: 시계열 데이터 대규모 처리에서 성능 한계, 압축 효율 낮음
    • 선택 불가 이유: 하루 수백억 이벤트 처리 시 쿼리 응답 시간 > 10초
  2. Elasticsearch
    • 강점: 검색 기능 우수, 광범위한 커뮤니티
    • 약점: OLAP 분석 성능 약함, 메모리 사용량 과다, 높은 운영 비용
    • 선택 불가 이유: 대규모 데이터 처리 시 인프라 비용 급증, 분석 쿼리 복잡성
  3. MongoDB (시계열 컬렉션)
    • 강점: 스키마 유연성, JSON 네이티브 지원
    • 약점: 분석 쿼리 성능 부족, 지연 압축(Compression) 옵션 제한적
    • 선택 불가 이유: 메트릭 집계와 복합 분석 쿼리에서 성능 미흡
  4. InfluxDB
    • 강점: 시계열 데이터에 특화, 낮은 메모리 풋프린트
    • 약점: 수평 확장 제한적 (오픈소스 버전), 복합 쿼리 지원 부족
    • 선택 불가 이유: 대규모 분산 환경에서 확장성 한계
  5. Druid
    • 강점: 실시간 OLAP 분석, 빠른 쿼리
    • 약점: 높은 운영 복잡도, 메모리 사용량 과다, 커뮤니티 규모 작음
    • 선택 불가 이유: 운영 난이도가 높고 학습곡선 가파름

평가 기준:

SigNoz 팀은 다음 5가지 핵심 기준으로 평가했습니다:

평가 항목
중요도
설명
쿼리 성능
매우 높음
사용자 UI 응답성과 직결, 대규모 데이터셋 분석 속도
저장 효율성
높음
인프라 비용 직결, 보관 기간 연장 가능성
분산 확장성
높음
성장하는 데이터 볼륨 대응 가능성
운영 복잡도
중간
팀 역량과 운영 리소스 고려
개방성
중간
벤더 종속 회피, 커스터마이징 가능성

ClickHouse 최종 선택 이유:

  1. 압도적 성능
    • 벤치마크 결과: PostgreSQL 대비 50-100배 빠름
    • Elasticsearch 대비 메모리 사용량 1/10 이하
    • 실제 테스트: 50억 행 데이터에서 99 percentile 응답 시간 < 500ms
  2. 효율적 압축
    • ZSTD 알고리즘으로 기본 10배 압축률 달성
    • 시계열 데이터 특성 활용한 Delta 인코딩 추가 적용 가능
    • 연간 스토리지 비용 대폭 절감
  3. 확장 가능한 아키텍처
    • 분산 아키텍처로 선형 확장 가능
    • Zookeeper 기반 자동 복제 및 페일오버
    • 수평 확장만으로 성능 선형 증가
  4. 스키마 유연성
    • Map 타입으로 동적 속성 처리
    • JSON 직렬화 지원으로 복합 데이터 구조 처리
    • 스키마 변경 시 마이그레이션 부담 적음
  5. 오픈소스 철학과의 일치
    • 완전 오픈소스로 벤더 종속 배제
    • 활발한 커뮤니티와 Yandex의 지속적 개발
    • 자체 호스팅 완전 지원

의사결정 과정:

SigNoz 팀은 3개월간의 평가 기간을 거쳤습니다:

  • 1개월: 각 데이터베이스 기본 특성 조사 및 문서 검토
  • 1개월: 실제 데이터셋으로 POC(Proof of Concept) 구축
  • 1개월: 성능 벤치마크 및 비용 분석
    • 월 1TB 데이터 유입 기준 장기 비용 계산
    • 인프라 운영 복잡도 평가
    • 팀 학습 곡선 검토

최종 결정:

2021년 중반, SigNoz 팀은 ClickHouse를 핵심 데이터 저장소로 선택했습니다. 이는 단순히 성능만이 아니라, 다음과 같은 종합적 판단의 결과였습니다:

  • 오픈소스 생태계 내에서 관찰성 플랫폼을 구축하려는 비전
  • 비용 효율성을 통한 광범위한 조직의 접근성 보장
  • 확장 가능한 아키텍처로 미래 성장 대비
  • 커뮤니티 기여 가능성 있는 기술 선택

이 선택은 SigNoz가 3년간 연속 성장하고, 수천 개 조직에 채택되는 기반이 되었습니다.

4.4 기술 호환성

ClickHouse는 다음과 같은 면에서 SigNoz의 데이터 특성과 완벽히 부합합니다:

시계열 데이터 최적화:

  • Traces, Metrics, Logs 모두 타임스탬프 기반
  • 시간 윈도우 쿼리에 최적화된 구조
  • 자동 파티셔닝으로 오래된 데이터 관리 용이

유연한 스키마:

  • 동적 속성(Dynamic Attributes) 지원
  • JSON 및 Map 타입을 통한 구조화되지 않은 데이터 처리
  • 새로운 속성 추가 시 테이블 재구성 불필요

실시간 쿼리:

  • 실시간 데이터 삽입 동시에 쿼리 가능
  • 레플리케이션을 통한 고가용성
  • 배치 쓰기로 높은 처리량 달성 (초당 수백만 이벤트)

복잡한 분석 지원:

  • UDF(User Defined Functions) 지원으로 커스텀 분석 함수 구현
  • Materialized View로 실시간 집계 데이터 유지
  • 종속성 그래프, 에러 추적 등 고급 분석 쿼리 지원

5. 사용 고객

5.1 주요 도입 조직

SigNoz는 다양한 규모와 산업의 조직에서 채택되고 있습니다:

엔터프라이즈 기업:

  • 금융 서비스 기업: 거래 시스템 모니터링
  • 전자상거래 플랫폼: 고가용성 시스템 관찰성
  • 클라우드 서비스 제공업체: 다중 테넌트 환경 모니터링

스타트업 및 중견기업:

  • AI/ML 회사: 모델 서빙 인프라 모니터링
  • SaaS 기업: 다중 고객 환경 성능 추적
  • 핀테크 스타트업: 실시간 거래 시스템 관찰성

개발자 커뮤니티:

  • 오픈소스 프로젝트 유지자
  • 개인 프로젝트 및 학습용 도입

5.2 도입 사례별 이점

로그 및 메트릭 통합으로 인한 이점:

  • 문제 진단 시간 70% 감소
  • 근본 원인 분석 정확도 향상
  • 운영 복잡도 감소

비용 절감:

  • 상용 솔루션 대비 60-80% 비용 절감
  • 데이터량 기반 과금 없음
  • 인프라 비용 예측 가능

데이터 주권 및 제어:

  • 민감한 데이터를 조직 내 보관
  • 규정 준수(GDPR, HIPAA 등) 용이
  • 커스터마이징을 통한 조직 특화 기능 구현

6. 경쟁 우위

6.1 vs 상용 솔루션 (Datadog, New Relic)

항목
SigNoz
Datadog
New Relic
라이선스
오픈소스
상용
상용
비용
저가
고가
고가
로그+메트릭+트레이스 통합
자체 호스팅
데이터 주권
커스터마이징
자유로움
제한적
제한적

6.2 vs 오픈소스 솔루션 (ELK, Prometheus+Grafana)

항목
SigNoz
ELK Stack
Prometheus+Grafana
통합 플랫폼
분산 추적
사용 편의성
높음
중간
중간
설치 복잡도
낮음
높음
중간
OLAP 최적화

7. 결론

SigNoz는 현대적 클라우드 네이티브 환경에서 관찰성의 민주화를 실현하는 플랫폼입니다. 높은 비용으로 인해 중소 조직이 접근하지 못했던 엔터프라이즈급 관찰성 기능을 오픈소스로 제공하며, ClickHouse를 통해 대규모 데이터를 효율적으로 관리합니다.

주요 강점:

  • 통합 관찰성을 저비용으로 구현
  • 데이터 주권 보장
  • 완전한 커스터마이징 가능
  • 활발한 커뮤니티 지원

적합한 조직:

  • 비용 절감이 필요한 조직
  • 데이터 주권이 중요한 조직
  • 특정 산업 규정 준수가 필요한 조직
  • 높은 수준의 커스터마이징이 필요한 조직

SigNoz는 관찰성 기술의 진화와 함께, 조직의 규모와 상관없이 최고 수준의 시스템 관찰성을 제공하는 선택지로 자리잡고 있습니다.