이기훈
원문:
AI 혁신과 함께 찾아온 도전
불과 몇 년 만에 Anthropic은 AI의 가능성을 확장할 뿐만 아니라 안전하고 책임감 있는 방식으로 이를 수행하는 회사로 명성을 쌓았습니다. Claude 시리즈의 최첨단 언어 모델을 개발한 회사로서, 이러한 약속은 성능과 보호 측면에서 관찰가능성(observability)이 핵심 역할을 하는 인프라 깊숙이까지 확장됩니다.
"ClickHouse는 Claude 4 개발과 출시에 중요한 역할을 했습니다."
Maruth Goyal, Anthropic 기술진
폭발적인 성장이 가져온 위기
성장의 전환점
2024년 3월 Claude 3가 출시되었을 때 "사람들이 주목하기 시작했다"고 Anthropic의 관찰가능성 팀에서 근무하는 Maruth Goyal은 말합니다. 하지만 몇 달 후 Claude 3.5가 출시되었을 때 "상황이 급변했다"고 표현합니다.
사용량이 급증했고, 모델이 더욱 정교해졌으며, 이를 지원하는 인프라는 빠르게 확장되어야 했습니다. 컴퓨팅 요구사항이 폭발적으로 증가했고, 이와 함께 점점 복잡해지는 훈련과 추론 워크로드를 모니터링, 문제 해결, 미세 조정하기 위해 필요한 데이터 볼륨도 함께 증가했습니다.
시스템 한계에 도달
기존 시스템의 문제점:
- 📊 데이터베이스 과부하: "데이터베이스가 불타기 시작했습니다"
- ⏱️ 쿼리 타임아웃: 응답 시간이 급격히 증가
- 😤 엔지니어 좌절: 핵심 업무에 집중할 수 없는 상황
- 💸 비용 폭증: "돈도 불타기 시작했습니다"
데이터량 증가 패턴:
- 초기: "약간의 컴퓨팅"과 "약간의 데이터"
- 성장기: "훨씬 많은 컴퓨팅"과 "훨씬 많은 데이터"
- 폭증기: "엄청나게 많은 컴퓨팅"과 "엄청나게 많은 데이터"
보안 요구사항의 강화
AI Safety Level 3 도입
Claude Opus 4 출시와 함께 Anthropic은 AI 안전 레벨 3 보호조치를 활성화했습니다. 이는 오남용 위험을 줄이기 위해 설계된 내부 보호장치입니다.
모델 가중치 보호의 중요성
"극도로 유능한 모델 가중치는 악의적 행위자들에 의해 극도로 나쁜 결과를 달성하는 데 사용될 수 있다" - 이를 방지하기 위해 클러스터에서의 모든 데이터 유출을 매우 공격적으로 모니터링합니다.
핵심 보안 원칙: "어떤 데이터도 Anthropic의 보안 컴퓨팅 환경을 떠나서는 안 됩니다"
ClickHouse 선택: AI의 추천
기술적 요구사항 정의
2024년 말, Maruth와 Anthropic 팀은 더 나은 데이터베이스 솔루션을 찾기 시작했습니다. 그들의 요구사항은 야심찬 것이었습니다:
🎯 핵심 요구사항
- 실시간 대용량 데이터 수집 - 거대한 양의 데이터를 실시간으로 처리
- 빠른 대화형 분석 - 반구조화된 데이터에 대한 빠르고 기능이 풍부한 분석
- 보안 환경 배포 - Anthropic의 보안 컴퓨팅 환경에 배포 가능
- 확장 가능한 비용 구조 - 스케일에 따라 비용 효율적
- 표준 도구와의 통합 - 업계 표준 관찰가능성 도구와의 호환성
- 낮은 운영 비용 - 3명의 작은 팀으로도 관리 가능
Claude의 추천
진정한 Anthropic 스타일로, Maruth는 "슈퍼인텔리전스에게 무엇을 사용해야 하는지 물어볼 수 있다면 좋겠다"고 농담했습니다. "마침 하나가 있어서 편리했죠."
Claude에게 추천을 요청했고, Claude는 ClickHouse를 제안했습니다.
✅ ClickHouse의 장점
- 실시간 대규모 수집 지원
- 빠른 분석 성능
- 유연한 배포 옵션
- 비용 효율적인 스케일링
맞춤형 배포: Anthropic 방식
기본 옵션들의 한계
ClickHouse는 기술적으로 적합했지만, 기본 배포 옵션들은 Anthropic의 요구사항과 완전히 맞지 않았습니다.
📊 배포 옵션 비교
배포 방식 | 장점 | 단점 |
오픈소스 버전 | • 빠른 시작
• 검증된 안정성
• 뛰어난 성능 | • 디스크/복제 관리 필요
• 리샤딩 등 복잡한 운영
• 높은 운영 비용 |
ClickHouse Cloud | • 동적 스케일링
• 비용 효율적 블롭 스토리지 | • 클라우드 환경 전용
• 자체 보안 환경 불가 |
하이브리드 접근법 채택
해결책: ClickHouse 팀과 협력하여 Anthropic의 인프라 내에서 ClickHouse Cloud 아키텍처의 맞춤형 air-gapped 버전을 배포했습니다.
🏗️ 배포 아키텍처
핵심 구성 요소:
- Kubernetes 기반 배포 - ClickHouse Operator로 클러스터 오케스트레이션
- 3개의 키퍼 - 가용성 영역별로 하나씩 (ZooKeeper 대체)
- 수평 확장 가능한 서버 - 객체 스토리지를 백킹 레이어로 사용
- Prometheus 모니터링 - 표준 도구와의 통합
- Vector 수집 - 관찰가능성 파이프라인의 효율적인 구성
성과: 속도, 보안, 그리고 평온
극적인 개선 효과
Anthropic의 새로운 관찰가능성 설정은 이미 큰 개선을 가져왔습니다:
성과 요약
🟢 "데이터베이스가 안정적입니다"
⚡ "쿼리가 번개처럼 빠릅니다"
💰 "돈이 더 이상 타지 않습니다"
📈 운영팀의 변화
이전 상황 (Before):
- 😴 데이터베이스 운영자들이 밤잠을 못 잠
- 😤 정말 하고 싶은 일을 할 수 없는 상황
- ⏰ 시간을 모두 문제 해결에 소모:
- 지원팀 연락
- 리샤딩 요청
- 쓰기 복제 지연 문제 해결
현재 상황 (After):
- ✨ "그런 문제들이 전혀 없습니다"
- 😌 "한동안 데이터베이스가 돌아가는 걸 신경 쓰지 않았어요"
- 🎯 이것이 바로 원하던 상태입니다
Claude 4 개발 지원
🚀 최첨단 모델 개발에서의 역할
"ClickHouse는 Claude 4 개발과 출시에 중요한 역할을 했습니다"라고 Maruth는 강조합니다.
핵심 기여 요소:
- 실시간 가시성: 고도로 발전된 모델 훈련에는 성능 메트릭과 시스템 동작에 대한 지속적인 가시성 필요
- 빠른 분석: ClickHouse는 실시간으로 해당 데이터를 분석할 수 있는 속도와 유연성 제공
- 검증된 가치: "최첨단 언어 모델 생성을 돕는 데 이미 상당한 가치를 제공했습니다"
미래 방향: 에이전틱 애널리틱스
차세대 도전과제
현재 팀이 주목하고 있는 다음 영역은 에이전틱 애널리틱스입니다.
🤖 ClickHouse MCP 서버의 혁신
MCP 서버 도입의 의미:
- Anthropic의 모델들을 ClickHouse에 직접 연결 가능
- Claude Code(에이전틱 코딩 도구) 같은 에이전트들이 ClickHouse를 프로그래밍 방식으로 쿼리
- 기존의 쿼리 언어 작성 없이 질문하고 답을 얻을 수 있음
💭 관찰가능성에 대한 새로운 관점
Maruth Goyal의 통찰
"이것에 대해 정말 흥미진진한 이유는, 제 생각에 관찰가능성은 SQL이나 PromQL에 관한 것이 아니기 때문입니다. 질문에 관한 것입니다. 질문을 할 수 있고 필요한 답을 돌려받을 수 있어야 합니다. 근본적으로, 그것이 관찰가능성의 본질입니다."
🔮 에이전틱 미래로의 전환
새로운 패러다임:
- 전통적 방식: SQL/PromQL 쿼리 작성 → 결과 해석
- 에이전틱 방식: 자연어 질문 → AI 에이전트가 자동 분석 → 인사이트 제공
결론: AI 시대를 위한 확장 가능한 기반
현재 성과와 미래 준비
✅ 현재 달성한 성과
- 확장 가능하고 안전한 기반 구축
- 오늘날의 AI 워크로드를 안정적으로 지원
- 엄격한 보안 요구사항 충족
- 팀의 생산성 향상
- 인프라 걱정 없이 핵심 업무에 집중
- 더 나은 도구 구축과 빠른 모델 출시 가능
- Claude 능력의 경계 확장에 전념
🚀 미래를 향한 준비
에이전틱 애널리틱스 시대:
- 더 동적이고 에이전트 중심의 미래 구축
- AI가 직접 데이터를 질의하고 분석하는 새로운 패러다임
- 관찰가능성의 민주화: 누구나 복잡한 쿼리 없이 인사이트 획득 가능
핵심 교훈
AI 시대의 데이터 인프라 원칙
- 전통적인 데이터베이스 솔루션으로는 충분하지 않습니다
- 실시간 대규모 데이터 처리 + 강력한 보안 + 낮은 운영 오버헤드가 모두 필요
- 적절한 기술적 선택이 AI 연구와 개발의 속도를 크게 향상시킬 수 있습니다
Anthropic의 사례는 ClickHouse가 단순한 데이터베이스를 넘어 AI 시대의 핵심 인프라로서 어떻게 역할할 수 있는지를 보여줍니다. 특히 한국에서 AI와 데이터 분석 분야가 급성장하고 있는 지금, 이러한 성공 사례는 우리에게 중요한 시사점을 제공합니다.
이 글은 Anthropic의 실제 ClickHouse 도입 사례를 바탕으로 작성되었습니다. AI 시대의 관찰가능성 구축에 대한 더 자세한 정보가 필요하시다면 언제든 문의해 주세요.