Continuum Router¶

다중 LLM 백엔드를 위한 단일 OpenAI 호환 인터페이스를 제공하는 고성능, 프로덕션 레디 LLM API 라우터입니다. 지능형 라우팅, 헬스 모니터링, 엔터프라이즈급 안정성 기능을 갖추고 있습니다.

주요 기능¶

OpenAI 호환 API

채팅, Responses, 임베딩, 리랭킹, 희소 임베딩, 이미지 생성, 파일, 모델 엔드포인트를 완벽하게 지원합니다
핫 리로드 설정

재시작 없이 런타임 설정 업데이트 - 로깅, 백엔드, 헬스 체크, 속도 제한, 서킷 브레이커, 타임아웃 지원
Files API와 파일 해석

파일을 업로드하고 채팅 완료에서 자동 콘텐츠 주입으로 참조할 수 있습니다
다중 백엔드 라우팅

OpenAI, Anthropic, Gemini, Ollama, vLLM, LocalAI, LM Studio, llama.cpp 전반에 걸친 지능형 라우팅
Anthropic 네이티브 API

프롬프트 캐싱, Claude Code 호환성, 계층적 토큰 카운팅을 지원하는 네이티브 Anthropic Messages API
고급 로드 밸런싱

Round-Robin, Weighted, Least-Latency, Consistent-Hash를 포함한 다양한 전략
모델 폴백

크로스 프로바이더 지원을 통한 폴백 모델로의 자동 장애 조치
고성능

5ms 미만의 라우팅 오버헤드, 1000개 이상의 동시 요청 처리
API 키 인증

API 엔드포인트에 대한 설정 가능한 인증 모드 (허용/차단)
엔터프라이즈 지원

헬스 체크, 서킷 브레이커, 고급 속도 제한, 메트릭, 분산 트레이싱
CORS 지원

Tauri, Electron 또는 웹 프론트엔드에 임베딩하기 위한 설정 가능한 Cross-Origin Resource Sharing
Unix 소켓 지원

보안 로컬 통신 및 컨테이너 배포를 위해 TCP와 함께 Unix 도메인 소켓에 바인딩
추론 노력 제어

자동 형식 정규화를 통한 프로바이더 전반의 통합 reasoning_effort 파라미터 (low/medium/high/xhigh)

아키텍처 개요¶

router overview diagram

빠른 시작¶

1. 설치¶

Linux (x86_64)Linux (aarch64)macOS (Apple Silicon)소스에서 빌드

curl -L https://github.com/lablup/continuum-router/releases/latest/download/continuum-router-linux-x86_64.tar.gz | tar -xz
sudo mv continuum-router /usr/local/bin/

curl -L https://github.com/lablup/continuum-router/releases/latest/download/continuum-router-linux-aarch64.tar.gz | tar -xz
sudo mv continuum-router /usr/local/bin/

curl -LO https://github.com/lablup/continuum-router/releases/latest/download/continuum-router-macos-aarch64.zip
unzip continuum-router-macos-aarch64.zip
sudo mv continuum-router /usr/local/bin/

git clone https://github.com/lablup/continuum-router.git
cd continuum-router
cargo build --release
sudo mv target/release/continuum-router /usr/local/bin/

2. 설정¶

# 설정 생성
continuum-router --generate-config > config.yaml

# 백엔드에 맞게 편집
nano config.yaml

3. 실행¶

# 라우터 시작
continuum-router --config config.yaml

# 테스트
curl http://localhost:8080/health

사용 사례¶

통합 LLM 게이트웨이 - 다중 LLM 프로바이더를 위한 단일 엔드포인트
부하 분산 - 다중 백엔드 인스턴스에 걸친 요청 분산
고가용성 - 자동 장애 조치 및 헬스 모니터링
비용 최적화 - 가장 비용 효율적인 백엔드로 라우팅
개발 - 로컬과 클라우드 모델 간 원활한 전환

성능¶

지표	수치
지연 시간	5ms 미만의 라우팅 오버헤드
처리량	인스턴스당 1500개 이상 요청/초
메모리	약 50MB 기본 사용량
확장성	50개 이상의 백엔드, 1000개 이상의 모델

벤치마크 및 튜닝은 성능 가이드를 참조하세요.

도움 받기¶

문서: 이 사이트에서 종합 가이드를 찾아보세요
이슈: GitHub Issues
토론: GitHub Discussions

라이선스¶

이 프로젝트는 Apache License 2.0에 따라 라이선스가 부여됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.

Lablup 팀이 사랑을 담아 전해 드립니다