콘텐츠로 이동

Continuum Router

다중 LLM 백엔드를 위한 단일 OpenAI 호환 인터페이스를 제공하는 고성능, 프로덕션 레디 LLM API 라우터입니다. 지능형 라우팅, 헬스 모니터링, 엔터프라이즈급 안정성 기능을 갖추고 있습니다.

주요 기능

  • OpenAI 호환 API


    채팅, Responses, 임베딩, 리랭킹, 희소 임베딩, 이미지 생성, 파일, 모델 엔드포인트를 완벽하게 지원합니다

  • 핫 리로드 설정


    재시작 없이 런타임 설정 업데이트 - 로깅, 백엔드, 헬스 체크, 속도 제한, 서킷 브레이커, 타임아웃 지원

  • Files API와 파일 해석


    파일을 업로드하고 채팅 완료에서 자동 콘텐츠 주입으로 참조할 수 있습니다

  • 다중 백엔드 라우팅


    OpenAI, Anthropic, Gemini, Ollama, vLLM, LocalAI, LM Studio, llama.cpp 전반에 걸친 지능형 라우팅

  • Anthropic 네이티브 API


    프롬프트 캐싱, Claude Code 호환성, 계층적 토큰 카운팅을 지원하는 네이티브 Anthropic Messages API

  • 고급 로드 밸런싱


    Round-Robin, Weighted, Least-Latency, Consistent-Hash를 포함한 다양한 전략

  • 모델 폴백


    크로스 프로바이더 지원을 통한 폴백 모델로의 자동 장애 조치

  • 고성능


    5ms 미만의 라우팅 오버헤드, 1000개 이상의 동시 요청 처리

  • API 키 인증


    API 엔드포인트에 대한 설정 가능한 인증 모드 (허용/차단)

  • 엔터프라이즈 지원


    헬스 체크, 서킷 브레이커, 고급 속도 제한, 메트릭, 분산 트레이싱

  • CORS 지원


    Tauri, Electron 또는 웹 프론트엔드에 임베딩하기 위한 설정 가능한 Cross-Origin Resource Sharing

  • Unix 소켓 지원


    보안 로컬 통신 및 컨테이너 배포를 위해 TCP와 함께 Unix 도메인 소켓에 바인딩

  • 추론 노력 제어


    자동 형식 정규화를 통한 프로바이더 전반의 통합 reasoning_effort 파라미터 (low/medium/high/xhigh)

아키텍처 개요

빠른 시작

1. 설치

curl -L https://github.com/lablup/continuum-router/releases/latest/download/continuum-router-linux-x86_64.tar.gz | tar -xz
sudo mv continuum-router /usr/local/bin/
curl -L https://github.com/lablup/continuum-router/releases/latest/download/continuum-router-linux-aarch64.tar.gz | tar -xz
sudo mv continuum-router /usr/local/bin/
curl -LO https://github.com/lablup/continuum-router/releases/latest/download/continuum-router-macos-aarch64.zip
unzip continuum-router-macos-aarch64.zip
sudo mv continuum-router /usr/local/bin/
git clone https://github.com/lablup/continuum-router.git
cd continuum-router
cargo build --release
sudo mv target/release/continuum-router /usr/local/bin/

2. 설정

# 설정 생성
continuum-router --generate-config > config.yaml

# 백엔드에 맞게 편집
nano config.yaml

3. 실행

# 라우터 시작
continuum-router --config config.yaml

# 테스트
curl http://localhost:8080/health

사용 사례

  • 통합 LLM 게이트웨이 - 다중 LLM 프로바이더를 위한 단일 엔드포인트
  • 부하 분산 - 다중 백엔드 인스턴스에 걸친 요청 분산
  • 고가용성 - 자동 장애 조치 및 헬스 모니터링
  • 비용 최적화 - 가장 비용 효율적인 백엔드로 라우팅
  • 개발 - 로컬과 클라우드 모델 간 원활한 전환

성능

지표 수치
지연 시간 5ms 미만의 라우팅 오버헤드
처리량 인스턴스당 1500개 이상 요청/초
메모리 약 50MB 기본 사용량
확장성 50개 이상의 백엔드, 1000개 이상의 모델

벤치마크 및 튜닝은 성능 가이드를 참조하세요.

도움 받기

라이선스

이 프로젝트는 Apache License 2.0에 따라 라이선스가 부여됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.


Lablup 팀이 사랑을 담아 전해 드립니다