Continuum Router¶
다중 LLM 백엔드를 위한 단일 OpenAI 호환 인터페이스를 제공하는 고성능, 프로덕션 레디 LLM API 라우터입니다. 지능형 라우팅, 헬스 모니터링, 엔터프라이즈급 안정성 기능을 갖추고 있습니다.
주요 기능¶
-
OpenAI 호환 API
채팅 완료, 완료, 모델, 파일 엔드포인트를 완벽하게 지원합니다
-
핫 리로드 설정
재시작 없이 런타임 설정 업데이트 - 로깅, 백엔드, 헬스 체크, 속도 제한, 서킷 브레이커, 타임아웃 지원
-
Files API와 파일 해석
파일을 업로드하고 채팅 완료에서 자동 콘텐츠 주입으로 참조할 수 있습니다
-
다중 백엔드 라우팅
OpenAI, Anthropic, Gemini, Ollama, vLLM, LocalAI, LM Studio 전반에 걸친 지능형 라우팅
-
고급 로드 밸런싱
Round-Robin, Weighted, Least-Latency, Consistent-Hash를 포함한 다양한 전략
-
모델 폴백
크로스 프로바이더 지원을 통한 폴백 모델로의 자동 장애 조치
-
고성능
5ms 미만의 라우팅 오버헤드, 1000개 이상의 동시 요청 처리
-
API 키 인증
API 엔드포인트에 대한 설정 가능한 인증 모드 (허용/차단)
-
엔터프라이즈 지원
헬스 체크, 서킷 브레이커, 고급 속도 제한, 메트릭, 분산 트레이싱
아키텍처 개요¶
클라이언트 애플리케이션
|
+---------------v---------------+
| Continuum Router |
| +------------------------+ |
| | 로드 밸런서 | |
| | 헬스 모니터 | |
| | 서킷 브레이커 | |
| | 메트릭 & 트레이싱 | |
| +------------------------+ |
+---------------+---------------+
|
+--------+----------+----------+---------+
| | | | |
v v v v v
+------+ +-------+ +--------+ +------+ +-------+
|OpenAI| |Anthro-| |Gemini | |Ollama| | vLLM |
| | |pic | | | | | | |
+------+ +-------+ +--------+ +------+ +-------+
빠른 시작¶
1. 설치¶
2. 설정¶
3. 실행¶
사용 사례¶
- 통합 LLM 게이트웨이 - 다중 LLM 프로바이더를 위한 단일 엔드포인트
- 부하 분산 - 다중 백엔드 인스턴스에 걸친 요청 분산
- 고가용성 - 자동 장애 조치 및 헬스 모니터링
- 비용 최적화 - 가장 비용 효율적인 백엔드로 라우팅
- 개발 - 로컬과 클라우드 모델 간 원활한 전환
성능¶
| 지표 | 수치 |
|---|---|
| 지연 시간 | 5ms 미만의 라우팅 오버헤드 |
| 처리량 | 인스턴스당 1500개 이상 요청/초 |
| 메모리 | 약 50MB 기본 사용량 |
| 확장성 | 50개 이상의 백엔드, 1000개 이상의 모델 |
벤치마크 및 튜닝은 성능 가이드를 참조하세요.
도움 받기¶
- 문서: 이 사이트에서 종합 가이드를 찾아보세요
- 이슈: GitHub Issues
- 토론: GitHub Discussions
라이선스¶
이 프로젝트는 Apache License 2.0에 따라 라이선스가 부여됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.
Lablup 팀이 사랑을 담아 전해 드립니다