| 규모 | 추천 GPU | 부가 인프라 | 비고 |
|---|---|---|---|
| 검토·PoC | H100 1장 (또는 A100 80GB) | 그래프 저장소 + 벡터 저장소 + 로컬 임베딩 | 20B 파라미터 사내 LLM 가정 |
| 단일 산단·중소 조직 | H100 4~8장 | 동일 | 현재 테스트는 경량 오픈 모델 기준선. 본 GPU 사양에서 70B급 LLM 운영 가능 |
| 산업단지·그룹사 | H100/H200 클러스터 | 동일 | 산단 단위 GPU 풀, 클라우드 하이브리드 가능 |
| 하이브리드 | 사내 GPU + 외부 LLM 옵트인 폴백 | 동일 | 비용 최적·고난도 질의만 외부 |
부가 스토리지·서비스
| 계층 | 기술 |
|---|---|
| 그래프 저장소 | 분산 그래프 DB |
| 벡터 저장소 | 벡터 인덱스 DB |
| 임베딩 | 한국어 호환 sentence embedding (로컬 추론 — 외부 API 호출 없음) |
| 사내 LLM | 현재 테스트는 경량 오픈 모델 기준선. 하드웨어 사양에 따라 70B급 LLM 운영 가능 (오픈소스·국산 모델 계열 교체 가능) |
| 외부 LLM 폴백 | OpenAI GPT, Anthropic Claude, Google Gemini (옵트인) |
| 인입·파싱 | 자체 구조 추출 파서 (한국어 스캔·필기 OCR 보강은 PoC 단계 평가 후 결정) |
| 오케스트레이션 | 에이전트 오케스트레이션 스택 |
| Backend | Python Backend Framework |
| 인프라 | 주요 클라우드 GPU + 가상머신 환경, Docker 컨테이너 |
동시 사용자 수에 따른 권장 구성은 도입사 측 트래픽·SLA 결정 후 함께 산정한다.