ontology-prototype / README.md
ForStream
Initial: LP출자 온톨로지 LLM 프로토타입
2b50ae3
metadata
title: LP출자 온톨로지 LLM 프로토타입
emoji: 📊
colorFrom: purple
colorTo: indigo
sdk: docker
app_port: 7860
pinned: false
license: mit
short_description: 온톨로지 기반 폐쇄망 RAG 시스템 (LP 출자 도메인)

LP출자 온톨로지 LLM 적용 프로토타입 테스트

사내 AI 경진대회 출품작 · 온톨로지 기반 폐쇄망 RAG 시스템.

구조

  • api/ — FastAPI 백엔드 (rag_engine + KoSimCSE + 4구성 호출 + LLM 어댑터)
  • web/ — React + Vite 프론트엔드 (3탭: 설명/테스트/데이터 관리)
  • code/rag_engine.py·semantic_search.py·baseline_lib.py 등 핵심 모듈 (active/code 사본)
  • data/investment_ontology_v1_10.ttl·regulations_chunks_v14.jsonl·alias·lookup
  • assets/ — paper_v5.pdf·노드 그래프 png 등 다운로드용 정적 자산
  • Dockerfile — multi-stage (Node 빌드 → Python 런타임)

환경변수 (HF Space Secrets에 설정)

Key 설명
ANTHROPIC_API_KEY Sonnet 4.6 호출용 (필수)
HF_TOKEN HF Inference API용 (Gemma 호출)
LLM_BACKEND hf_inference 권장 (또는 ollama/transformers_local)
HF_GEMMA_MODEL 기본: google/gemma-4-E4B-it (Gemma 4 E4B, multimodal, 128K context)
ANTHROPIC_MODEL 기본: claude-sonnet-4-6

로컬 개발

# 백엔드
cd api && pip install -r requirements.txt
uvicorn main:app --reload --port 8000

# 프론트엔드 (별도 터미널)
cd web && npm install && npm run dev
# Vite dev 서버가 /api 호출을 :8000으로 프록시

핵심 결과 (페이퍼 기준)

  • 패러프레이즈 정답률 (lenient): 키워드 33% → axisB (LLM파서+KoSimCSE) 93~100%
  • Sonnet ≒ Gemma 4 e4b 패러프레이즈 lenient 동등 → 폐쇄망 4B 정당성 입증
  • 30문항 × 8구성 × 3회 = 720 응답 + Sonnet judge 평가 (results_v5_axisB/)