Sustainability Analyzer
ESG 리포트를 AI로 분석 — 주제 발견, 정성평가, 기업간 비교표 자동 생성
PythonPostgreSQLpgvectorBGE-M3ClaudeDocling

Overview
기업 ESG 리포트 PDF를 파싱하고, AI로 체계적 정성평가를 수행하는 분석 파이프라인. Docling 레이아웃 파서로 표·텍스트 구조를 보존한 채 청킹. BGE-M3 임베딩(Dense+Sparse)으로 하이브리드 시맨틱 검색. Claude가 41개 ESG 주제를 자동 발견하고 415개 체크리스트 항목으로 정성평가를 수행. 로컬 임베딩 + 무료 API 기반. PostgreSQL + pgvector에 구조화 저장.
Features
📄
PDF 구조 보존 파싱
Docling 레이아웃 파서 — 표·섹션 경계를 보존한 계층적 청킹
🔍
하이브리드 검색
BGE-M3 Dense+Sparse 임베딩 — pgvector 하이브리드 시맨틱 검색
🗂️
주제 자동 발견
Claude Sonnet — ESG 리포트에서 41개 주제·415개 체크리스트 자동 생성
📊
AI 정성평가
주제별 체크리스트 기반 자동 평가 — 근거 인용·점수·코멘트
⚖️
기업간 비교표
섹터별 필터링 — 주제×기업 매트릭스 자동 생성
⚡
로컬 + 무료
BGE-M3 온디바이스 임베딩, Claude·Gemini 무료 티어 활용
Architecture
Stack
🐍Python 3.12
🐘PostgreSQL 17
🧮pgvector 0.8
🔤BGE-M3
🧠Claude Sonnet
📄Docling
🔥PyTorch
🐳Docker Compose
📊Jinja2