Sustainability Analyzer

ESG 리포트를 AI로 분석 — 주제 발견, 정성평가, 기업간 비교표 자동 생성

PythonPostgreSQLpgvectorBGE-M3ClaudeDocling

Overview

기업 ESG 리포트 PDF를 파싱하고, AI로 체계적 정성평가를 수행하는 분석 파이프라인. Docling 레이아웃 파서로 표·텍스트 구조를 보존한 채 청킹. BGE-M3 임베딩(Dense+Sparse)으로 하이브리드 시맨틱 검색. Claude가 41개 ESG 주제를 자동 발견하고 415개 체크리스트 항목으로 정성평가를 수행. 로컬 임베딩 + 무료 API 기반. PostgreSQL + pgvector에 구조화 저장.

Features

📄

PDF 구조 보존 파싱

Docling 레이아웃 파서 — 표·섹션 경계를 보존한 계층적 청킹

🔍

하이브리드 검색

BGE-M3 Dense+Sparse 임베딩 — pgvector 하이브리드 시맨틱 검색

🗂️

주제 자동 발견

Claude Sonnet — ESG 리포트에서 41개 주제·415개 체크리스트 자동 생성

📊

AI 정성평가

주제별 체크리스트 기반 자동 평가 — 근거 인용·점수·코멘트

⚖️

기업간 비교표

섹터별 필터링 — 주제×기업 매트릭스 자동 생성

로컬 + 무료

BGE-M3 온디바이스 임베딩, Claude·Gemini 무료 티어 활용

Architecture

Stack

🐍Python 3.12
🐘PostgreSQL 17
🧮pgvector 0.8
🔤BGE-M3
🧠Claude Sonnet
📄Docling
🔥PyTorch
🐳Docker Compose
📊Jinja2