GraphRAG Visualizer: Wissensgraph-gestütztes RAG für Dokumentenanalyse

Einleitung

GraphRAG Visualizer ist ein Projekt zur Visualisierung und Exploration von Wissensgraphen, die mit Microsoft GraphRAG aus Dokumentensammlungen extrahiert wurden. Das Projekt kombiniert:

GraphRAG Indexing Pipeline für die Extraktion von Entitäten, Beziehungen und Communities
GraphRAG API für lokale und globale Suchanfragen
GraphRAG Visualizer für die interaktive Exploration des Wissensgraphen

Während traditionelle RAG-Systeme (Retrieval-Augmented Generation) auf einfacher Vektorsuche basieren, geht GraphRAG einen Schritt weiter: Es extrahiert strukturierte Wissensgraphen aus Dokumenten und ermöglicht so tiefere semantische Zusammenhänge und bessere Antworten auf komplexe Fragen.

Graph-Struktur einer Entity mit ihren Beziehungen

Problem Statement: Warum GraphRAG?

Limitationen von Traditional RAG

Klassische RAG-Systeme funktionieren nach einem einfachen Prinzip:

Chunking: Dokumente werden in kleine Textabschnitte unterteilt
Embedding: Jeder Chunk wird in einen Vektor umgewandelt
Retrieval: Bei einer Anfrage werden die semantisch ähnlichsten Chunks abgerufen
Generation: Ein LLM generiert eine Antwort basierend auf den abgerufenen Chunks

Das Problem: Diese Methode versagt bei Fragen, die globales Wissen über den gesamten Dokumentenkorpus erfordern.

Beispiel:

"Was sind die Hauptthemen in diesen 100 Forschungspapieren?"

Ein traditionelles RAG-System würde nur wenige semantisch ähnliche Chunks abrufen – aber die Frage erfordert eine Synthese über alle Dokumente hinweg.

GraphRAG's Lösung

GraphRAG adressiert diese Limitation durch:

Knowledge Graph Extraction: Entitäten und Beziehungen werden aus dem Text extrahiert
Community Detection: Verwandte Entitäten werden in thematische Cluster gruppiert
Hierarchical Summarization: Für jede Community werden Zusammenfassungen generiert
Global Search: Anfragen können über alle Community-Reports beantwortet werden

GraphRAG

traditional RAG

Architektur & Technologie-Stack

Systemübersicht

Mein GraphRAG Architektur

Verwendete Technologien

Komponente	Technologie	Beschreibung
Indexing	Microsoft GraphRAG	Knowledge Graph Extraction Pipeline
LLM	OpenAI GPT-4o-mini	Community Report Generation
Embedding	OpenAI text-embedding-3-small	Query Embedding (für Local/Global Search)
API	graphrag-api	FastAPI Backend für Search Queries
Frontend	graphrag-visualizer	React-basierte Visualisierung
Graph Rendering	react-force-graph	2D/3D Force-Directed Graph

GraphRAG Indexing: Standard vs. Fast Method

GraphRAG bietet zwei Indexierungsmethoden mit unterschiedlichen Trade-offs:

Standard Method (`graphrag index`)

Die Standard-Methode verwendet ein LLM für alle Reasoning-Tasks:

Entity Extraction: LLM extrahiert benannte Entitäten mit Beschreibungen
Relationship Extraction: LLM beschreibt Beziehungen zwischen Entitätspaaren
Entity/Relationship Summarization: LLM fasst alle Instanzen zusammen
Community Report Generation: LLM generiert Zusammenfassungen für jede Community

Vorteile:

Hochwertige, semantisch reiche Beschreibungen
Bessere Graph-Qualität für Exploration

Nachteile:

Hohe LLM-Kosten (~75% der Indexierungskosten)
Langsame Verarbeitung

Fast Method (`graphrag index --method fast`)

Die Fast-Methode ersetzt LLM-Reasoning durch klassische NLP-Techniken:

Entity Extraction: Noun Phrases werden mit NLTK/spaCy extrahiert (keine Beschreibungen)
Relationship Extraction: Beziehungen basieren auf Text-Unit Co-Occurrence
No Summarization: Nicht notwendig
Community Report Generation: Nur dieser Schritt verwendet noch das LLM

Vorteile:

Deutlich geringere Kosten
Schnellere Verarbeitung

Nachteile:

Weniger semantisch reiche Beschreibungen
"Rauschigerer" Graph

Meine Konfiguration: Fast Method mit OpenAI

Für dieses Projekt habe ich die Fast Method gewählt, um Kosten zu minimieren und schnelle Iterationen zu ermöglichen:

// LLM settings
models:
  default_chat_model:
    type: openai_chat
    api_base: https://api.openai.com/v1
    model: gpt-4o-mini
    api_key: ${OPEN_AI_KEY}
    model_supports_json: true
    concurrent_requests: 3
    async_mode: threaded
    retry_strategy: native
    max_retries: 2
    tokens_per_minute: 100000
    requests_per_minute: 200
    completion_params:
      temperature: 0.0
      max_tokens: 1536
    encoding_model: cl100k_base

  default_embedding_model:
    type: openai_embedding
    api_base: https://api.openai.com/v1
    model: text-embedding-3-small
    api_key: ${OPEN_AI_KEY}
    concurrent_requests: 3
    async_mode: threaded

// Input settings
input:
  type: file
  file_type: text
  base_dir: "input"

chunks:
  size: 1200
  overlap: 100
  group_by_columns: [id]

// Workflow settings
embed_text:
  enabled: true

extract_graph_nlp:
  text_analyzer:
    extractor_type: regex_english # Fast NLP extraction

cluster_graph:
  max_cluster_size: 10

community_reports:
  model_id: default_chat_model
  graph_prompt: "prompts/community_report_graph.txt"
  text_prompt: "prompts/community_report_text.txt"
  max_length: 2000
  max_input_length: 8000

Wichtige Konfigurationspunkte:

embed_text: enabled: true – LanceDB Vector Store wird bei default immer erstellt, auch wenn disabled
extract_graph_nlp.extractor_type: regex_english – Verwendet regex-basierte Noun-Phrase-Extraktion anstelle von LLM
community_reports – Der einzige Schritt, der das LLM verwendet

Indexing Pipeline im Detail

Datenfluss

Daten Fluss

Kostenabschätzung (Fast Method)

Für 2 Text-Dateien (~100 KB):

Schritt	Token-Verbrauch	Kosten (gpt-4o-mini)
NLP-Schritte	0	$0.00
Community Reports	~40-70k Input, ~5-10k Output	~$0.01-0.03
Gesamt		~$0.02

Zum Vergleich: Die Standard-Methode würde für dasselbe Corpus etwa $0.20-0.50 kosten.

Output: Parquet-Dateien

Nach erfolgreichem Indexing werden folgende Parquet-Dateien generiert:

Datei	Inhalt	Erforderlich für Visualizer
`entities.parquet`	Extrahierte Entitäten (Noun Phrases)	✓ Erforderlich
`relationships.parquet`	Beziehungen zwischen Entitäten	✓ Erforderlich
`documents.parquet`	Metadaten der Eingabedokumente	Optional
`text_units.parquet`	Text-Chunks mit Entity-Referenzen	Optional
`communities.parquet`	Community-Cluster-Zuordnungen	Optional
`community_reports.parquet`	LLM-generierte Community-Zusammenfassungen	Optional