RAG-Wissenssystem

Retrieval-Augmented-Generation-System mit semantischer Suche, Quellenangabe und einer REST-API für dokumentenbasiertes Q&A.

Semantische Suche mit Quellenangabe

Lokale LLM-Inferenz über Ollama

REST-API mit Multi-Turn-Konversationsunterstützung

Grundlage für produktive RAG-Implementierungen

Ein Retrieval-Augmented-Generation-(RAG)-System, das semantische Frage-Antwort-Funktionalität über Dokumentensammlungen mit vollständiger Quellenangabe ermöglicht. Als Lernprojekt gebaut, das sich zu einer wiederverwendbaren Architektur entwickelt hat, die ich seitdem in Produktionssystemen einsetze.

Das System verarbeitet PDF-Dokumente, teilt sie intelligent in Abschnitte, generiert Embeddings mit HuggingFace Sentence Transformers (BAAI/bge-small-en-v1.5) und speichert sie in ChromaDB für effiziente Vektor-Ähnlichkeitssuche. Bei einer Frage über die REST-API ruft das System die relevantesten Dokumentabschnitte ab, ergänzt den LLM-Prompt mit diesem Kontext und generiert eine Antwort mit Quellenangaben.

Die API ist mit Flask gebaut und unterstützt Konversationsmanagement, das Multi-Turn-Interaktionen ermöglicht, bei denen sich der Kontext über Fragen hinweg aufbaut.

Die LLM-Inferenz läuft lokal über Ollama, wodurch alles privat und kostenlos bleibt. Das System unterstützt mehrere Sprachen in Dokumenten und Abfragen.

Dieses Projekt war grundlegend für das Verständnis von RAG-Mustern, die ich später im Produktionsmaßstab in der B2B-Plattform implementiert habe — einschließlich Chunking-Strategien, Embedding-Modellauswahl, Retrieval-Tuning und der kritischen Herausforderung, Halluzinationen in der fundierten Generierung zu reduzieren.

Etwas Ähnliches gesucht?

Lassen Sie uns darüber sprechen, was ich für Ihr Unternehmen bauen kann.

Kontakt aufnehmen