RAG-Wissenssystem
Retrieval-Augmented-Generation-System mit semantischer Suche, Quellenangabe und einer REST-API für dokumentenbasiertes Q&A.
Semantische Suche mit Quellenangabe
Lokale LLM-Inferenz über Ollama
REST-API mit Multi-Turn-Konversationsunterstützung
Grundlage für produktive RAG-Implementierungen
Ein Retrieval-Augmented-Generation-(RAG)-System, das semantische Frage-Antwort-Funktionalität über Dokumentensammlungen mit vollständiger Quellenangabe ermöglicht. Als Lernprojekt gebaut, das sich zu einer wiederverwendbaren Architektur entwickelt hat, die ich seitdem in Produktionssystemen einsetze.
Das System verarbeitet PDF-Dokumente, teilt sie intelligent in Abschnitte, generiert Embeddings mit HuggingFace Sentence Transformers (BAAI/bge-small-en-v1.5) und speichert sie in ChromaDB für effiziente Vektor-Ähnlichkeitssuche. Bei einer Frage über die REST-API ruft das System die relevantesten Dokumentabschnitte ab, ergänzt den LLM-Prompt mit diesem Kontext und generiert eine Antwort mit Quellenangaben.
Die API ist mit Flask gebaut und unterstützt Konversationsmanagement, das Multi-Turn-Interaktionen ermöglicht, bei denen sich der Kontext über Fragen hinweg aufbaut.
Die LLM-Inferenz läuft lokal über Ollama, wodurch alles privat und kostenlos bleibt. Das System unterstützt mehrere Sprachen in Dokumenten und Abfragen.
Dieses Projekt war grundlegend für das Verständnis von RAG-Mustern, die ich später im Produktionsmaßstab in der B2B-Plattform implementiert habe — einschließlich Chunking-Strategien, Embedding-Modellauswahl, Retrieval-Tuning und der kritischen Herausforderung, Halluzinationen in der fundierten Generierung zu reduzieren.
Etwas Ähnliches gesucht?
Lassen Sie uns darüber sprechen, was ich für Ihr Unternehmen bauen kann.
Kontakt aufnehmen