RAG-Wissen — Production-RAG für unsere eigene Wissensdatenbank

RAG-Wissen ist unser internes RAG-System für Beratungs-Wissen, technische Dokumentation und Markt-Intelligenz. Läuft produktiv mit Qdrant v1.17.1 und Harrier-Embeddings, liefert die Recherche-Basis für unsere Blog-Artikel und ist über einen MCP-Server an Claude Code, Mingly und unsere internen Tools angebunden. Quelle der Wahrheit für jeden Beratungs-Sparring-Termin.

Python 3.13Qdrant 1.17.1FastAPIMCPHarrier-Embeddings

Embedding-Modell-Wahl — fünf Modelle gebenchmarkt

Wir haben fünf Embedding-Modelle für deutschsprachige Inhalte gebenchmarkt: mxbai-embed-large, Qwen3-Embedding, Jina-v3, Cohere-Multilingual und Harrier. Harrier hat gewonnen mit rund 50 Prozent besserer NDCG@10 gegenüber mxbai und rund 12 Prozent gegenüber Qwen3 — gemessen auf einem manuell annotierten Test-Set aus unserem eigenen Korpus. Resultat: produktiver Einsatz seit April 2026. Die Lehre dahinter: Default-Empfehlungen aus englischsprachigen Benchmarks (oft MS MARCO, BEIR) übersetzen sich nicht eins zu eins auf deutsche Beratungsinhalte mit Fachvokabular.

Aggressive Reduktion — warum wir 949 Zeilen gelöscht haben

RAG-Systeme tendieren dazu, mit der Zeit Funktions-Halden anzusammeln: hybride Suche, Cross-Encoder-Reranking, Query-Expansion, Multi-Hop, Re-Ranking-Re-Ranking. Wir haben in einem Sprint 949 Zeilen aus RAG-Wissen herausgenommen — Features, die wir gebaut hatten, ohne dass sie im A/B-Test Mehrwert lieferten. Resultat: weniger Code, schnellere Antworten, niedrigere Cloud-Kosten, einfachere Wartung. Diese Erfahrung ist deshalb wertvoll, weil sie der weitverbreiteten Annahme widerspricht, dass mehr RAG-Komponenten immer besseres Retrieval bedeuten. Der Blog-Beitrag dazu ist unten verlinkt.

Praxis-Beweis für RAG-Strategie-Workshops

Wir bringen aus RAG-Wissen drei Dinge in jeden RAG-Strategie-Workshop ein: ein Benchmarking-Protokoll, das Sie für Ihre eigenen Inhalte adaptieren können; eine Liste von RAG-Features, deren Aufwand sich praktisch fast nie rechnet; und eine empirisch fundierte Antwort auf die häufigste Frage — 'wie messe ich, ob mein RAG-System wirklich besser geworden ist'. Plus die konkrete Architektur eines Production-Systems, das täglich genutzt wird.