← Alle Cases

Eval-Framework — LLM-as-a-Judge mit Bias-Korrektur

Unser Framework zur systematischen Evaluation von LLM-Outputs: Pairwise-Vergleiche, Bias-Korrekturen (Position-Swap, Verbosity, Self-Preference), Kalibrierung gegen Human-Baselines mit Spearman ρ und Krippendorff α als Akzeptanz-Schwellen. Eingesetzt für RAG-Wissen-Quality-Gates, Nexbid-Content-Reviews und Beratungs-Mandate, in denen Kunden objektive KI-Qualitäts-Messung brauchen.

Python 3.13SQLitePydanticPrometheus2-JudgeOllama

Warum LLM-as-a-Judge — und warum mit Bias-Korrektur

Subjektive Output-Qualität (Hilfreichkeit, Vollständigkeit, Tonalität) skaliert nicht durch Menschen — für eine Stichprobe von 200 Antworten braucht ein menschlicher Reviewer einen Tag, für tägliche Quality-Gates ist das unwirtschaftlich. LLM-as-a-Judge ist die Antwort, hat aber drei systematische Bias-Probleme: Position-Bias (der erste Vergleichs-Eintrag wird bevorzugt), Verbosity-Bias (längere Antworten werden überschätzt), Self-Preference (ein Modell bevorzugt seine eigenen Outputs). Unser Framework korrigiert alle drei mit dokumentierten Methoden — Position-Swap-Averaging, Verbosity-Normalisierung, Generator-Judge-Trennung.

Kalibrierung gegen Human-Baselines

Ein Judge-Modell ist nur dann nutzbar, wenn seine Urteile mit menschlichen Urteilen korrelieren. Wir messen das mit Spearman-Rang-Korrelation (Akzeptanz-Schwelle ρ ≥ 0.7) und Krippendorff-Alpha (Akzeptanz-Schwelle α ≥ 0.67). Aktueller Stand: prometheus2:7b erreicht in unserem Setup ρ = 0.90 für Relevance und ρ = 0.80 für Faithfulness. Das ist gut genug für produktive Quality-Gates ohne Human-in-the-Loop. Wir streuen kontinuierlich alle 50 Evaluations 5 Kalibrierungs-Samples ein, um Modell-Drift zu erkennen, bevor sie produktiv beisst.

Praxis-Beweis für KI-Qualitäts-Mandate

Wer KI-Pipelines im KMU produktiv führt, kommt nicht ohne objektive Qualitäts-Messung aus — und subjektive Reviews skalieren spätestens ab der zweiten Produktiv-Pipeline nicht mehr. Unser Eval-Framework liefert Kunden einen Startpunkt: bereit konfigurierte Rubrics für gängige Use Cases (Customer Service, Wissens-Beantwortung, Content-Generierung), Beispiel-Datasets, dokumentierte Bias-Korrekturen. Wir setzen das Framework gegen die Use Cases unserer Kunden auf und übergeben es im Mandat als interne Fähigkeit — Ziel ist nicht Vendor-Lock-in, sondern KI-Kompetenz im Haus.