Eval-Framework — LLM-as-a-Judge
Unser Framework zur systematischen Evaluation von LLM-Outputs — mit Pairwise-Vergleichen, Bias-Korrekturen und Kalibrierung gegen Human-Baselines.
Python 3.13SQLitePydanticPrometheus2-Judge
Warum LLM-as-a-Judge wichtig ist
Subjektive Output-Qualität skaliert nicht durch Menschen. Unser Framework nutzt prometheus2:7b als Judge mit Spearman ρ = 0.90 für Relevance — genug für produktive Quality-Gates.