← Alle Cases

Eval-Framework — LLM-as-a-Judge

Unser Framework zur systematischen Evaluation von LLM-Outputs — mit Pairwise-Vergleichen, Bias-Korrekturen und Kalibrierung gegen Human-Baselines.

Python 3.13SQLitePydanticPrometheus2-Judge

Warum LLM-as-a-Judge wichtig ist

Subjektive Output-Qualität skaliert nicht durch Menschen. Unser Framework nutzt prometheus2:7b als Judge mit Spearman ρ = 0.90 für Relevance — genug für produktive Quality-Gates.