Prüfstand — KI-Test-Framework

Prüfstand ist unser Framework für systematisches Testen von KI-Systemen: Prompt-Variationen, Modell-Vergleiche, Quality-Scoring durch LLM-as-a-Judge, Regression-Detection über die Zeit. Eingesetzt für die Qualitätssicherung unserer eigenen Produkte und im Beratungskontext für Kunden, die ihre eigenen KI-Pipelines absichern wollen, bevor sie produktiv gehen.

Electron GUIPython BackendVitestPytestPrometheus2-Judge

Warum systematisches Testen für KI-Systeme anders aussieht

Klassische Software ist deterministisch: gleicher Input, gleicher Output. KI-Systeme sind es nicht. Der gleiche Prompt liefert über Tage unterschiedliche Antworten, ein Modell-Update kann die Qualität still verschieben, und subjektive Dimensionen (Tonalität, Hilfreichkeit, Vollständigkeit) lassen sich nicht mit assert-Statements abdecken. Prüfstand orchestriert Test-Suites mit Prompt-Varianten, läuft sie gegen mehrere Modelle parallel, scoring per LLM-as-a-Judge gegen ein definiertes Rubric. Resultat: KI-Drift wird zur messbaren Grösse statt zum Bauchgefühl.

Architektur — GUI für Sparring, CLI für CI

Prüfstand hat zwei Ebenen: eine Electron-GUI für die explorative Phase (Promptings durchprobieren, Modelle vergleichen, Rubrics anpassen) und ein Python-Backend mit Pytest-Hooks für die CI/CD-Phase (Quality-Gates beim Deploy, Drift-Alarme über die Zeit). Der gleiche Test-Definition läuft in beiden Ebenen — was im Sparring überzeugt, kann ohne Übersetzungsschritt in den CI-Pipeline-Lauf wandern. Die Resultat-Datenbank ist eine lokale SQLite, der Judge ist prometheus2:7b lokal über Ollama (Datenschutz-Compliance: keine Cloud-Calls für Test-Daten).

Praxis-Beweis für AI-Quality-Mandate

Wenn wir Kunden bei ihren ersten KI-Projekten begleiten, kommt die Frage 'wie messen wir, ob das gut genug ist?' meist zu spät — wenn die Pilot-Phase schon läuft und subjektive Eindrücke divergieren. Mit Prüfstand können wir vom ersten Tag an ein gemeinsames Mess-Setup einziehen, das die Frage objektiviert: was ist die Baseline, was ist 'gut genug', wie merken wir, wenn es schlechter wird. Das ist der direkte Übersetzer zwischen Engineering-Vokabular ('Latency, Throughput, p95') und Business-Vokabular ('Qualität, Vertrauen, Marken-Konsistenz').