21. Mai 2026

KAN — warum Kolmogorov-Arnold Networks die nächste Generation interpretabler ML sind

MLPs sind universelle Approximatoren, aber Black-Box. KAN-Architekturen sind universelle Approximatoren plus interpretable plus konvertierbar in geschlossene mathematische Formeln. Was das für regulierte ML-Anwendungen bedeutet — und wie opua die Architektur als Shadow-Layer und Audit-Brücke einsetzt.

Wer Machine Learning seit 2012 verfolgt hat, kennt die dominante Architektur dieser Ära: das Multi-Layer Perceptron, kurz MLP. Eingebettet in Deep-Learning-Frameworks wie PyTorch und TensorFlow, ergänzt um Convolutions, Transformer-Blöcke und Attention-Mechanismen, ist das MLP der universelle Baustein, der alles von Bildklassifikation über Sprachmodelle bis zu Marketing-Mix-Modellen antreibt. Das theoretische Fundament ist das Universal Approximation Theorem aus den späten 1980er-Jahren: ein hinreichend grosses MLP mit nichtlinearen Activation-Functions kann jede stetige Funktion beliebig genau approximieren. Diese mathematische Garantie hat die Dominanz von MLP-basierten Architekturen über die letzten zwölf Jahre getragen.

Die Schattenseite dieser Dominanz ist gleichzeitig die zentrale Kritik: MLPs sind interpretationsfeindlich. Die gelernten Gewichte zwischen den Nodes sind hochdimensionale Matrizen ohne anschauliche Bedeutung. Was hat das Netzwerk gelernt? Welche Features sind wichtig? Wie reagiert es auf einen bestimmten Input? Diese Fragen lassen sich bei einem MLP nur über Hilfsmethoden wie SHAP, LIME oder Saliency-Maps annähernd beantworten — und jede dieser Methoden ist selbst wieder ein approximatives ML-Verfahren mit eigenen Annahmen. Für regulierte Anwendungen, in denen Compliance-Officers, Auditoren oder Investoren mathematische Klarheit über die Entscheidungslogik verlangen, ist diese Interpretationsschicht unzureichend.

Im April 2024 hat ein Team rund um Ziming Liu am MIT eine alternative Architektur vorgestellt, die diese Schwäche an der Wurzel adressiert: Kolmogorov-Arnold Networks, abgekürzt KAN. Die theoretische Grundlage geht auf das Kolmogorov-Arnold-Representationstheorem von 1957 zurück. Es besagt, dass jede stetige multivariate Funktion als endliche Komposition kontinuierlicher univariater Funktionen und der Addition darstellbar ist. Was als rein mathematisches Theorem über sechs Jahrzehnte in der Approximationstheorie schlummerte, wird in KAN-Architekturen als ML-Konstruktionsprinzip aktiviert. Anstelle fixer Activation-Functions an den Nodes und lernbarer Gewichte auf den Edges drehen KANs das Setup um: die Activation-Functions selbst werden gelernt, und zwar als parametrisierte Spline-Functions auf den Edges.

Der praktische Effekt dieser Inversion ist tiefgreifend. Jede Edge eines KAN repräsentiert eine eindimensionale Funktion, die als Spline parametrisiert ist und sich als Kurve plotten lässt. Wer ein trainiertes KAN inspizieren will, kann nicht nur die Gewichte ansehen, sondern für jede Edge die gelernte 1D-Funktion direkt visualisieren. Was hat das Netzwerk gelernt? Bei einem KAN ist das eine Sammlung von Spline-Kurven, die jeweils eine konkrete Input-Output-Beziehung kodieren. Diese Plot-Bar-Keit ist nicht nur ein Diagnostik-Werkzeug, sondern öffnet einen zweiten, noch wichtigeren Pfad: Symbolic Regression.

Symbolic Regression ist der Prozess, eine numerisch gelernte Funktion in eine geschlossene mathematische Formel zu konvertieren. Eine Spline-Kurve, die nach dem Training eines KAN aussieht wie ein logarithmisches Saturation-Muster, kann via Symbolic-Regression-Verfahren in eine konkrete Formel überführt werden — etwa `f(x) = 0.45 * log(1 + x / 2000) + 0.03`. Was bei einem MLP ein hochdimensionales Gewichts-Tensor wäre, wird bei einem KAN eine lesbare mathematische Beziehung. Für ML-Engineers, die Modelle in produktiven Systemen erklären müssen, ist das ein qualitativer Sprung. Für regulierte Anwendungen ist es noch mehr: eine konkrete Formel kann mit Methoden der formalen Verifikation auf Eigenschaften geprüft werden, die ein MLP-Output nie zugänglich machen würde.

In der opua-Brand-Family wird KAN konkret als Shadow-Scoring-Layer eingesetzt. In MMM-Wizard, der Marketing-Mix-Modeling-Plattform für KMU, läuft die Bayesian-Pipeline auf Google Meridian als Primary-Modell. Parallel trainiert ein KAN-Shadow-Modell auf denselben Daten. Beide Modelle produzieren Channel-Recommendations. Wenn die Empfehlungen pro Channel um mehr als fünfzehn Prozent auseinanderliegen, flaggt das System eine Modell-Diskrepanz und fordert ein manuelles Review an. Der Wert dieses Setups liegt nicht darin, dass das KAN-Shadow-Modell präziser ist als Meridian — beide Architekturen haben unterschiedliche Stärken und Schwächen. Der Wert liegt darin, dass zwei völlig unterschiedlich strukturierte Modelle zustimmen müssen, bevor eine Empfehlung produktiv übernommen wird. Ein Edge-Case, der die Bayesian-Pipeline täuscht, wird mit hoher Wahrscheinlichkeit das KAN nicht täuschen — und umgekehrt.

Strategisch noch wichtiger ist die Symbolic-Regression-Pipeline, die KAN-Outputs in Lean-4-Theoreme überführbar macht. Wenn die gelernte Response-Function für den Channel AI-Assistant via Symbolic Regression als `f(spend) = 0.45 * log(1 + spend / 2000) + 0.03` formalisiert wird, kann Lean 4 diese Formel auf konkrete Properties prüfen: ist sie monoton steigend? Hat sie einen Saturation-Punkt? Bleibt sie im physikalisch sinnvollen Bereich? Diese Eigenschaften lassen sich für eine geschlossene Formel mathematisch beweisen — für ein MLP nur empirisch testen. Damit schliesst sich der Kreis zwischen interpretable ML und formale Verifikation: KAN liefert die geschlossene Form, Lean 4 liefert die mathematische Garantie.

Akademisch hat Holger von Ellerts, Mitgründer der opua-Brand-Family und Dozent für KI an Schweizer Hochschulen, dieses Pattern 2025 in einer Transferarbeit an der Hochschule Luzern formalisiert. Die Arbeit mit dem Titel `KAN Shadow Scoring and Lean 4 Property Verification for the Nexbid Auction Engine` zeigt am Beispiel der nexbid-Auction-Engine, wie KAN als interpretable Shadow-Layer plus Lean-4 als Verification-Layer zusammenwirken können. Die Übertragbarkeit der Methode auf Marketing-Mix-Modellierung und Equity-Research ist nicht trivial, aber strukturell sauber — beide Anwendungsdomänen produzieren multivariate Output-Funktionen, die als Spline-Repräsentation lernbar und als Formel verifizierbar sind.

Für ML-Engineers und Data-Scientists, die KAN evaluieren wollen, sind zwei Frameworks praxisrelevant. Erstens PyKAN, die offizielle Referenzimplementierung des MIT-Teams, basierend auf PyTorch. Sie ist gut dokumentiert, hat eine aktive Community und integriert sich in bestehende PyTorch-Pipelines. Zweitens diverse JAX-basierte Re-Implementations, die für Forschungsumgebungen interessant sind und sich besser mit Bayesian-Pipelines wie Meridian kombinieren lassen. Beide Frameworks unterstützen Symbolic Regression als nachgeschalteten Schritt. Wer das Pattern für die eigenen Modelle ausprobieren will, sollte mit einer einfachen univariaten Regression beginnen, das KAN trainieren, die Spline-Plots visualisieren und dann via Symbolic Regression die geschlossene Form extrahieren.

Für AI-Strategists und Data-Scientists, die strategische Architektur-Entscheidungen treffen, ist die Kernbotschaft pragmatisch. MLPs werden nicht verschwinden — sie sind für viele Anwendungen die richtige Wahl, und die Tooling-Reife ist unschlagbar. Aber für eine wachsende Klasse von Anwendungen — regulierte Industries, audit-pflichtige Recommendations, Investor-pitchbare interpretable AI — ist KAN strategisch wertvoll. Die Architektur ist 2026 noch nicht so weit, dass sie ein MLP in der Mehrheit der Anwendungen ersetzen wird. Aber sie ist weit genug, um in Shadow-Setups, Cross-Validation-Pipelines und Symbolic-Regression-Workflows einen messbaren Mehrwert zu liefern. Wer das Pattern jetzt aufbaut, hat in zwei Jahren einen Vorsprung gegenüber Wettbewerbern, die bei MLP-only bleiben.

Wer Holgers HSLU-Transferarbeit für detailliertere Methodik einsehen will, kann sich über audit@digital-opua.ch melden. Die Arbeit deckt die mathematische Herleitung des Kolmogorov-Arnold-Theorems, die KAN-Architektur, die Symbolic-Regression-Pipeline und die Lean-4-Theorem-Konstruktion auf rund 80 Seiten ab. Sie ist Apache-2.0-lizenziert und steht Hochschulen, Compliance-Officers und ML-Teams zur Verfügung, die das Pattern in eigene Projekte übertragen möchten.

kaninterpretable-mllean-4opua-brand-family

Read in English →