Malgré leur longévité, les Multi-Layers Perceptron (MLP) continuent de s’affirmer comme les modèles de référence pour l’approximation de fonctions non-linéaires. Ils sont couramment utilisés dans les couches finales des réseaux convolutifs et plus récemment, dans les architectures Transformer.
Toutefois, sont-ils vraiment irremplaçables ? Ce papier propose une architecture innovante, les Kolmogorov-Arnold Networks (KAN), qui pourraient potentiellement supplanter les MLP traditionnels.
Fondements Théoriques et Architecture
Théorème de Kolmogorov-Arnold : Ce théorème stipule que toute fonction continue 𝑓∶[0,1]^𝑛→ℝ peut être exprimée par une superposition d’additions à deux arguments de fonctions continues d’une seule variable. En conséquence, notre fonction f peut être représentée comme composée finie de fonctions continues à une seule variable :
Bien que ce théorème puisse paraître miraculeux, il n’est pas inédit dans le domaine du machine learning. Cependant, ce papier propose la première implémentation du théorème généralisé en utilisant des techniques « modernes » telles que la rétropropagation et des tailles de réseau arbitraires, sans être limité par les indices de l’équation initiale dont il s’écarte.
Structure et caractéristiques
Les KAN sont construits sur la base du théorème précédent. Contrairement aux MLP, ils se distinguent par des fonctions d’activation apprenables situées sur les arêtes plutôt que sur les nœuds. Dans un KAN, chaque poids est remplacé par une fonction paramétrée sous forme de spline, dont les paramètres servent de nouveaux poids apprenables. Ces splines, étant des courbes polynomiales segmentées, offrent une stabilité accrue, une meilleure convergence lors de l’entraînement, ainsi qu’une plus grande flexibilité et expressivité.
Contrairement aux MLP qui apprennent des paramètres de fonctions linéaires (poids) derrières lesquelles sont positionnées des fonctions d’activation non-linéaires fixes, les KAN apprennent directement les paramètres des fonctions non-linéaires. Ce sont ainsi ces paramètres qui sont modifiés lors de la descente de gradient.
Avantages et inconvénients
Cette architecture unique permet aux KAN de surpasser les MLP en termes de précision avec un nombre de paramètres réduit. Cela se traduit par des réseaux plus petits atteignant des niveaux de performance comparables ou supérieurs dans des tâches telles que l’ajustement de données et la résolution d’équations différentielles partielles (PDE). La particularité des KAN réside dans leurs fonctions d’activation non-linéaires et apprenables, offrant une capacité d’adaptation supérieure par rapport aux MLP, dont les fonctions d’activation sont fixes. Les KAN sont ainsi plus efficaces pour capturer des relations complexes et non-linéaires dans les données.
De plus, les KAN peuvent être visualisés de manière intuitive, ce qui en facilite l’interprétation et l’interaction avec les utilisateurs, notamment dans les domaines scientifiques pour (re)découvrir des lois mathématiques et physiques. L’article présente deux exemples illustrant cette interprétabilité : la théorie des nœuds (mathématiques) et la localisation d’Anderson (physique).
Les KAN peuvent être perçus comme un astucieux mélange entre les MLP, qui s’adaptent très bien aux grandes dimensionalités, et les splines, plus précis que les MLP en faible dimension mais victimes de la COD – Curse Of Dimensionality.
Un inconvénient notable des KAN est leur vitesse d’entraînement plus lente, nécessitant environ dix fois plus de temps. Cependant, étant donné que l’architecture est très récente, des optimisations futures pourraient remédier à ce problème.
Conclusion
En résumé, les KAN représentent une avancée prometteuse dans l’amélioration des modèles actuels, offrant une alternative potentielle aux MLP. Ils sont particulièrement recommandés pour des applications où l’interprétabilité et la précision priment sur la vitesse d’entraînement. Étant donné la nouveauté de cette architecture, il est encore trop tôt pour évaluer pleinement ses impacts. Néanmoins, de nouveaux articles commencent déjà à émerger, par exemple pour l’application des KAN à l’analyse de séries temporelles [2].
Bibliographie
[1] Liu, Ziming, et al. « Kan: Kolmogorov-arnold networks. » arXiv preprint arXiv:2404.19756 (2024).