Weight decay

La méthode de dégradation des pondérations ou weight decay en anglais est une technique de régularisation utilisée pour limiter le surapprentissage dans un réseau de neurones. Elle consiste à ajouter une pénalité à la fonction d'erreur qui dépend de la magnitude des poids qui relient les neurones entre eux. On utilise en général la pénalité suivante :

\lambda \sum _{i}w_{i}^{2}

où $w_{i}$ est le i^e poids dans le réseau et $\lambda$ est un coefficient positif qui donne plus ou moins d'importance à la pénalité. Le paramètre $\lambda$ est en général très petit (0.0001 et moins), il tend vers zéro.

Buts

Le but est d'éviter le surapprentissage. Il a été mathématiquement démontré (Geman, Bienenstock & Doursat 1992; Krogh & Hertz 1992) qu'un réseau utilisant des connexions avec des pondérations de forte magnitude avait plus de peine pour généraliser. Techniquement parlant, de grands poids peuvent provoquer une plus grande variance à la sortie. En forçant la diminution des poids, on obtient un réseau moins flexible qui se spécialise moins dans les données utilisées pour l'apprentissage.

Liens externes

(en) What is weight decay? Neural Networks FAQ
(en) Geman S., Bienenstock E. & Doursat R. (1992) Neural networks and the bias/variance dilemma.
(en) Krogh A. & Hertz, J. A. (1992) A simple weight decay can improve generalization.