LE CONNEXIONNISME: ARCHITECTURE DES RÉSEAUX CONNEXIONNISTES
Unités de traitements
Un réseau connexionniste est constitué d´unités de traitements.
Chaque unité fournit,
à chaque instant, une sortie, appelée activation,
en fonction de valeurs d´entrées pondérées, appelées excitations.
Le réseau s´obtient en connectant les sorties de certaines unités
aux entrées d´autres unités. On distingue différents types de
connectivités: Les réseaux à couches sont structurés en couches
parallèles d´unités. Ils sont unidirectionnels si les connexions
se font d´une couche vers une couche supérieure (il y alors un flux
orienté de la couche d´entrée vers la couche de sortie
en passant par les couches cachées). Ils sont interactifs
si les connexions sont bidirectionnelles.
Réseaux: Unidirectionnel
Interactif
Complètement connecté
Il existe également des réseaux complètement connectés, comme
les réseaux de Hopfield,
ou aucun ensemble d´unités
ne joue le rôle d´une couche particulière.
Les réseaux à couches unidirectionnels
Le plus simple des réseaux à couches unidirectionnels est constitué
d´une couche d´entrée directement reliée à la couche de sortie: À une
configuration d´entrée correspond alors une configuration de sortie,
pour cette raison ce type de réseaux est encore appelé associateur
de configuration. C´est le cas du perceptron de Rosenblatt
(1958). Mais on sait que ce genre de réseau est incapable de
résoudre des problèmes non linéairement indépendants (comme par
exemple le
XOR
logique (ou exclusif).
Il faut ajouter des
couches cachées (on parlera alors de réseau multicouche)
pour le complexifier.
Un réseau récurrent réinjecte une configuration construite
dans une couche supérieure dans une couche inférieure (comme
entrée de cette couche). De tels réseaux peuvent modifier leur
réponse en fonction de l´information issue d´une étape précédente.
Les réseaux interactifs
Dans un réseau interactif certaines des connexions sont
bidirectionnelles et le traitement d´une entrée se fait dynamiquement
au cours d´un grand nombre de cycles. De tels réseaux ne sont pas
nécessairement structurés en couches, c´est le cas des réseaux
de Hopfield,
ou des machines de Boltzmann.
Les unités sont
reliées bidirectionnellement à toutes les autres (sauf à elles-mêmes), une
absence de connexion se traduisant par un poids nul.
Règles d´activation
Les valeurs d´activation des unités (leurs sorties) peuvent être
discrètes (par exemple 0 et 1, ou -1 et 1) ou continues,
dans ce cas, si elles sont bornées,
on ramène généralement l´intervalle de leur variation à [-1,1].
Pour chaque unité de la couche d´entrée, si elle existe, la valeur
d´activation est égale à son entrée. Les autres unités ui reçoivent
des entrées sj pondérées par wi,j d´autres
unités uj, l´entrée totale es la somme de toutes ces
entrées partielles:
On peut ajouter un terme correctif qui joue le rôle d´entrée fixe.
Si cette correction est négative l´unité concernée répondra de façon
conservatrice, et si cette correction est positive, elle répondra
de façon impulsive.
Une règle d´activation donne l´activation ai
de l´unité ui
en fonction de l´entrée totale ei.
La règle d´activation linéaire est simplement:
ai = ei
La fonction logistique, ou
sigmoïde,
est très utilisée.
t est un seuil soustrait à l´entrée totale e, il revient au même
d´ajouter une correction -t à l´entrée. T détermine le profil de la
courbe qui s´étale quand T augmente.
On obtient des valeurs d´adaptation discrètes avec des fonctions
à seuil:
si e > seuil alors a = 1, sinon a = 0
représentée par une courbe en escalier. Par exemple le perceptron
linéaire est un réseau sans couche cachée, avec des entrées
binaires et des sorties à seuil linéaire (Rosenblatt 1959).
Dans un réseau interactif (à connexions bilatérales) on ajoute
un paramètre n temps (ou nombre de cycles), car les
activations sont itérativement corrigées avant que le réseau ne
converge vers un état d´équilibre (solution à une configuration
d´entrée). En fonctionnement synchrone, un réseau interactif
corrige ses unités une fois par cycle et, en fonctionnement asynchrone,
il les corrige aléatoirement dans le temps.
Réseau de Hopfield
Hopfield conçut en 1982 les réseaux qui portent son nom: Ce sont
des réseaux complètement connectés,
sans couches spécifiques. Chaque unité
est connectée à toutes les autres, sauf elle-même, et les connexions
sont symétriques c´est à dire que les connexions (i,j) et (j,i)
sont affectées du même poids wi,j = wj,i.
Dans leur première version les unités
étaient à seuil linéaire (comme pour
le perceptron). Le fonctionnement est asynchrone, ce qui évite
des états d´oscillations instables. On commence par choisir une
couche d´entrée, en distinguant un ensemble d´unités recevant des
activations binaires 0 ou 1, puis toutes les unités révisent leurs
activations dans un ordre aléatoire jusqu´à ce que le réseau
atteigne un état stable dans lequel plus aucune unité ne change
son activation. Cet état stable est la réponse du système à une
entrée particulière. Mais il peut se produire qu´aucun état stable
ne soit atteint et que le réseau se comporte de façon chaotique.
Hopfield a déterminé une quantité E, appelée
énergie
du réseau,
qui mesure son état à un instant
donné, et qui est très proche de l´énergie d´un système thermodynamique.
On a pu montrer qu´un réseau de Hopfield tendait vers un état
d´équilibre qui correspond à une énergie minimale, c´est à dire
que l´énergie E ne peut que baisser ou rester stable.
Les réseaux de Hopfield permettent de résoudre certains
problèmes d´optimisation. Un problème est spécifié par l´ensemble des
entrées fournies au réseau, la solution est l´état stable atteint
par le réseau (correspondant à une énergie minimale), et les connexions
représentent des contraintes. L´état stable est celui qui satisfait
le mieux ces contraintes. Le problème du voyageur de commerce
(qui doit visiter un certain nombre de villes une, et une seule fois,
avec le plus petit parcours) trouve une solution avec un réseau
de Hopfield.
Mais un tel réseau peut se trouver piégé dans un minimum local qui n´est
pas nécessairement le minimum absolu, l´énergie tombant dans un puits
qui n´est peut-être pas le plus profond. Les machines de Boltzmann
(voir ci-dessous)
ont été justement inventées pour palier à ce defaut.
Les machines de Boltzmann
Les machines de Boltzmann, comme les réseaux
de Hopfield, sont des réseaux complètement connectés fonctionant en mode asynchrone,
mais employant des fonctions d´activation stochastiques,
plutôt que déterministes. Plus
précisément,
la probabilité
pour qu´une unité devienne active est une fonction de son entrée
totale.
T, appelé aussi température, modifie la pente de la courbe
représentant la probabilité pour que a = 1 en fonction de e:
Pour de grandes valeurs de T, la courbe est plus étalée, les unités
sont plus réactives et le réseau se stabilise plus rapidement, mais
pas de façon optimale.
Pour T proche de 0, on retrouve une
fonction en escalier correspondant à une fonction seuil déterministe.
Le procédé dit du
recuit simulé
fait varier
la temperature T au cours du traitement d´une configuration d´entrée.
Par analogie avec ce qui se passe dans la formation des cristaux,
lorsque des liaisons incompatibles apparaissent dans certaines
régions et deviennent fixes, le cristal présente une impureté.
On réchauffe alors le cristal, ce qui affaiblit les liaisons et permet
aux atomes de se réorienter, puis on le refroidit lentement
(au voisinage de certaines températures critiques) de
façon à ce que les atomes s´orientent correctement quand les
liaisons se reforment. De la même façon, dans un réseau de Boltzmann,
on commence par une température élevée, ce qui a pour effet d´augmenter
la probabilité de changement d´activation des unités, puis on diminue
T lentement, ce qui a pour effet de permettre aux configurations
qui se développent dans certaines parties du réseau d´affecter d´autres
configurations qui se développent ailleurs, de façon à ce qu´une
configuration globale cohérente émerge finalement.
La façon dont une unité s´active dépend de son entrée totale mais
aussi des poids des connexions. L´un des intérêts majeur des réseaux
est qu´ils peuvent modifier eux-mêmes ces poids de façon adaptative
pour réaliser un apprentissage: Les
réseaux connexionnistes
sont donc capables d´apprendre.
Les points forts du connexionnisme
1) Les réseaux connexionnistes se rapprochent, dans leur architecture,
de ce que l´on sait du système nerveux, et fournissent de bons modèles
d´étude et de simulation pour les neurosciences. Par exemple le
neurone artificiel de Mc Culloch et Pitts, dont l´activation
est binaire (0 ou 1) s´accorde assez bien avec le fonctionnement
des neurones naturels dont on sait qu´ils répondent par tout ou
rien à une excitation en entrée. Les connexions entre unités correspondent
au cablage en dentrites (pour les entrées) et en axones
(pour les sorties) du système nerveux. Le flux des activations dans
un réseau connexionniste correspond à l´influx nerveux.
Enfin le traitement en parallèle est commun au connexionnisme
et au vivant.
Naturellement ce ne sont la que des modèles simplifiés
ne traitant pas, par exemple, la transmission par neurotransmetteurs
des informations, ni la complexité des combinaison des entrées d´un
neurone réel.
2) Les contraintes imposées par un réseau connexionniste sont
souples en ce sens qu´une unité trouve la meilleure solution
globale aux contraintes multiples (matérialisées par ses entrées),
qui n´est pas nécessairement compatible avec toutes ces contraintes.
Les systèmes à contraintes rigides doivent trouver une solution
respectant toutes les contraintes et ne peuvent donc pas trouver
de solution approchée optimale à un problème conduisant à des
incompatibilités ou des conflits, ce qui est le cas de la plupart
des problèmes réels (que l´on pense par exemple aux
multiples impossibilités aux quelles on se trouve confronté dans un
logiciel 3D du commerce pour gérer des systèmes articulés complexes
en dynamique ou en cinématique inverse). Les règles, rigoureuses dans les systèmes
formels, ont des exceptions dans les systèmes naturels: Ce qui est
une difficulté pour l´
approche symbolique,
ne l´est pas
pour l´approche connexionniste. De plus cette souplesse permet
à un réseau connexionniste de répondre correctement à des situations
nouvelles, naturellement si ces situations ressemblent à des
situations dejà apprises, et de façon constructive dans le cas
contraire.
3) L´un des avantages décisifs des organismes naturels sur les
systèmes artificiels est leur grande robustesse, ou tolérance
aux pannes: Une dégradation de l´état physique se traduit par une
dégradation des performances (pouvant être compensée par une
réorganisation interne) et non par un disfonctionnement radical.
Dans un système symbolique traditionnel, la perte d´un élément entraine
la perte de toutes les fonctions attachées à cet élément, alors que
dans un réseau, la redondance des connexions évite ce genre de problème.
4) Les réseaux connexionnistes permettent aussi de définir les
mémoires associatives. En informatique traditionnelle on
utilise les mémoires adressables donnant accès à un contenu
dès lors que l´on connait son adresse. La perte de l´adresse
entraine la perte de toute l´information stockée. D´autre part
la mémoire humaine ne fonctionne pas ainsi mais plutôt de façon
associative: C´est une petite partie d´un souvenir qui
fait surgir la totalité de ce souvenir (la madeleine de Proust).
Ce type de mémoire s´appelle mémoire adressable par son contenu.
Les mémoires symboliques sont généralement de type classement:
Les informations sont indexées par l´une de leur propriété,
par exemple un classement alphabétique, ou selon la couleur , la
taille, etc... On peut envisager des classements suivant plusieurs
indexes mais, quelle que soit la complexité du classement, il sera
toujours fini et il existera toujours des propriétés non indexées et,
pour retrouver une information à partir de cette propriété il
n´existera qu´une seule méthode: Parcourir la totalité des informations
stockées jusqu´a trouver celle recherchée. Les réseau connexionniste
autorisent le stockage de l´information dans des
mémoires associatives
permettant de retrouver un contenu lorsqu´est donnée une partie de
ce contenu, même bruité (le droit à l´erreur). Chaque unité du réseau
représente le "microtrait" d´un élément, les poids des connexions
représentent les "micro-inférences" entre ces microtraits. Une
configuration présentée en entrée (comme partie possiblement
bruitée de l´information à rechercher) satisfera certaines des
micro-inférences. Le réseau se stabilise dans la configuration
la plus proche de celle présentée et qui satisfait le maximum de
micro-inférences, c´est l´information recherchée. Rumelhart soulignait,
en 1986, qu´il n´existe pas de distinction tranchée entre un
souvenir véritable et une reconstruction plausible de celui-ci.
Le souvenir véritable est une configuration stable produite par
des modifications des règles d´inférences. Une confubulation
est une configuration stable en raison de la façon dont les règles
d´inférences ont été modifiées pour stocker plusieurs configurations
distinctes. Le sujet n´a aucun moyen de distinguer une telle
configuration de la chose réelle.
5) Enfin, le dernier avantage décisif des méthodes connexionnistes,
est leurs capacités d´
apprentissage:
Par modifications
expérimentales des poids de leurs connexions, les réseaux sont
capables d´évoluer pour s´adapter de mieux en mieux à un environnement
changeant ou mal connu.