LE CONNEXIONNISME: ARCHITECTURE DES RÉSEAUX CONNEXIONNISTES

Unités de traitements
Les réseaux à couches unidirectionnels
Les réseaux interactifs
Règles d´activation
Réseau de Hopfield
Les machines de Boltzmann
Les points forts du connexionnisme

Unités de traitements

Un réseau connexionniste est constitué d´unités de traitements. Chaque unité fournit, à chaque instant, une sortie, appelée activation, en fonction de valeurs d´entrées pondérées, appelées excitations. Le réseau s´obtient en connectant les sorties de certaines unités aux entrées d´autres unités. On distingue différents types de connectivités: Les réseaux à couches sont structurés en couches parallèles d´unités. Ils sont unidirectionnels si les connexions se font d´une couche vers une couche supérieure (il y alors un flux orienté de la couche d´entrée vers la couche de sortie en passant par les couches cachées). Ils sont interactifs si les connexions sont bidirectionnelles.

Réseaux: Unidirectionnel Interactif Complètement connecté

Il existe également des réseaux complètement connectés, comme les réseaux de Hopfield, ou aucun ensemble d´unités ne joue le rôle d´une couche particulière.

Les réseaux à couches unidirectionnels

        Le plus simple des réseaux à couches unidirectionnels est constitué d´une couche d´entrée directement reliée à la couche de sortie: À une configuration d´entrée correspond alors une configuration de sortie, pour cette raison ce type de réseaux est encore appelé associateur de configuration. C´est le cas du perceptron de Rosenblatt (1958). Mais on sait que ce genre de réseau est incapable de résoudre des problèmes non linéairement indépendants (comme par exemple le XOR logique (ou exclusif). Il faut ajouter des couches cachées (on parlera alors de réseau multicouche) pour le complexifier.
        Un réseau récurrent réinjecte une configuration construite dans une couche supérieure dans une couche inférieure (comme entrée de cette couche). De tels réseaux peuvent modifier leur réponse en fonction de l´information issue d´une étape précédente.

Les réseaux interactifs

Dans un réseau interactif certaines des connexions sont bidirectionnelles et le traitement d´une entrée se fait dynamiquement au cours d´un grand nombre de cycles. De tels réseaux ne sont pas nécessairement structurés en couches, c´est le cas des réseaux de Hopfield, ou des machines de Boltzmann. Les unités sont reliées bidirectionnellement à toutes les autres (sauf à elles-mêmes), une absence de connexion se traduisant par un poids nul.

Règles d´activation

Les valeurs d´activation des unités (leurs sorties) peuvent être discrètes (par exemple 0 et 1, ou -1 et 1) ou continues, dans ce cas, si elles sont bornées, on ramène généralement l´intervalle de leur variation à [-1,1].
Pour chaque unité de la couche d´entrée, si elle existe, la valeur d´activation est égale à son entrée. Les autres unités u_i reçoivent des entrées s_j pondérées par w_i,j d´autres unités u_j, l´entrée totale es la somme de toutes ces entrées partielles:

        On peut ajouter un terme correctif qui joue le rôle d´entrée fixe. Si cette correction est négative l´unité concernée répondra de façon conservatrice, et si cette correction est positive, elle répondra de façon impulsive.
        Une règle d´activation donne l´activation a_i de l´unité u_i en fonction de l´entrée totale e_i.
        La règle d´activation linéaire est simplement:
        a_i = e_i
        La fonction logistique, ou sigmoïde, est très utilisée.

t est un seuil soustrait à l´entrée totale e, il revient au même d´ajouter une correction -t à l´entrée. T détermine le profil de la courbe qui s´étale quand T augmente.
        On obtient des valeurs d´adaptation discrètes avec des fonctions à seuil:
        si e > seuil alors a = 1, sinon a = 0
        représentée par une courbe en escalier. Par exemple le perceptron linéaire est un réseau sans couche cachée, avec des entrées binaires et des sorties à seuil linéaire (Rosenblatt 1959).
        Dans un réseau interactif (à connexions bilatérales) on ajoute un paramètre n temps (ou nombre de cycles), car les activations sont itérativement corrigées avant que le réseau ne converge vers un état d´équilibre (solution à une configuration d´entrée). En fonctionnement synchrone, un réseau interactif corrige ses unités une fois par cycle et, en fonctionnement asynchrone, il les corrige aléatoirement dans le temps.

Réseau de Hopfield

        Hopfield conçut en 1982 les réseaux qui portent son nom: Ce sont des réseaux complètement connectés, sans couches spécifiques. Chaque unité est connectée à toutes les autres, sauf elle-même, et les connexions sont symétriques c´est à dire que les connexions (i,j) et (j,i) sont affectées du même poids w_i,j = w_j,i. Dans leur première version les unités étaient à seuil linéaire (comme pour le perceptron). Le fonctionnement est asynchrone, ce qui évite des états d´oscillations instables. On commence par choisir une couche d´entrée, en distinguant un ensemble d´unités recevant des activations binaires 0 ou 1, puis toutes les unités révisent leurs activations dans un ordre aléatoire jusqu´à ce que le réseau atteigne un état stable dans lequel plus aucune unité ne change son activation. Cet état stable est la réponse du système à une entrée particulière. Mais il peut se produire qu´aucun état stable ne soit atteint et que le réseau se comporte de façon chaotique.
        Hopfield a déterminé une quantité E, appelée énergie du réseau, qui mesure son état à un instant donné, et qui est très proche de l´énergie d´un système thermodynamique. On a pu montrer qu´un réseau de Hopfield tendait vers un état d´équilibre qui correspond à une énergie minimale, c´est à dire que l´énergie E ne peut que baisser ou rester stable.
        Les réseaux de Hopfield permettent de résoudre certains problèmes d´optimisation. Un problème est spécifié par l´ensemble des entrées fournies au réseau, la solution est l´état stable atteint par le réseau (correspondant à une énergie minimale), et les connexions représentent des contraintes. L´état stable est celui qui satisfait le mieux ces contraintes. Le problème du voyageur de commerce (qui doit visiter un certain nombre de villes une, et une seule fois, avec le plus petit parcours) trouve une solution avec un réseau de Hopfield.
        Mais un tel réseau peut se trouver piégé dans un minimum local qui n´est pas nécessairement le minimum absolu, l´énergie tombant dans un puits qui n´est peut-être pas le plus profond. Les machines de Boltzmann (voir ci-dessous) ont été justement inventées pour palier à ce defaut.

Les machines de Boltzmann

Les machines de Boltzmann, comme les réseaux de Hopfield, sont des réseaux complètement connectés fonctionant en mode asynchrone, mais employant des fonctions d´activation stochastiques, plutôt que déterministes. Plus précisément, la probabilité pour qu´une unité devienne active est une fonction de son entrée totale.

T, appelé aussi température, modifie la pente de la courbe représentant la probabilité pour que a = 1 en fonction de e:
        Pour de grandes valeurs de T, la courbe est plus étalée, les unités sont plus réactives et le réseau se stabilise plus rapidement, mais pas de façon optimale.
        Pour T proche de 0, on retrouve une fonction en escalier correspondant à une fonction seuil déterministe.
        Le procédé dit du recuit simulé fait varier la temperature T au cours du traitement d´une configuration d´entrée. Par analogie avec ce qui se passe dans la formation des cristaux, lorsque des liaisons incompatibles apparaissent dans certaines régions et deviennent fixes, le cristal présente une impureté. On réchauffe alors le cristal, ce qui affaiblit les liaisons et permet aux atomes de se réorienter, puis on le refroidit lentement (au voisinage de certaines températures critiques) de façon à ce que les atomes s´orientent correctement quand les liaisons se reforment. De la même façon, dans un réseau de Boltzmann, on commence par une température élevée, ce qui a pour effet d´augmenter la probabilité de changement d´activation des unités, puis on diminue T lentement, ce qui a pour effet de permettre aux configurations qui se développent dans certaines parties du réseau d´affecter d´autres configurations qui se développent ailleurs, de façon à ce qu´une configuration globale cohérente émerge finalement.

        La façon dont une unité s´active dépend de son entrée totale mais aussi des poids des connexions. L´un des intérêts majeur des réseaux est qu´ils peuvent modifier eux-mêmes ces poids de façon adaptative pour réaliser un apprentissage: Les réseaux connexionnistes sont donc capables d´apprendre.

Les points forts du connexionnisme

        1) Les réseaux connexionnistes se rapprochent, dans leur architecture, de ce que l´on sait du système nerveux, et fournissent de bons modèles d´étude et de simulation pour les neurosciences. Par exemple le neurone artificiel de Mc Culloch et Pitts, dont l´activation est binaire (0 ou 1) s´accorde assez bien avec le fonctionnement des neurones naturels dont on sait qu´ils répondent par tout ou rien à une excitation en entrée. Les connexions entre unités correspondent au cablage en dentrites (pour les entrées) et en axones (pour les sorties) du système nerveux. Le flux des activations dans un réseau connexionniste correspond à l´influx nerveux. Enfin le traitement en parallèle est commun au connexionnisme et au vivant. Naturellement ce ne sont la que des modèles simplifiés ne traitant pas, par exemple, la transmission par neurotransmetteurs des informations, ni la complexité des combinaison des entrées d´un neurone réel.
        2) Les contraintes imposées par un réseau connexionniste sont souples en ce sens qu´une unité trouve la meilleure solution globale aux contraintes multiples (matérialisées par ses entrées), qui n´est pas nécessairement compatible avec toutes ces contraintes. Les systèmes à contraintes rigides doivent trouver une solution respectant toutes les contraintes et ne peuvent donc pas trouver de solution approchée optimale à un problème conduisant à des incompatibilités ou des conflits, ce qui est le cas de la plupart des problèmes réels (que l´on pense par exemple aux multiples impossibilités aux quelles on se trouve confronté dans un logiciel 3D du commerce pour gérer des systèmes articulés complexes en dynamique ou en cinématique inverse). Les règles, rigoureuses dans les systèmes formels, ont des exceptions dans les systèmes naturels: Ce qui est une difficulté pour l´ approche symbolique, ne l´est pas pour l´approche connexionniste. De plus cette souplesse permet à un réseau connexionniste de répondre correctement à des situations nouvelles, naturellement si ces situations ressemblent à des situations dejà apprises, et de façon constructive dans le cas contraire.
        3) L´un des avantages décisifs des organismes naturels sur les systèmes artificiels est leur grande robustesse, ou tolérance aux pannes: Une dégradation de l´état physique se traduit par une dégradation des performances (pouvant être compensée par une réorganisation interne) et non par un disfonctionnement radical. Dans un système symbolique traditionnel, la perte d´un élément entraine la perte de toutes les fonctions attachées à cet élément, alors que dans un réseau, la redondance des connexions évite ce genre de problème.
        4) Les réseaux connexionnistes permettent aussi de définir les mémoires associatives. En informatique traditionnelle on utilise les mémoires adressables donnant accès à un contenu dès lors que l´on connait son adresse. La perte de l´adresse entraine la perte de toute l´information stockée. D´autre part la mémoire humaine ne fonctionne pas ainsi mais plutôt de façon associative: C´est une petite partie d´un souvenir qui fait surgir la totalité de ce souvenir (la madeleine de Proust). Ce type de mémoire s´appelle mémoire adressable par son contenu. Les mémoires symboliques sont généralement de type classement: Les informations sont indexées par l´une de leur propriété, par exemple un classement alphabétique, ou selon la couleur , la taille, etc... On peut envisager des classements suivant plusieurs indexes mais, quelle que soit la complexité du classement, il sera toujours fini et il existera toujours des propriétés non indexées et, pour retrouver une information à partir de cette propriété il n´existera qu´une seule méthode: Parcourir la totalité des informations stockées jusqu´a trouver celle recherchée. Les réseau connexionniste autorisent le stockage de l´information dans des mémoires associatives permettant de retrouver un contenu lorsqu´est donnée une partie de ce contenu, même bruité (le droit à l´erreur). Chaque unité du réseau représente le "microtrait" d´un élément, les poids des connexions représentent les "micro-inférences" entre ces microtraits. Une configuration présentée en entrée (comme partie possiblement bruitée de l´information à rechercher) satisfera certaines des micro-inférences. Le réseau se stabilise dans la configuration la plus proche de celle présentée et qui satisfait le maximum de micro-inférences, c´est l´information recherchée. Rumelhart soulignait, en 1986, qu´il n´existe pas de distinction tranchée entre un souvenir véritable et une reconstruction plausible de celui-ci. Le souvenir véritable est une configuration stable produite par des modifications des règles d´inférences. Une confubulation est une configuration stable en raison de la façon dont les règles d´inférences ont été modifiées pour stocker plusieurs configurations distinctes. Le sujet n´a aucun moyen de distinguer une telle configuration de la chose réelle.
        5) Enfin, le dernier avantage décisif des méthodes connexionnistes, est leurs capacités d´ apprentissage: Par modifications expérimentales des poids de leurs connexions, les réseaux sont capables d´évoluer pour s´adapter de mieux en mieux à un environnement changeant ou mal connu.