LE CONNEXIONNISME: APPRENTISSAGES

Historique de la notion d´apprentissage
Apprentissage dans les réseaux unidirectionnels à couches
Apprentissage de Boltzman dans les réseaux complètement connectés
Apprentissage compétitif
Apprentissage par renforcement

















































Historique de la notion d´apprentissage



       L´approche empirique

       L´approche rationaliste

       L´approche cognitiviste

       L´approche connexionniste

L´approche empirique

        L´empirisme est né avec les philosophe anglais Bacon (1561-1626), adversaire de l´aristotélisme et de la scolastique, et Locke (1632-1704), le philosophe nominaliste irlandais Berkeley (1685-1753) et le philosophe écossais Hume (1711-1776). L´empirisme priviligie l´expérience sur le raisonnement. L´associationnisme fait de l´expérience sensible la cause des idées simples qui, combinées, donnent naissance aux idées complexes, la ressemblance permettant la formation des associations. Ces idées furent reprises par les philosophes anglais Stuart Mill (1806-1873) et Spencer (1820-1903). Le béhaviorisme, né aux Etats Unis, reprend certaines idées de l´associassionimse en associant les stimuli externes et les réponses comportementales de l´organisme. L´apprentissage fut étudié comme stratégies de réorganisation de l´environnement. Mais, en considérant l´organisme comme une boite noire, le béhaviorisme se condamnait à ignorer les phénomènes physiques responsables des comportements intelligents.
       

L´approche rationaliste

        Le rationalisme est representé par le philosophe francais Descartes (1596-1650), le philosophe hollandais Spinoza (1632-1677) et le philosophe-mathématicien allemand Leibniz (1646-1716), il s´oppose, comme l´empirisme, à l´école scolastique, mais en soutenant, avec Platon, l´innéisme des idées. Le raisonnement est alors tout puissant et l´expérience ne fait que constater quelles idées sont réalisables. En s´inspirant du mentalisme, le linguiste américain Chomsky (1928), fait du langage une activité essentiellement cognitive, s´appuyant sur une grammaire universelle. Les paramètres de certaines structures innées seraient alors reglés lors de l´apprentissage d´une langue.
       

L´approche cognitiviste

        Les systèmes symboliques sont gouvernés par des règles, apprendre, pour ces systèmes, revenait donc à modifier ces règles. Ce faisant, c´est l´ensemble du comportement qui risquait d´être affecté et, de plus, le procédé de modification des règles ne permet pas d´apprendher les processus fins de l´apprentissage.
        L´approche symbolique empirique (psychologie cognitive, IA) consiste à modifier les règles et les représentations, l´approche symbolique rationaliste (linguistique de Chomsky) travaille sur des méthodes de modifications des paramètres d´une grammaire innée. Le connexionnisme utilisera des méthodes empirique sur de grands réseaux interconnectés (voir plus loin).

L´approche connexionniste

        Le connexionnisme propose des méthodes d´apprentissages basées sur l´expérimentation et consistant à changer localement les poids des connexions de façon à améliorer le traitement des configurations présentées en entrée. Une fois l´apprentissage réalisé, le réseau fonctionne en fournissant des configurations résultats obtenues par propagation des configurations d´entrées à travers les connexions. Différentes méthodes d´apprentissage existent en fonction de l´architecture du réseau:

Apprentissage dans les réseaux unidirectionnels à couches


       Réseaux à deux couches (entrées et sorties)

       Réseaux multicouches

Réseaux à deux couches (entrées et sorties)


              La règle de Hebb

              La règle du delta ou règle de Widrow-Hoff

        Soit un réseau à propagation unidirectionnelle ne comportant que deux couches: Une couche d´entrée recevant des configurations d´activations et une couche de sortie produisant les configurations traitées.

La règle de Hebb

        Un mode d´apprentissage supervisé consiste à présenter au réseau un ensemble de couples (Ei,Si), où Ei est une configuration d´entrée et Si est la configuration de sortie souhaitée. La règle de Hebb précise quelle correction apporter aux poids:
        dwi,j = k * xi * sj
        xi est la sortie de l´unité i et fonctionne comme entrée de l´unité j, sj est la sortie souhaitée de l´unite j.
        Ici, on considérera que les unités d´entrée i produisent une sortie xi égale au signal fourni en entrée (règle d´activation linéaire), la correction est alors le produit des activations de deux unités connectées.
        Si les activations sont de même signe, la correction est positive (augmenter les poids qui produisent une réponse correcte).
        Si elles sont de signes contraires, la correction est négative (diminuer les poids qui produisent une réponse incorrecte).
        On peut mesurer la corrélation de deux configurations binaires d´entrée en les comparant élément par élément, par exemple:
        A = (1,1,-1,1) , B = (-1,1,-1,1)
                (1,-1) -> -1, (1,1) -> 1, (-1,-1) -> 1, (1,1) -> 1
                cor(A,B) = -1+1+1+1+1 = 3
        A = (1,1,-1,-1) , B = (-1,1,-1,1)
                (1,-1) -> -1, (1,1) -> 1, (-1,-1) -> 1, (-1,1) -> -1
                cor(A,B) = -1+1+1-1 = 0
        Ces deux entrées, de corrélation nulle, sont dites orthogonales. La règle de Hebb donne de bons résultats dans ce cas, mais l´apprentissage échoue avec des configurations d´entrées non corrélées. Cette limitation a conduit à rechercher des règles d´apprentissage plus puissantes, comme la règle du delta:

La règle du delta ou règle de Widrow-Hoff

        La règle du delta, ou règle de Widrow-Hoff, utilise la méthode des moindres carrés qui mesure la divergence entre la configuration de sortie souhaitée et la configuration de sortie calculée.
        Q est la somme des carrés des différences entre la sortie calculée ci et la sortie souhaitée si et sert de mesure de l´erreur qu´il s´agit de minimiser. On montre que la correction des poids, pour des fonctions d´activations sigmoïdes, est donnée par
        dwi,j = ai * (1 - ai) * (ci - ai)
        S´il y a une erreur, c´est à dire si (ci - ai) n´est pas nul, et si ai n´est pas nul, alors dwi,j n´est pas nul et il y a correction du poids wi,j, sinon le poids reste inchangé.
        On a pu montrer que si une matrice des poids existe qui produit les sorties souhaitées, la méthode d´apprentissage basée sur la règle du delta convergera en un nombre fini de passes. Mais, pour que cette matrice existe, il faut que les configurations d´entrées utilisées pour l´apprentissage soient linéairement indépendantes (c´est à dire qu´aucune ne soit combinaison linéaire des autres). De plus la taille du réseau dépend du nombre de configurations que l´on désire lui faire apprendre. Si les configurations d´entrées ne sont pas linéairement indépendantes, le réseau ne pourra apprendre que si les couples d´apprentissage sont linéairement séparables, ce qui n´est pas le cas du XOR (ou exclusif. Si ces conditions ne sont pas remplies, là ou la règle de Hebb échouait, la règle du delta donnera la meilleure solution approchée. De plus la règle du delta permet de généraliser l´apprentissage à des exemples non appris, le réseau donnant une réponse sur la base des resemblances de l´entrée avec les entrées apprises.
        La contrainte de séparabilité linéaire est levée avec les réseaux multicouches (c´est à dire avec des couches cachées):

Réseaux multicouches

        Si aucune des deux contraintes suivantes n´est satisfaite: indépendance linéaire des configurations d´entrée, et séparabilité linéaire des couples entrée-sortie d´apprentissage, alors un réseau à deux couches n´est pas certain de pouvoir apprendre. Ajouter des couches cachées complexifie le réseau, et on a pu montrer que des règles d´activation non linéaires étaient nécessaires. C´est le cas de la fonction sigmoide, qui est généralement choisie à cause de sa ressemblance avec la courbe de réponse d´un neurone naturel:
        Mais la règle du delta n´est applicable que pour des connexions directes entrée-sortie et ne concerne donc pas une couche cachée. La règle du delta généralisée consiste à propager le calcul de l´erreur, par rétropropagation, en arrière, de la couche de sortie vers les couches cachées puis vers la couche d´entrée.
        L´ algorithme dit de la rétropropagation de l´erreur fournit la formule de correction des poids:

dwi,j = -n * di * aj

        Il y a deux calculs de di selon que l´on considère le couple (Cn,S) de la dernière couche cachée et de la couche de sortie
di = 2 * f´(ei) * (ci - ai)

ou les autres couples (Cn-1,Cn) ... (E,C1):
        k étant l´indice des unités de la couche i+1 reliées à l´unité i.
        Si f est la fonction sigmoide alors sa dérivée a pour expression:
f´(ei) = ai * (1 - ai)

        Cette méthode de la rétropropagation de l´erreur est très puissante, elle présente cependant quelques inconvenients:
        1) Elle est d´abord extrêmement lente (il faut plusieurs centaines de passes pour résoudre un problème aussi simple que le
XOR
).
        2) Ensuite le temps d´apprentissage augmente exponentiellement avec la taille du réseau. La résolution de cette difficulté exigera des machines à architecture parallèle. D´autre part l´apprentissage humain utilise d´autres méthodes (comme l´analogie) qu´il serait intéressant de considérer.
        3) Enfin la rétropropagation ne semble correspondre à aucun processus biologique connu et ne constitue finalement qu´un mécanisme de descente du gradient

Apprentissage de Boltzman dans les réseaux complètement connectés

        Dans les réseaux complètement connectés, comme les réseaux de Hopfield ou les machines de Boltzman, une configuration d´entrée provoque un enchaînement de réajustements internes jusqu´à un possible état d´équilibre qui constitue la réponse du réseau à cette entrée. Ces cycles ne sont pas des apprentissages, en ce sens que les poids des connexions ne sont pas modifiés, seules les valeurs d´activation changent.
        Hinton et Sejnowski ont décrit en 1986 un mode d´apprentissage des machines de Boltzman analogue à la rétropropagation:
        Dans un premier temps on bloque une couche d´entrée et une couche de sortie puis on présente au réseau les couples d´apprentissage en faisant décroitre la température T jusqu´à ce qu´un équilibre thermique soit atteint, c´est à dire jusqu´à ce que la probabilité que le réseau soit dans un état donné soit constante. Soit pi,j+ la probabilité pour que les deux unités i et j soient actives en même temps, obtenue en faisant la moyenne, pour tous les couples d´apprentissage, des proportions de temps ou elles sont actives en même temps.
        Dans un deuxième temps on ne bloque que la couche d´entrée et on présente de nouveau au réseau les couples d´apprentissage. Soit pi,j- la probabilité pour que les deux unités i et j soient actives en même temps, la correction du poids wi,j est proportionnelle à la difference:
pi,j+ - pi,j-
qui exprime que si deux unités connectées sont simultanément actives plus souvent quand le réseau opère avec la sortie souhaitée bloquée (premier temps) que lorsqu´il opère librement (deuxième temps) le poids est augmenté pour favoriser cet état, et inversement, si les deux unités sont simultanement actives plus souvent quand le réseau opère librement que quand il opère avec la sortie souhaitée bloquée, il faut diminuer le poids pour réduire cet état.
        L´inconvenient majeur de cette méthode est sa lenteur.

Apprentissage compétitif

        Dans les apprentissages supervisés un professeur connaissant quelles sont les bonnes réponses à une entrée donnée guide le processus de correction des poids. Mais, dans la réalité, on ne sait justement pas quelles sont les bonnes réponses, aussi a-t-on imaginé des méthodes non supervisées, l´apprentissage compétitif est l´une d´elles: Elle consiste, pour le réseau, à découvrir des régularités dans les configurations présentées en entrée et à les classifier. Une couche d´entrée, recevant les configurations à tester, est directement connectée à une couche de détection [Bechtel 93] qui joue d´une part le rôle de couche de sortie (puisque l´ensemble des activités de ses éléments constitue la réponse) et de couche cachée (puisqu´elle doit détecter des régularités sans aide extérieure). Le nombre d´éléments de cette dernière couche dépend du nombre de classes des configurations d´entrées que l´on désire effectuer. La règle d´activation consiste à élire une unité gagnante dont l´activation vaut 1 alors que celles des autres unités vaut 0. L´apprentissage consiste à augmenter les poids des connexions de l´unité gagnante avec les unités actives de la couche d´entrée. La probabilité que la même unité de détection devienne active si une même configuration est présentée en entrée augmente, et la probabilité pour qu´elle devienne active pour des configurations d´entrées différentes diminue.
        On peut définir plusieures couches de détection en compétitions pour produire des comportements plus complexes. On peut aussi définir des couches intermédiaires cachées détectant des régularités d´ordres supérieurs. Enfin un tel réseau peut fonctionner de façon dynamique lorsque des neurones sont créés ou détruits selon leur densité.
        Un exemple d´apprentissage compétitif est donné par les réseaux de Kohonen
        X = vecteur d´entrée.
        Wm = vecteur des poids d´un neurone vainqueur m.
        Vm = voisinage du neurone m.
        Le critère de compétition est de minimiser la distance de Wm a X.

Apprentissage par renforcement

        C´est une méthode intermédiaire entre le mode supervisé et le mode compétitif: Pour une configuration d´entrée on ne fournit pas la configuration de sortie idéale (mode supervisé) mais on donne seulement une mesure de proximité, ce qui revient à un dressage par punition-récompense ressemblant au jeu du chaud-froid. En essayant diverses combinaisons de poids et en mesurant le renforcement global obtenu, à chaque essai les poids qui produisent un renforcement sont préférés aux essais suivants et la matrice des poids converge vers une matrice maximalisant le renforcement.
        Cette méthode n´utilise pas les dérivées des erreurs (comme la rétropropagation) mais demande de nombreux essais.