LE CONNEXIONNISME: APPRENTISSAGES
Historique de la notion d´apprentissage
L´approche empirique
L´empirisme est né avec les philosophe anglais Bacon (1561-1626),
adversaire de l´aristotélisme et de la scolastique, et Locke (1632-1704),
le philosophe nominaliste irlandais Berkeley (1685-1753) et le
philosophe écossais Hume (1711-1776). L´empirisme priviligie
l´expérience sur le raisonnement. L´associationnisme fait de
l´expérience sensible la cause des idées simples qui, combinées,
donnent naissance aux idées complexes, la ressemblance permettant
la formation des associations. Ces idées furent reprises par les
philosophes anglais Stuart Mill (1806-1873) et Spencer (1820-1903).
Le béhaviorisme, né aux Etats Unis, reprend certaines idées
de l´associassionimse en associant les stimuli externes
et les réponses comportementales de l´organisme. L´apprentissage
fut étudié comme stratégies de réorganisation de l´environnement.
Mais, en considérant l´organisme comme une boite noire, le
béhaviorisme se condamnait à ignorer les phénomènes physiques
responsables des comportements intelligents.
L´approche rationaliste
Le rationalisme est representé par le philosophe francais Descartes
(1596-1650), le philosophe hollandais Spinoza (1632-1677) et le
philosophe-mathématicien allemand Leibniz (1646-1716), il s´oppose,
comme l´empirisme, à l´école scolastique, mais en soutenant, avec
Platon, l´innéisme des idées. Le raisonnement est alors
tout puissant et l´expérience ne fait que constater quelles idées
sont réalisables. En s´inspirant du mentalisme, le
linguiste américain Chomsky (1928), fait du langage une activité
essentiellement cognitive, s´appuyant sur une grammaire universelle.
Les paramètres de certaines structures innées seraient alors reglés
lors de l´apprentissage d´une langue.
L´approche cognitiviste
Les systèmes symboliques sont gouvernés par des règles, apprendre,
pour ces systèmes, revenait donc à modifier ces règles. Ce faisant,
c´est l´ensemble du comportement qui risquait d´être affecté et, de plus,
le procédé de modification des règles ne permet pas d´apprendher les
processus fins de l´apprentissage.
L´approche symbolique empirique (psychologie cognitive, IA) consiste
à modifier les règles et les représentations, l´approche symbolique
rationaliste (linguistique de Chomsky) travaille sur des méthodes
de modifications des paramètres d´une grammaire innée. Le
connexionnisme utilisera des méthodes empirique sur de
grands réseaux interconnectés (voir plus loin).
L´approche connexionniste
Le connexionnisme propose des méthodes d´apprentissages
basées sur l´expérimentation et consistant à changer localement
les poids des connexions de façon à améliorer le traitement des
configurations présentées en entrée. Une fois l´apprentissage
réalisé, le réseau fonctionne en fournissant des configurations
résultats obtenues par propagation des configurations d´entrées
à travers les connexions. Différentes méthodes d´apprentissage
existent en fonction de l´architecture du réseau:
Apprentissage dans les réseaux unidirectionnels à couches
Réseaux à deux couches (entrées et sorties)
Soit un réseau à propagation unidirectionnelle ne comportant
que deux couches: Une couche d´entrée recevant des configurations
d´activations et une couche de sortie produisant les configurations traitées.
La règle de Hebb
Un mode d´apprentissage supervisé consiste à présenter au
réseau un ensemble de couples (Ei,Si), où Ei
est une configuration d´entrée et Si est la configuration
de sortie souhaitée. La règle de Hebb précise quelle correction
apporter aux poids:
dwi,j = k * xi * sj
xi est la sortie de l´unité i et fonctionne comme entrée
de l´unité j, sj est la sortie souhaitée de l´unite j.
Ici, on considérera que les unités d´entrée i produisent
une sortie xi égale au signal fourni en entrée (règle
d´activation linéaire), la correction est alors le produit des activations
de deux unités connectées.
Si les activations sont de même signe, la correction est positive
(augmenter les poids qui produisent une réponse correcte).
Si elles sont de signes contraires, la correction est négative
(diminuer les poids qui produisent une réponse incorrecte).
On peut mesurer la corrélation de deux configurations
binaires d´entrée en les comparant élément par élément, par exemple:
A = (1,1,-1,1) , B = (-1,1,-1,1)
(1,-1) -> -1, (1,1) -> 1, (-1,-1) -> 1, (1,1) -> 1
cor(A,B) = -1+1+1+1+1 = 3
A = (1,1,-1,-1) , B = (-1,1,-1,1)
(1,-1) -> -1, (1,1) -> 1, (-1,-1) -> 1, (-1,1) -> -1
cor(A,B) = -1+1+1-1 = 0
Ces deux entrées, de corrélation nulle, sont dites orthogonales.
La règle de Hebb donne de bons résultats dans ce cas, mais l´apprentissage
échoue avec des configurations d´entrées non corrélées. Cette limitation
a conduit à rechercher des règles d´apprentissage plus puissantes, comme
la règle du delta:
La règle du delta ou règle de Widrow-Hoff
La règle du delta, ou
règle de Widrow-Hoff,
utilise la méthode
des moindres carrés qui mesure la divergence entre la
configuration de sortie souhaitée et la configuration de sortie calculée.
Q est la somme des carrés des différences entre la
sortie calculée ci et la sortie souhaitée si
et sert de mesure de l´erreur qu´il s´agit de minimiser.
On montre que la correction des poids, pour des fonctions d´activations
sigmoïdes,
est donnée par
dwi,j = ai * (1 - ai) * (ci - ai)
S´il y a une erreur, c´est à dire si (ci - ai)
n´est pas nul, et si ai n´est pas nul, alors dwi,j
n´est pas nul et il y a correction du poids wi,j, sinon le
poids reste inchangé.
On a pu montrer que si une matrice des poids existe qui produit
les sorties souhaitées, la méthode d´apprentissage basée sur la règle
du delta convergera en un nombre fini de passes. Mais, pour que cette
matrice existe, il faut que les configurations d´entrées utilisées
pour l´apprentissage soient linéairement indépendantes
(c´est à dire qu´aucune ne soit combinaison linéaire des autres).
De plus la taille du réseau dépend du nombre de configurations que
l´on désire lui faire apprendre. Si les configurations d´entrées
ne sont pas linéairement indépendantes, le réseau ne pourra apprendre
que si les couples d´apprentissage sont linéairement séparables, ce qui
n´est pas le cas du
XOR
(ou exclusif.
Si ces
conditions ne sont pas remplies, là ou la règle de Hebb échouait,
la règle du delta donnera la meilleure solution approchée. De plus
la règle du delta permet de généraliser l´apprentissage à
des exemples non appris, le réseau donnant une réponse sur la base
des resemblances de l´entrée avec les entrées apprises.
La contrainte de séparabilité linéaire est levée avec les réseaux
multicouches (c´est à dire avec des couches cachées):
Réseaux multicouches
Si aucune des deux contraintes suivantes n´est satisfaite:
indépendance linéaire des configurations d´entrée, et séparabilité
linéaire des couples entrée-sortie d´apprentissage, alors un réseau
à deux couches n´est pas certain de pouvoir apprendre. Ajouter
des couches cachées complexifie le réseau, et on a pu montrer que
des règles d´activation non linéaires étaient nécessaires.
C´est le cas de la fonction sigmoide, qui est généralement
choisie à cause de sa ressemblance avec la courbe de réponse
d´un neurone naturel:
Mais la règle du delta n´est applicable que pour des connexions
directes entrée-sortie et ne concerne donc pas une couche cachée.
La règle du delta généralisée consiste à propager le calcul
de l´erreur, par rétropropagation, en arrière, de la couche
de sortie vers les couches cachées puis vers la couche d´entrée.
L´ algorithme dit de la
rétropropagation de l´erreur
fournit la formule de correction des poids:
dwi,j = -n * di * aj
Il y a deux calculs de di selon que l´on considère
le couple (Cn,S)
de la dernière couche cachée et de la couche de sortie
di = 2 * f´(ei) * (ci - ai)
ou les autres couples (Cn-1,Cn) ... (E,C1):
k étant l´indice des unités de la couche i+1 reliées à l´unité i.
Si f est la fonction sigmoide alors sa dérivée a pour expression:
f´(ei) = ai * (1 - ai)
Cette méthode de la rétropropagation de l´erreur est très puissante,
elle présente cependant quelques inconvenients:
1) Elle est d´abord extrêmement lente (il faut plusieurs centaines
de passes pour résoudre un problème aussi simple que le
XOR).
2) Ensuite le temps d´apprentissage augmente exponentiellement
avec la taille du réseau. La résolution de cette difficulté exigera
des machines à architecture parallèle. D´autre part l´apprentissage
humain utilise d´autres méthodes (comme l´analogie) qu´il
serait intéressant de considérer.
3) Enfin la rétropropagation ne semble correspondre à aucun
processus biologique connu et ne constitue finalement qu´un mécanisme
de descente du gradient
Apprentissage de Boltzman dans les réseaux complètement connectés
Dans les réseaux complètement connectés, comme les réseaux de Hopfield
ou les machines de Boltzman, une configuration d´entrée provoque
un enchaînement de réajustements internes jusqu´à un possible état
d´équilibre qui constitue la réponse du réseau à cette entrée. Ces
cycles ne sont pas des apprentissages, en ce sens que les poids des
connexions ne sont pas modifiés, seules les valeurs d´activation
changent.
Hinton et Sejnowski ont décrit en 1986 un mode d´apprentissage
des machines de Boltzman analogue à la rétropropagation:
Dans un premier temps on bloque une couche d´entrée et une couche
de sortie puis on présente au réseau les couples d´apprentissage
en faisant décroitre la
température
T jusqu´à ce qu´un
équilibre thermique soit atteint, c´est à dire jusqu´à ce que la
probabilité que le réseau soit dans un état donné soit constante.
Soit pi,j+ la probabilité pour que les deux
unités i et j soient actives en même temps, obtenue en faisant la
moyenne, pour tous les couples d´apprentissage, des proportions de
temps ou elles sont actives en même temps.
Dans un deuxième temps on ne bloque que la couche d´entrée et on
présente de nouveau au réseau les couples d´apprentissage. Soit
pi,j- la probabilité pour que les deux unités i et j
soient actives en même temps, la correction du poids wi,j
est proportionnelle à la difference:
pi,j+ - pi,j-
qui exprime que si deux unités connectées sont simultanément actives
plus souvent quand le réseau opère avec la sortie souhaitée bloquée
(premier temps) que lorsqu´il opère librement (deuxième temps)
le poids est augmenté pour favoriser cet état, et inversement,
si les deux unités sont simultanement actives plus souvent
quand le réseau opère librement que quand il
opère avec la sortie souhaitée bloquée, il faut diminuer le poids
pour réduire cet état.
L´inconvenient majeur de cette méthode est sa lenteur.
Apprentissage compétitif
Dans les apprentissages supervisés
un professeur connaissant quelles sont les bonnes
réponses à une entrée donnée guide le processus de correction des
poids. Mais, dans la réalité, on ne sait justement pas quelles
sont les bonnes réponses, aussi a-t-on imaginé des méthodes non
supervisées, l´apprentissage compétitif est l´une d´elles: Elle consiste,
pour le réseau, à découvrir des régularités dans les
configurations présentées en entrée et à les classifier. Une couche
d´entrée, recevant les configurations à tester, est directement
connectée à une couche de détection [Bechtel 93] qui joue
d´une part le rôle de couche de sortie (puisque l´ensemble des
activités de ses éléments constitue la
réponse) et de couche cachée (puisqu´elle doit
détecter des régularités sans aide extérieure).
Le nombre d´éléments
de cette dernière couche dépend du nombre de classes des
configurations d´entrées que l´on désire effectuer.
La règle d´activation
consiste à élire une unité gagnante dont l´activation
vaut 1 alors que celles des autres unités vaut 0. L´apprentissage
consiste à augmenter les poids des connexions de l´unité gagnante
avec les unités actives de la couche d´entrée. La probabilité que
la même unité de détection devienne active si une même configuration
est présentée en entrée augmente, et la probabilité pour qu´elle
devienne active pour des configurations d´entrées différentes
diminue.
On peut définir plusieures couches de détection en compétitions
pour produire des comportements plus complexes. On peut aussi
définir des couches intermédiaires cachées détectant des régularités
d´ordres supérieurs. Enfin un tel réseau peut fonctionner de
façon dynamique lorsque des neurones sont créés ou
détruits selon leur densité.
Un exemple d´apprentissage compétitif est donné par les
réseaux de Kohonen
X = vecteur d´entrée.
Wm = vecteur des poids d´un neurone vainqueur m.
Vm = voisinage du neurone m.
Le critère de compétition est de minimiser la distance de Wm a X.
Apprentissage par renforcement
C´est une méthode intermédiaire entre le mode supervisé et le mode
compétitif: Pour une configuration d´entrée on ne fournit pas la
configuration de sortie idéale (mode supervisé) mais on donne
seulement une mesure de proximité, ce qui revient à un dressage
par punition-récompense ressemblant au jeu du chaud-froid.
En essayant diverses combinaisons de poids et en mesurant le renforcement
global obtenu,
à chaque essai les poids qui produisent un renforcement sont préférés
aux essais suivants et la matrice des poids converge vers une matrice
maximalisant le renforcement.
Cette méthode n´utilise pas les dérivées des erreurs (comme
la rétropropagation) mais demande de nombreux essais.