LE CONNEXIONNISME: HISTORIQUE
Ce document donne un aperçu global, et plutôt intuitif, du
connexionnisme.
Pour un exposé technique sur les
réseaux neuronaux
on se reportera
au cours Le connexionnisme en image de synthèse
d´autres questions plus specialisées
tels que les
systèmes adaptatifs
sont traitées dans le cours La
vie ARTificielle.
Béhaviorisme, physicalisme, fonctionnalisme et émergentisme
Le béhaviorisme fut la première manifestation d´une réduction
matérialiste de la pensée au XX ème siècle: Les états mentaux ne
seraient que des schémas comportementaux.
John R. Searl [Searl 99] conteste cette théorie en affirmant
que le mental cause le comportement, mais ne lui
est pas identifiable. La réduction du mental au comportemental ne
permet pas d´expliquer en quoi certains états mentaux en présupposent
d´autres (par exemple si je crois qu´il pleut et si je ne veux pas être
mouillé, alors j´emporterai mon parapluie, mais mon désir de ne pas être
mouillé ne s´explique que parce que je crois que mon parapluie sera efficace).
Le matérialisme, pour résoudre ces condradictions, s´est alors
tourné vers le physicalisme pour lequel les états mentaux sont
identiques à des états cérébraux. Cette conception exclue la possibilité,
pour d´autres organismes que le cerveau (comme des machines ou d´autres formes
de vie extraterrestre) d´avoir des états mentaux, or rien ne permet de le faire.
Selon le fonctionnalisme, qui tente de concilier le béhaviorisme
et le physicalisme, les états mentaux sont effectivement des états physiques,
mais ce sont leurs relations causales qui les définissent comme "mentaux" et
non pas leur support matériel. Par exemple une horloge est un système
capable de donner l´heure, elle se définit par cette cause et non par
le type de mécanisme qui le lui permet (mécanique, électronique, ...), elle
"fonctionne". Cette conception permet
d´envisager une vie artificielle en ce sens que d´autres supports
que les molécules carbonnées seraient susceptibles d´abriter de la vie, une
intelligence, une conscience et, pourquoi pas, un inconscient.
L´hypothèse avancée par l´Intelligence Artificielle Forte (IAF) est
qu´un état fonctionnel du cerveau est identique à un état computationnel
d´un ordinateur: Le cerveau ne serait qu´un ordinateur, l´esprit ne serait
qu´un programme et les états mentaux ne seraient que les états d´un tel
programme, autant d´affirmations contredites par les neurosciences: le cerveau, en effet, n´est pas une machine,
pas plus que l´intelligence n´est un programme,
mais ces deux mondes partagent certains principes de fonctionnement; dont c´est le rôle de la cybernétique
d´en explorer les frontières communes.
Pour le béhaviorisme la conscience se ramène à des dispositions
comportementales, pour le fonctionnalisme elle résulte de relations
causales et pour l´IAF elle se réduit à des états programmés. Mais comment
expliquer que l´esprit puisse se prendre lui-même comme objet d´étude ?
Une propriété émergente d´un système s´explique causalement par
les comportements des éléments de ce système et non par la somme des
propriétés de ces éléments: Une analyse descendante fait disparaître les
propriétés émergentes. La conscience serait une propriété émergente du cerveau.
Le cognitivisme émergent s´est imposé, depuis les années 70, comme le
successeur du béhaviorisme. Les sciences cognitives se sont alors orientées
vers la manipulation de symboles selon un ensemble de règles.
Le connexionnisme, depuis les années 80 [Rumelhart 86], propose
une explication radicalement différente de l´esprit en s´appuyant sur les
récentes avancées des neurosciences.
Sciences cognitives et informatique
Les sciences cognitives ont été définies comme l´étude experimentale
et théorique des processus de codage, de stockage, de manipulation
et de transfert d´informations, réalisés par les systèmes naturels
(le système nerveux) et artificiels (les ordinateurs). Cette définition
est à rapprocher de celle de la cybernétique comme étude
du contrôle et de la communication chez l´animal et pour
la machine [Wiener 48]. Toutes les deux contiennent une certaine
dualité naturel-artificiel qu´une analyse historique de
leurs origines permettra de dépasser:
Le philosophe anglais Hobbes (1588-1679) concevait la
pensée comme un calcul formel, il ramenait le raisonnement à la
logique.
Le mathématicien allemand Frege (1848-1925) fonda la logique sur
la manipulation de symboles logiques, à sa suite les
mathématiciens et philosophes anglais
Russel(1872-1970) et Whitehead (1823-1905) tentèrent de réduire
les mathématiques à la logique en s´appuyant sur les travaux du
mathématicien anglais Boole (1815-1864) inventeur de la logique
binaire.
Le mathématicien allemand Hilbert (1862-1943), dans son
célèbre ouvrage Les Fondements de la géométrie, initia la
méthode axiomatique en construisant un modèle numérique de
la géométrie analytique de Descartes dans lequel toute
contradiction se traduirait par une contradiction dans l´arithmétique.
Restait à montrer la non-contradiction des axiomes de l´arithmétique.
Il fut contredit par le mathématicien américain Gödel
(1906-1978) qui démontra l´incomplétude de l´arithmétique en
montrant qu´elle ne peut pas être prouvée avec le seul système
de ses axiomes.
Le mathématicien et philosophe français Poincaré
(1854-1912), qui contribua entre autre à la découverte de la
théorie de la relativité et fut l´un des fondateurs de la topologie,
s´opposa à la méthode axiomatique de Hilbert en privilégiant
l´intuition.
Le mathématicien anglais Turing (1912-1953) théorisa
les notions de décidabilité et de calculabilité. En
1947 il publia Intelligent Machinery [Turing 47], ouvrage
dans lequel il conçu une machine universelle, ancêtre de nos
modernes ordinateurs, à l´image du cerveau.
Le mathématicien américain
Wiener (1894-1964), fondateur de la cybernétique, proposa
une approche commune du contrôle et de la communication pour le
vivant et pour les machines.
Il s´intéressa, avec le théoricien américain Shannon
(né en 1916), au concept d´information et inventa la notion
de rétroaction (feed-back).
Le mathématicien américan Von Neuman
(1903-1957), connu pour sa théorie des jeux, fut à l´origine de
l´enregistrement numérique des programmes d´ordinateur et de la
structure de ces machines (l´architecture de Von Neuman).
Il s´intéressa aussi aux
automates autoreproducteurs
et montra que l´autoreproduction manifestée par la vie peut
s´expliquer, sans recourir à une mystérieuse force vitale,
par des processus élémentaires.
Les vues de Poincaré furent confirmées par le psychologue suisse
Piaget (1896-1980) [Piaget 77] qui étudia l´acquisition du langage et de la
logique par l´enfant, en montrant en particulier le rôle de
l´expérience. Aujourd´hui Alain Berthoz [Berthoz 97] défend
des thèses analogues en affirmant que l´acquisition et l´expression
de toutes les facultés cognitives passent par le mouvement.
La capacité d´abstraire
est un élément de notre survie et c´est la raison pour laquelle
la sélection naturelle l´a retenue, et non l´inverse, qui serait
l´existence d´une logique antérieure a toute apparition de
la pensée.
Le psychiatre américain Mc Culloch et le mathématicien
américain Pitts, inventeurs
du neurone artificiel en 1943, sont à l´origine du connexionnisme
et de l´idée que de la pensée pourrait émerger de la matière
organisée (vivante ou artificielle). Ainsi, l´informatique
et les sciences cognitives sont-elles intimement melées
dès leurs origines [Holley 99].
L´approche symbolique
Un premier courant de l´approche symbolique
est directement issu de la logique. Dans la
logique propositionnelle, les symboles représentent des propositions
et des connecteurs (ET, OU, NON, ...). La manipulation des symboles
s´appuie, par exemple dans la logique déductive, sur un ensemble
de règles permettant, à partir de propositions vraies,
d´engendrer d´autres propositions vraies. Dans la
théorie des modèles
une proposition est une représentation d´un état de
choses du monde réel, elle est vraie si cet état est réalisé
dans le monde réel, sinon elle est fausse. La théorie de la
démonstration ne s´intéresse pas aux relations entre les propositions
et les choses qu´elles représentent, mais seulement aux relations
entre les propositions elles-mêmes. Pour le philosophe français
Descartes (1596-1650) et le philosophe et mathématicien allemend
Leibniz (1646-1716), les symboles sont des idées combinées
par des règles.
L´ordinateur apparut au milieu du XX ème siècle comme un
instrument permettant d´actualiser des systèmes de logiques formelles:
Les symboles sont des chaînes binaires (de 0 et de 1 correspondant à
des phénomènes physiques à deux états) rangées en mémoire. Un programme
n´est qu´une suite de tels symboles, mais interprétés par la machine
comme des opérations à exécuter sur d´autres symboles (le code
et les datas). Comme en logique formelle, ces programmes
ne s´occupent pas de sémantique. Mais à la différence des
systèmes formels abstraits, un ordinateur est une machine physique
réalisant des opérations concrètes. En particulier,l´intelligence
artificielle (IA), née en 1956, montra que des heuristiques,
comme la suppression de voies de recherches non prometteuses, pouvaient
être plus utiles que les algorithmes garantissant le
résultat en un nombre fini de pas, mais souvent inefficaces pour
des problèmes complexes.
l´IA professait que des programmes
étaient capables de simuler n´importe quel comportement intelligent.
Pour l´IA, les causes des comportements intentionnels résident dans des
représentations internes instanciées physiquement dans le
cerveau sous forme de symboles. Ceux-ci présentent deux faces:
L´une, matérielle, (état d´activité d´un groupe de neurones) et
l´autre, abstraite, qui est une représentation. Le traitement des
symboles correspond à un niveau syntaxique. Les comportements
résultent des états représentationels et de l´architecture
fonctionnelle de l´organisme.
Un deuxième courant de l´approche symbolique est issu de la
linguistique:
Le linguiste américain Chomsky (né en 1928), élabora
les grammaires génératives (sorte d´automates capables
d´engendrer des ensembles infinis de phrases au moyen de règles
récursives) fort différentes des grammaires à états finis
employées jusqu´alors. Il critiqua le béhaviorisme,
impuissant à expliquer comment un locuteur pouvait comprendre
et produire des phrases entièrement nouvelles.
Ces deux courants, le logique et le linguistique, de l´approche
symbolique, conduisent tous deux à la conclusion qu´il serait
possible de modéliser la cognition au moyen de programmes d´ordinateur.
Mais la cognition humaine réside-t-elle seulement dans la manipulation
de symboles ? Il appartenait aux neurosciences et au
connexionnisme d´apporter un éclairage différent en attirant
l´attention sur la très importante notion de réseau.
l´approche connexionniste
Dans les années soixante et soixante-dix, l´approche symbolique prévalait
dans le domaine de l´IA et celui de la psychologie, l´approche
par des réseaux neuronaux ayant été stoppée par
Papert et Minsky
en 1969 (voir plus loin). Mais l´approche symbolique commençait
à montrer ses limites en particulier quant à sa robustesse
deffectueuse et son manque de souplesse qui la firent échouer
dans les tâches d´apprentissage et de reconnaissance de formes. Jusqu´en
1980 des recherches furent menées pour améliorer les systèmes d´IA
en ce sens, puis à partir de cette date on recommença à s´intéresser
aux réseaux: Il s´agissait de remplacer les symboles à grain large
par des microsymboles à grain fin, de remplacer les structures
linéaires et déterministes par de grands réseaux à comportements
statistiques et à représentations distribuées.
Dans les années soixante le connexionnisme
avait défini la cognition comme une propriété
émergente des nombreuses interactions d´un réseau neuronal
dans lequel l´information est traitée de façon parallèle.
Les systèmes symboliques et connexionnistes sont tous deux
computationnels, mais dans des sens différents: Pour
le premier le calcul est un ensemble de manipulations
symboliques obéissant à des règles écrites dans
un programme, alors que le deuxième s´intéresse aux processus
causaux réglant l´échange d´information au sein d´un réseau, mais
sans recourit ni aux symboles ni à des règles prédéfinies.
En 1969, Papert ei Minsky, avec leur ouvrage Perceptrons,
donnèrent un coup d´arrêt à la recherche dans le domaine: On savait
déjà que des problèmes non linéairement séparables, tels que
le XOR logique, ne pouvaient pas être implémentés
dans un réseau à deux couches et qu´une couche supplémentaire, dite
couche cachée, était nécessaire. Mais Papert et Minsky
montrèrent qu´aucun apprentissage d´un réseau multicouche n´était
garantie de converger vers une solution en un nombre fini de
passes et donc que, même avec des réseaux de grande taille, il était
vain de poursuivre les recherches. Cependant des scientifiques
tels que Anderson (1972), Kohonen (1972) Grossberg (1976) continuèrent
la recherche dans le domaine avec des moyens limités.
C´est à Hopfield et à Rumelhart que l´on doit le regain
d´intérêt pour les méthodes connexionnistes grâce en
particulier à la méthode de la
"rétropropagation de l´erreur"
et qui permet à un réseau de neurones multicouche de résoudre
des problèmes non linéairement
séparables. Simultanément l´approche symbolique montrait
ses limites, en particulier quant à la fragilité de ses
procédures et à son incapacité à résoudre des problèmes, simples
pour le vivant, et très complexe pour une machine (comme la reconnaissance
de forme). De plus les neurosciences voyaient dans le connexionnisme
une modélisation efficace leur permettant de mieux étudier et comprendre
le système nerveux, le cerveau et donc la cognition.