Le mime connexionniste:
Une application simple des réseaux neuronaux aux spectacles vivants
Michel BRET, professeur émérite, A.T.I., Université PARIS8
mai 2008
Mots clés:
Art, connexionnisme, interactivité, mime, vie artificielle.
1 Résumé
Cet article présente une méthode très simple pour construire un mime
virtuel qui ne soit pas la simple réplique d'un acteur vivant, mais qui fasse preuve
de suffisamment d'autonomie pour créer les conditions d'un dialogue non déterministe
entre un humain et un être artificiel capable de le surprendre.
Après quelques remarques sur les limites des méthodes d'animationde
traditionnellement utilisées en synthèse je développerai une
méthode connexionniste donant à l'acteur de synthèse la capacité
d'interpréter librement et d'inventer.
J'expliquerai enfin comment implémenter un tel procédé.
Introduction
L'animation de synthèse s'est largement inspirée des méthodes du dessin animé
traditionnel, la réalité virtuelle et les jeux vidéos empruntant plutôt leurs modèles au domaine de la simulation
scientifique. Dans tous les cas il semble bien que les recherches plastiques (qu'il s'agisse de la peinture,
du théâtre ou du cinéma) aient été quelque peu oubliées. Je voudrais montrer que l'ignorance dont font
preuve les artistes d'aujourd'hui ne remet absolument pas en cause le numérique en tant que tel
et que les limitations, la pauvreté et le conformisme qui caractérisent ces oeuvres ne sont pas inhérentes
au numérique. J'aborderai ici le problème de l'imitation qui ne doit pas être confondu avec celui
de la copie. Mimer c'est donner un spectacle en utilisant un langage du corps
en usage dans toutes les cultures. Pourquoi fait-on très bien la différence entre un robot imitateur
et un mime professionnel ? C'est que le premier ne fait que reproduire une apparence alors que le second
provoque chez le spectateur l'émotion que celui-ci éprouverait en présence d'une réalité drôle,
triste ou tragique, ce qui suppose une certaine empathie.
1 Sur la capture de mouvement
La capture de mouvement traditionnelle, si elle constitue une méthode d'animation extraordinnairement
puissante et de mise en oeuvre simple, présente cependant certaines faiblesses:
1) D'abord elle ne constitue pas, dans son principe, une évolution radicale par rapport au
cinéma ou à la vidéo, s'agissant dans tous les cas de garder une trace, ou une
empreinte, d'une réalité considérée indépendamment de sa
perception, même si, pour l'un l'information est de type 2D alors que, pour l'autre, elle est 3D,
ce n'est finalement qu'une mémorisation qui ne peut être que rejouée et non
pas, comme dans un spectacle vivant, jouée interactivement avec tout l'indéterminisme que celà
suppose.
2) Ensuite, dans un parti pris naif de réalisme elle voudrait "faire vrai",
obéissant en ceci
à une volonté conformiste d'exactitude et de rigueur qui me
semble très éloignée d'une attitude véritablement artistique et
créative.
3) Enfin elle va au plus simple: quoi de plus simple, en effet, que de copier la réalité?
On est en droit de se demander à quoi peut bien servir une telle copie, alors que
l'original est parfait. Si l'on veut vraîment un double, pourquoi ne pas prendre une vidéo ou,
encore plus simplement, utiliser un miroir? Il est facile d'impressioner un public non averti en faisant étalage
d'une technicité rendue volontairement opaque et mystérieuse, dans le seul but de
garder le pouvoir qu'elle confère. Mais quand on plonge dans le code de tels systèmes,
on reste confondu devant leur trivialité, voir leur indigence: Une fois débarassé de leur interfaces
(avec des outils standards du commerce ...), on s'apperçoit qu'ils se réduisent à quelques
lignes de code, du genre:
Lire_capteur();affecter(valeur_capteur, actuateurs);
Qui exprime tout simplement que l'on mappe, sans autre forme de procédé, les valeurs
délivrées par les capteurs sur les paramètres commandant l'animation.
Or on sait bien que la perception ne fonctionne pas de cette façon et que les projections
des organes des sens dans le cortex, outre qu'elles ne constituent pas à proprement parler la perception,
ne sont déjà plus des copies du signal qui leur a donné naissance. Le cerveau
analyse des "images mentales", ou "configurations neuronales", instables et continuellement modifiées
par l'interaction de l'organisme avec son environnement: il "reconnaitra" des formes lorsque la
perception qu'il en a entre en résonnance avec d'autres images mentales, stockées
sous forme de configurations neuronales dans la mémoire,
et correspondant à des expériences passées. Il pourra aussi entreprendre
des actions suite à une décision dépendant de son vécu antérieur.
Nous sommes là très loin d'un simple isomorphisme entre un signal et une action.
Piaget avait déjà noté, et Damasio [Damasio 1999] l'a confirmé,
que la perception est une action de mise en relation relevant plus d'un apprentissage
que d'une habileté, il proposait que la perception soit un processus de construction actif
permettant de généraliser en schèmes les carastéristiques communes
à plusieurs objets. Un récepteur sensoriel envoie au cerveau un signal nerveux qui se combine
aux autres signaux nerveux en provenance d'autres récepteurs, et le cerveau va infrérer,
grâce à la mémoire, et prévoir ce qui va être perçu comme
un tout.
2 Une méthode connexionniste
2-1 La seconde interactivité
Avec Edmond Couchot et Marie-Hélène Tramus [Couchot 2003] nous avons défini
le concept de "seconde interactivité" (par analogie avec la seconde cybernétique) qui
apparaît dès que le système se modifie lui-même
au cours d'apprentissages par lesquels il interagit avec son environnementa afin de s'y adapter.
Nous avons aussi qualifié cette interactivité d'"intelligente" car son implémentation
s'inspire du fonctionnement des systèmes nerveux des êtres vivants les plus évolués.
Au lieu de transmettre mécaniquement l'information en provenance des capteurs, celle-là
est relayée par des réseaux neuronaux dont les sorties sont connéctées
aux actuateurs. Au cours des apprentissages résultants de l'interaction de l'être virtuel
avec son environnement, ces réseaux s'auto configurent afin d'optimiser la prévisibilité
de leur perception.
2-2 Des réseaux neuromimétiques
Dans un apprentissage supervisé [Abdi 1994] on définit des couples d'apprentissage
(P, A), la perception P étant projettée sur la couche d'entrée du réseau,
l'action A étant attendue sur la couche de sortie. La matrice des poids synaptiques,
initialisée aléatoirement, produit une action calculée C généralement
différente de A. L'algorithme de la "rétropropagation de l'erreur" travaillant sur un
réseau multi couches permet de minimiser l'erreur A-C en modifiant les poids synaptiques.
Lorsqu'il y a plus d'un couple, l'apprentissage doit être recommencé pour chacun des
couples jusqu'à ce que l'erreur tombe en deça d'une valeur acceptable. Un tel apprentisage
suppose qu'un "professeur" dise quelle est la bonne
sortie A. En faisant l'hypothèse simplificatrice que C = A, on se limite à des réseaus
dont la seule fonction est de reconnaître et, dans ce cas, il n'y a plus besoin de professeur.
C'est cette méthode très simple que j'ai employé pour construire un
"mime connexionniste" observant des acteurs humains et improvisant, en temps réel, une mimique
qui, audelà de la simple copie, relève de l'invention.
3 Implémentation
3-1 Comment faire
Il existe de nombreux outils proposant une approche connexionniste de la résolution
de problèmes, faire par exemple dans Google:
"neural network" + download
Il suffit ensuite d'interfacer un tel outil avec un module d'animation de personnage 3D
et avec un module de capture.
Je n'ai eu évidemment, dans cette tache, aucune difficulté puisque les réseaux
neuronaux sont intégrés dans anyflo depuis 1995 [Bret 1998], l'animation 3D de personnages
et la captation y sont intégrés depuis 1988. J'ai par ailleurs déjà
réalisé de nombreuses installations interactives utilisant de tels réseaux [Bret 2005].
3-2 Implémentation dans anyflo
3-2-1 Le mime virtuel
Un corps virtuel sera défini par [Bret 2000]:
1) Un squelette comme structure articulée.
2) Un système musculaire attaché au squelette.
3) Une peau tendue sur les éléments précédents.
4) Un "cerveau" comme réseau neuronal multi couches dont les entrées sont
connectées aux capteurs et dont les sorties (neurones moteurs) sont connectées
au système musculaire.
Le capteur sera une simple webcam.
Le mime virtuel a subi au préalable un entraînement lui permettant de
rétablir automatiquement son équilibre, pratiquement des réseaux ont été configurés
avec, en entrée des positions de désiquilibre et, en sortie, des positions de rétablissement.
3-2-2 Le réseau neuronal
Un simple réseau multi couches entraîné de façon continue par l'algorithme de la
rétropropagation de l'erreur. On peut voir sur les figures suivantes l'effet que produit
le déplacement de la main devant la caméra sur le comportement du mime virtuel.
3-2-3 Apprentissage supervisé
Placé dans un champ de pesanteur avec des obstacles (sol, murs, ...) et
observant un acteur réel, les réseaux vont s'auto configurer en permanence de façon
à ce que la comportement du mime reproduise celui de l'acteur.
La limitation de la capacité d'enregistrement des matrices synaptiques est compensée
par un certain "oubli" dépendant de la complexité des réseaux (en particulier
du nombre de leurs neurones et du nombre de leurs couches cachées).
3-2-3 Apprentissage non supervisé
La caméra délivrera des informations sur la dynamique de variation de l'image, la
méthode de "cohérence de flux" [Bret 2007] donnera un signal de sortie corrélé avec
ces variations et donc un mouvement du mime virtuel en accord avec celui de l'acteur réel.
Il s'agit là plus d'un mimétisme de résonnance que d'une imitation au sens propre, l'effet
attendu est la satisfaction engendrée par la perception harmonieuse des mouvements
des deux acteurs.
Conclusion
J'espère avoir montré qu'il est assez facile, en utilisant des méthodes
issues de la Vie Artificielle, de renouveler en profondeur l'apport des technologies du
numérique aux spectacles vivants, précisément en introduisant du vivant
là où la machine n'avait imposé que de la froideur. Malheureusement une certaine
technophobie, ou la simple méconnaissance, continuent d'éloigner les artistes, et
en particulier les chorégraphes, de telles considérations. Ce sera peut-être
pour plus tard...
Bibliographie
Abdi H. 1994: Les réseaux de neurones,
Presses Universitaires de Grenoble 1994.
Bret M. 1998, Une méthode comportementale de modélisation du corps humain.
Bret M. 2000, Virtual Living Beings, in Lecture Notes in Artificial
Intelligence, Virtula Worlds 119-134, Ed. Jean-Claude Heudin, Springer 2000.
Bret M., Tramus M.H., Berthoz A. 2005 Interacting with an
Intelligent Dancing Figure : Artistic Experiments at the Crossroads
betweenAart and Cognitive Science, in Leonardo, Vol 38, N° 1, pp. 46-53,
2005.
[Bret M. 2007, Création, émergence, autonomie, in
Rencontres sur la Réalité virtuelle et les Arts Numériques, Centre des
Art d’Enghien, Université Paris8, mars 2007 .
Couchot E., Tramus M.H., Michel Bret 2003,
A segunda interatividade. Em direção a novas praticas artisticas 2003 :
In Arte vida no século XXI p.27, 38, Diana Domingues,Editora UNESP Saõ Paulo,
Brasil.
Damasio Antonio R. 1999, Le sentiment même de soi, corps,
émotions, conscience, Ed Odile Jacob, 1999.