Le mime connexionniste:

Une application simple des réseaux neuronaux aux spectacles vivants

Michel BRET, professeur émérite, A.T.I., Université PARIS8 mai 2008



Mots clés:

Art, connexionnisme, interactivité, mime, vie artificielle.

1 Résumé

     Cet article présente une méthode très simple pour construire un mime virtuel qui ne soit pas la simple réplique d'un acteur vivant, mais qui fasse preuve de suffisamment d'autonomie pour créer les conditions d'un dialogue non déterministe entre un humain et un être artificiel capable de le surprendre.
     Après quelques remarques sur les limites des méthodes d'animationde traditionnellement utilisées en synthèse je développerai une méthode connexionniste donant à l'acteur de synthèse la capacité d'interpréter librement et d'inventer.
     J'expliquerai enfin comment implémenter un tel procédé.

Introduction

     L'animation de synthèse s'est largement inspirée des méthodes du dessin animé traditionnel, la réalité virtuelle et les jeux vidéos empruntant plutôt leurs modèles au domaine de la simulation scientifique. Dans tous les cas il semble bien que les recherches plastiques (qu'il s'agisse de la peinture, du théâtre ou du cinéma) aient été quelque peu oubliées. Je voudrais montrer que l'ignorance dont font preuve les artistes d'aujourd'hui ne remet absolument pas en cause le numérique en tant que tel et que les limitations, la pauvreté et le conformisme qui caractérisent ces oeuvres ne sont pas inhérentes au numérique. J'aborderai ici le problème de l'imitation qui ne doit pas être confondu avec celui de la copie. Mimer c'est donner un spectacle en utilisant un langage du corps en usage dans toutes les cultures. Pourquoi fait-on très bien la différence entre un robot imitateur et un mime professionnel ? C'est que le premier ne fait que reproduire une apparence alors que le second provoque chez le spectateur l'émotion que celui-ci éprouverait en présence d'une réalité drôle, triste ou tragique, ce qui suppose une certaine empathie.

1 Sur la capture de mouvement

     La capture de mouvement traditionnelle, si elle constitue une méthode d'animation extraordinnairement puissante et de mise en oeuvre simple, présente cependant certaines faiblesses:
1) D'abord elle ne constitue pas, dans son principe, une évolution radicale par rapport au cinéma ou à la vidéo, s'agissant dans tous les cas de garder une trace, ou une empreinte, d'une réalité considérée indépendamment de sa perception, même si, pour l'un l'information est de type 2D alors que, pour l'autre, elle est 3D, ce n'est finalement qu'une mémorisation qui ne peut être que rejouée et non pas, comme dans un spectacle vivant, jouée interactivement avec tout l'indéterminisme que celà suppose.
2) Ensuite, dans un parti pris naif de réalisme elle voudrait "faire vrai", obéissant en ceci à une volonté conformiste d'exactitude et de rigueur qui me semble très éloignée d'une attitude véritablement artistique et créative.
3) Enfin elle va au plus simple: quoi de plus simple, en effet, que de copier la réalité? On est en droit de se demander à quoi peut bien servir une telle copie, alors que l'original est parfait. Si l'on veut vraîment un double, pourquoi ne pas prendre une vidéo ou, encore plus simplement, utiliser un miroir? Il est facile d'impressioner un public non averti en faisant étalage d'une technicité rendue volontairement opaque et mystérieuse, dans le seul but de garder le pouvoir qu'elle confère. Mais quand on plonge dans le code de tels systèmes, on reste confondu devant leur trivialité, voir leur indigence: Une fois débarassé de leur interfaces (avec des outils standards du commerce ...), on s'apperçoit qu'ils se réduisent à quelques lignes de code, du genre:
     Lire_capteur();affecter(valeur_capteur, actuateurs);
Qui exprime tout simplement que l'on mappe, sans autre forme de procédé, les valeurs délivrées par les capteurs sur les paramètres commandant l'animation.
     Or on sait bien que la perception ne fonctionne pas de cette façon et que les projections des organes des sens dans le cortex, outre qu'elles ne constituent pas à proprement parler la perception, ne sont déjà plus des copies du signal qui leur a donné naissance. Le cerveau analyse des "images mentales", ou "configurations neuronales", instables et continuellement modifiées par l'interaction de l'organisme avec son environnement: il "reconnaitra" des formes lorsque la perception qu'il en a entre en résonnance avec d'autres images mentales, stockées sous forme de configurations neuronales dans la mémoire, et correspondant à des expériences passées. Il pourra aussi entreprendre des actions suite à une décision dépendant de son vécu antérieur. Nous sommes là très loin d'un simple isomorphisme entre un signal et une action.
     Piaget avait déjà noté, et Damasio [Damasio 1999] l'a confirmé, que la perception est une action de mise en relation relevant plus d'un apprentissage que d'une habileté, il proposait que la perception soit un processus de construction actif permettant de généraliser en schèmes les carastéristiques communes à plusieurs objets. Un récepteur sensoriel envoie au cerveau un signal nerveux qui se combine aux autres signaux nerveux en provenance d'autres récepteurs, et le cerveau va infrérer, grâce à la mémoire, et prévoir ce qui va être perçu comme un tout.

2 Une méthode connexionniste

2-1 La seconde interactivité

     Avec Edmond Couchot et Marie-Hélène Tramus [Couchot 2003] nous avons défini le concept de "seconde interactivité" (par analogie avec la seconde cybernétique) qui apparaît dès que le système se modifie lui-même au cours d'apprentissages par lesquels il interagit avec son environnementa afin de s'y adapter. Nous avons aussi qualifié cette interactivité d'"intelligente" car son implémentation s'inspire du fonctionnement des systèmes nerveux des êtres vivants les plus évolués.
     Au lieu de transmettre mécaniquement l'information en provenance des capteurs, celle-là est relayée par des réseaux neuronaux dont les sorties sont connéctées aux actuateurs. Au cours des apprentissages résultants de l'interaction de l'être virtuel avec son environnement, ces réseaux s'auto configurent afin d'optimiser la prévisibilité de leur perception.

2-2 Des réseaux neuromimétiques

     Dans un apprentissage supervisé [Abdi 1994] on définit des couples d'apprentissage (P, A), la perception P étant projettée sur la couche d'entrée du réseau, l'action A étant attendue sur la couche de sortie. La matrice des poids synaptiques, initialisée aléatoirement, produit une action calculée C généralement différente de A. L'algorithme de la "rétropropagation de l'erreur" travaillant sur un réseau multi couches permet de minimiser l'erreur A-C en modifiant les poids synaptiques. Lorsqu'il y a plus d'un couple, l'apprentissage doit être recommencé pour chacun des couples jusqu'à ce que l'erreur tombe en deça d'une valeur acceptable. Un tel apprentisage suppose qu'un "professeur" dise quelle est la bonne sortie A. En faisant l'hypothèse simplificatrice que C = A, on se limite à des réseaus dont la seule fonction est de reconnaître et, dans ce cas, il n'y a plus besoin de professeur.
     C'est cette méthode très simple que j'ai employé pour construire un "mime connexionniste" observant des acteurs humains et improvisant, en temps réel, une mimique qui, audelà de la simple copie, relève de l'invention.

3 Implémentation

3-1 Comment faire

     Il existe de nombreux outils proposant une approche connexionniste de la résolution de problèmes, faire par exemple dans Google:
"neural network" + download
     Il suffit ensuite d'interfacer un tel outil avec un module d'animation de personnage 3D et avec un module de capture.
     Je n'ai eu évidemment, dans cette tache, aucune difficulté puisque les réseaux neuronaux sont intégrés dans anyflo depuis 1995 [Bret 1998], l'animation 3D de personnages et la captation y sont intégrés depuis 1988. J'ai par ailleurs déjà réalisé de nombreuses installations interactives utilisant de tels réseaux [Bret 2005].

3-2 Implémentation dans anyflo

3-2-1 Le mime virtuel
     Un corps virtuel sera défini par [Bret 2000]:
1) Un squelette comme structure articulée.
2) Un système musculaire attaché au squelette.
3) Une peau tendue sur les éléments précédents.
4) Un "cerveau" comme réseau neuronal multi couches dont les entrées sont connectées aux capteurs et dont les sorties (neurones moteurs) sont connectées au système musculaire.
     Le capteur sera une simple webcam.
     Le mime virtuel a subi au préalable un entraînement lui permettant de rétablir automatiquement son équilibre, pratiquement des réseaux ont été configurés avec, en entrée des positions de désiquilibre et, en sortie, des positions de rétablissement.
3-2-2 Le réseau neuronal
     Un simple réseau multi couches entraîné de façon continue par l'algorithme de la rétropropagation de l'erreur. On peut voir sur les figures suivantes l'effet que produit le déplacement de la main devant la caméra sur le comportement du mime virtuel.

3-2-3 Apprentissage supervisé
     Placé dans un champ de pesanteur avec des obstacles (sol, murs, ...) et observant un acteur réel, les réseaux vont s'auto configurer en permanence de façon à ce que la comportement du mime reproduise celui de l'acteur. La limitation de la capacité d'enregistrement des matrices synaptiques est compensée par un certain "oubli" dépendant de la complexité des réseaux (en particulier du nombre de leurs neurones et du nombre de leurs couches cachées).
3-2-3 Apprentissage non supervisé
     La caméra délivrera des informations sur la dynamique de variation de l'image, la méthode de "cohérence de flux" [Bret 2007] donnera un signal de sortie corrélé avec ces variations et donc un mouvement du mime virtuel en accord avec celui de l'acteur réel. Il s'agit là plus d'un mimétisme de résonnance que d'une imitation au sens propre, l'effet attendu est la satisfaction engendrée par la perception harmonieuse des mouvements des deux acteurs.

Conclusion

     J'espère avoir montré qu'il est assez facile, en utilisant des méthodes issues de la Vie Artificielle, de renouveler en profondeur l'apport des technologies du numérique aux spectacles vivants, précisément en introduisant du vivant là où la machine n'avait imposé que de la froideur. Malheureusement une certaine technophobie, ou la simple méconnaissance, continuent d'éloigner les artistes, et en particulier les chorégraphes, de telles considérations. Ce sera peut-être pour plus tard...

Bibliographie


Abdi H. 1994: Les réseaux de neurones, Presses Universitaires de Grenoble 1994.
Bret M. 1998, Une méthode comportementale de modélisation du corps humain.
Bret M. 2000, Virtual Living Beings, in Lecture Notes in Artificial Intelligence, Virtula Worlds 119-134, Ed. Jean-Claude Heudin, Springer 2000.
Bret M., Tramus M.H., Berthoz A. 2005 Interacting with an Intelligent Dancing Figure : Artistic Experiments at the Crossroads betweenAart and Cognitive Science, in Leonardo, Vol 38, N° 1, pp. 46-53, 2005.
[Bret M. 2007, Création, émergence, autonomie, in Rencontres sur la Réalité virtuelle et les Arts Numériques, Centre des Art d’Enghien, Université Paris8, mars 2007 .
Couchot E., Tramus M.H., Michel Bret 2003, A segunda interatividade. Em direção a novas praticas artisticas 2003 : In Arte vida no século XXI p.27, 38, Diana Domingues,Editora UNESP Saõ Paulo, Brasil.
Damasio Antonio R. 1999, Le sentiment même de soi, corps, émotions, conscience, Ed Odile Jacob, 1999.