Actes des Journées européennes sur les applications de l'intelligence artificielle en architecture bâtiment et génie civil

EuropIA 88

Proceedings of the applications of artificial intelligence to building, architecture and civil engineering

CIMA
HERMES

Image de synthèse et conception

M. Bret
Université Paris VIII, CIMA, Paris


I) L'IMAGE

1-1 Image et discours

L'image est le support de la représentation globale, perçue intuitivement, d'une réalité pouvant se situer en deçà (réalisme) ou au delà (surréalisme, abstraction) d'elle-même. Son contenu symbolique en fait tout à la fois l'idée et la figuration de celle-ci. Par nature polysémique, lorsqu'elle vise a expliquer ou à signifier de façon univoque (notations de la danse classique, code de la route) elle perd sa dimension spatiale pour se réduire a un langage codé qui la rapproche de l'écriture.
Alors que la parole a besoin de se répéter pour survivre, l'écrit, qui permet simultanément une accumulation et une remise en cause des connaissances, a d'abord été une figuration; puis il s'est rapidement éloigné de celle-ci pour retrouver l'arbitraire du rapport signifiant / signifié caractérisant le signe linguistique.
Image et discours ne sont donc pas réductibles l'un à l'autre, et toute tentative de traduction implique nécessairement une inter­prétation arbitraire, la traduction inverse ne restituant jamais l'original. Ainsi est-il possible de discourir sur une image (critique artistique, étude sémiologique des oeuvres d'art), ou de produire des images à partir d'un texte (roman porté à l'écran), mais aucune équivalence ne permet de les identifier.

1-2 Image et ordinateur

Depuis très longtemps on a su générer de la musique avec des machines (orgues, synthétiseurs) à partir d'un texte (partition, programme d'ordinateur), la même opération n'avait jamais été possible avec l'image: La photo puis le cinéma et la vidéo ont bien produit automatiquement des images, mais seulement à partir d'une réalité extérieure et jamais à partir du seul discours.
Avec les systèmes informatiques constitués d'une part d'ordinateurs et de processeurs graphiques et, d'autre part, de programmes, la magie du verbe créateur est devenue réalité. Le résultat n'est, bien entendu, qu'une pure fiction, mais cette image évanescente et instable a acquis toutes les propriétés du texte dont elle est issue, en particulier elle peut être transformée par des processus logiques et, c'est là l'important, sa manipulation induit des opérations logiques: L'image numérique n'est donc pas seulement figurative, elle est aussi opératoire. Elle est d'ailleurs née de la simulation de phénomènes physiques en vue de leur prévision et de leur maîtrise, et ce n'est que beaucoup plus tard qu'elle a trouvée des applications plastiques.

2) LA SYNTHESE

2-1 L'image de synthèse

L'image traditionnelle est irréversible comme le geste dont elle est la trace et le tableau peint est un objet définitif.
L'image de synthèse est, en fait, beaucoup plus qu'une image: Le résultat visuel, ou image physique, n'est que la matérialisation lumineuse d'une information numérique stockée dans une mémoire; cette information, qui est à proprement parler une image numérique, n'est, à son tour, qu'un résultat parmi une infinité d 'autres possibles d'un processus dynamique (le déroulement du programme) lequel n'est pas nécessairement déterministe (soit qu'il fasse appel à des fonctions aléatoires ou, plus exactement, pseudo aléatoires, soit qu'il intégre un élément humain grâce à l'interactivité).
Le modèle numérique sur lequel travaille le programme, les algorithmes qui ont permis son implémentation, les concepteurs des uns et des autres ainsi que les utilisateurs du système sont inséparables de la réalité de l'image de synthèse qui apparaît donc plus comme un processus complexe que comme un objet fini.

2-2 La simulation

Dans la simulation, où le phénomène est "dit" au lieu d'être "agit", l'hypothèse abolit l'irréversibilité du réel, la logique remplace l'enchaînement des faits; il est alors possible de développer des situations purement fictionnelles et de choisir de réaliser celle qui répond le mieux à un but donné. Pour que ce "dit" puisse être "vu" il faut trouver une interprétation en ternies spatio-temporels d'un modèle numérique, ce qu'est précisément la synthèse de l'image.

2-3 Création et synthèse

L'outil traditionnel est le prolongement du geste qu'il amplifie, précise et dépasse; conçu pour manipuler des objets pesants il utilise des forces physiques.
L'ordinateur prolonge la faculté de raisonner et utilise pour cela des langages; outil par excellence de toute simulation il constitue ce que l'on pourrait appeler un "métaoutil", ou encore outil servant à fabriquer des outils.
La création assistée par ordinateur propose au concepteur un modèle numérique de la réalité qu'il veut étudier, des programmes synthétisant une image de ce modèle et des outils interactifs assurant le dialogue homme-machine.
C'est par le langage que le modèle évolue, mais c'est une perception visuelle qui modifie le comportement du concepteur: L'image synthétique mobile devient alors un signe opératoire, simul­tanément conséquence et moteur d'une simulation.

3) MODELES TRIDIMENTIONNELS

3-1 La perception de l'espace

Notre perception dé l'espace est indissociable d'une analyse intelligente et active de notre environnement. Physiologiquement en effet, l'oeil ne voit nettement qu'une petite région de l'espace, et c'est par une succession de saccades rapides qu'il envoie au cerveau des échantillons de ce qu'il regarde. Encore qu'il faille distinguer l'image physique (l'émetteur), l'image rétinienne et l'image psychique; cette dernière, très mal connue, fait appel à des processus cognitifs éminemment culturels. Regarder n'est pas une opération passive et implique généralement une activité motrice en retour (se déplacer pour mieux voir ou pour voir autrement). Ainsi la perception de l'espace est-elle corrélative de celle du temps, d'ailleurs la mesure de celui-ci fait intervenir celui-là (déplacement de la terre autour du soleil, de l'aiguille autour du cadran).

3-2 Le modèle cartésien de l'espace

La représentation euclidienne de l'espace, supposé homogène et isotrope, fournit un moyen commode de construire un modèle de celui-ci; on sait cependant qu'elle n'en constitue qu'une approximation valable à une échelle moyenne, aux dimensions atomiques ou stellaires d'autres modèles, non euclidiens, doivent être utilisés pour rendre compte des phénomènes observés. La géométrie cartésienne est évidemment l'outil idéal pour construire un modèle numérique de l'espace eucli­dien à 3 dimensions. Le principe en est le suivant:
On définit d'abord un "repère absolu" attaché à la scène.
Puis, dans ce repère, on définit un "oeil", supposé fixe et ponctuel, par sa position, la direction dans laquelle il regarde et différents paramètres (tels que son ouverture) de façon à simuler un oeil réel ou un objectif photographique. Un repère, dit "de l'oeil" lui est attaché.
Enfin, perpendiculairement à la direction du regard et à une distance donnée de l'oeil est tendu un "plan du tableau" fictif sur lequel viendra se projeter la scène. Il s'agit pratiquement d'une projection conique de sommet l'oeil sur ce plan, qui est l'exacte traduction du procédé employé par DURER au début du seizième siècle pour mettre un objet en perspective. A ce tableau est attaché un repère dit "de l'écran" qui supporte le cadre dans lequel viendra s'inscrire l'image.

Parties cachées et coupage

La perception que nous avons du relief est du, d'une part, à la vision binoculaire et, d'autre part, à un filtrage de l'information lumineuse en provenance de l'environnement: C'est parce qu'un objet opaque cache ce qui est derrière lui qu'il nous parait en avant. Le rendu de cet effet est connu sous le nom du "problème de l'élimination des parties cachées". Pratiquement la solution de celui-ci consiste à conserver, pour chaque point projeté sur l'écran, une information de profondeur qui est comparée à celle de tout point de l'espace projeté au même endroit de l'écran. Historiquement, l'image générée par ordi­nateur fut d'abord utilisée avec des appareils qui ne permettaient qu'un rendu filaire (dit "fil de fer") et l'on parlait alors d'élimi­nation des "lignes cachées". Aujourd'hui, avec les processeurs graphiques de type "pixels" (ou à mémoires de trames) c'est de "surfaces cachées" qu'il faut parler, ce qui implique quantités d'effets et de problèmes comme les transparences, les reflets et les textures.
D'autre part cette image, qui apparait dans un cadre fini doit être "coupée" pour ne pas déborder de celui-ci. Pratiquement cette opération est réalisée en interscctant la scène avec la "pyramide de visualisation" de sommet l'oeil et s'appuyant sur les bords du tableau; la scène est aussi coupée par un plan "proche" légèrement en avant de l'oeil (afin d'éliminer les points a l'infini, perspectives des points situés dans le plan de l'oeil, et pour éliminer la projection, irréa­liste, du demi espace situé derrière l'oeil) et par un plan "lointain" (pour éliminer les objets à l'infini ou trop éloignés pour être visibles) .

Critique du modèle

L'oeil unique ponctuel et fixe décrit ci-dessus ne constitue qu'une approximation de la réalité qui est beaucoup plus complexe:
La vision normale est d'abord binoculaire et ce sont deux images légèrement décalées que le cerveau analyse.
Ensuite la profondeur de champ de l'oeil réel est finie et seule une petite région de la zone explorée est nette, alors que le principe dit du "trou d'épingle" de la perspective conique fournit une image nette partout et infiniment étendue.
Enfin l'oeil n'est pas fixe et l'"image" perçue est en fait une série d'informations parcellaires à partir desquelles le cerveau construit un modèle de la réalité sur laquelle il émet des hypothèses induisant des comportements destinés à vérifier celles-là.
En un mot la perspective conique traditionnelle n'a de légiti­mité que parce qu'elle correspond à un modèle géométrique explicatif qui n'a pas toujours été en usage. Ainsi, le quattrocento utilisait-il des points de vues multiples qui, loin de constituer une perspective "fausse" ou approchée, rendaient compte de façon beaucoup plus crédible de la perception réelle de l'espace.
Différentes tentatives pour définir d'autres méthodes de représentation ont été faites, parmi celles-ci citons:
La projection, non plus sur un plan, mais sur une surface courbe (cylindre, sphère), permettant de supprimer certaines distorsions apparaissant sur les bords d'un écran plan de grandes dimensions (cinémascope, procédé omnimax).
La projection non plus conique (comme intersection de droites avec une surface) mais courbe (comme intersection d'arcs de courbes avec une surface) permettant, en particulier, de visualiser l'espace de la relativité courbé par les masses et de le comprendre en exagé­rant cette courbure.
Enfin la perspective adaptative conséquence du principe bien connu de l'interdépendance de l'expérimentateur et de son expérience postulé par les physiciens du vingtième siècle. Appliqué à la percep­tion de l'espace ce principe traduit simplement le fait que regarder c'est d'abord interpréter une réalité à travers une grille culturelle qui est modifiée par la nature même de ce qui est observé. L'oeil s'adapte physiologiquement et le cerveau cognitivement à ce qu'ils voient. Dès lors il sera nécessaire de lier la méthode de projection a la scène représentée. Cette nécessité avait d'ailleurs été reconnue par les peintres du Moyen Age qui représentaient la Vierge plus grande que le donateur non pas parce qu'elle était plus proche mais parce que, dans l'échelle des valeurs, elle avait une importance plus grande.

4 LE REALISME EN SYNTHESE

4-1 La perception visuel du réel

Outre les informations de profondeur permettant de hiérarchiser les objets de l'espace, les variations de l' éclairement réalisent un nouveau filtrage cette fois non plus seulement en fonction de la position de l'oeil mais encore relativement à des sources lumineuses, permettant une lecture plus fine de l'environnement. De même que c'est parce que certaines parties sont cachées que nous comprenons l'espace, c'est parce que certains éléments sont plus ou moins éclairés que nous comprenons les volumes. L'apparence de ceux-ci, qui peut donner lieu à une interprétation en termes autres que visuels, par exemple en faisant référence au toucher (surface lisse ou rugueuse, couleurs froides ou chaudes), l'existence d'une atmosphère absorbant certaines radiations (les lointains bleutés de Léonard de VINCI) sont autant de composantes dont il faudra tenir compte dans la construction d'un modèle de synthèse réaliste.

4-2 Modèles d'éclairements

Le modèle le plus simple utilise la loi de LAMBERT stipulant que la quantité de lumière diffusée en un point d'une surface éclairée est proportionnelle au cosinus de l'angle que fait le rayon incident avec la normale à la surface en ce point. Les reflets, qui permettent de différencier une surface mate (terre, plastique) d'une surface brillante (métal) peuvent être rendus en considérant une composante spéculaire tenant compte non seulement de la position et de la couleur des sources lumineuses mais encore de la position de l'oeil et de la nature des surfaces éclairées.
Des sources autres que ponctuelles (par exemple étendues, diffuses, directionnelles) peuvent être facilement envisagées.
L'influence lumineuse des objets éclaires les uns sur les autres améliore encore la compréhension d'une scène. Une surface recevant de la lumière et en renvoyant fonctionne en effet comme une source secondaire et contribue à l'éclairement des objets voisins. Un reflet n'étant finalement que l'image de la source dans la surface considérée comme miroir plus ou moins parfait, on conçoit la comple­xité des interactions dès que le nombre d'objets augmente et dès que leurs formes se diversifient. La méthode dite du "lancé de rayons" permet de résoudre ce problème, ainsi que quantités d'autres, en considérant, pour chaque-point de l'image, le rayon qui le joint à l'oeil et en remontant son histoire au cours de ses multiples réflexions et réfractions: L'intersection la plus proche de l'oeil avec tous les objets de la scène sera le seul point visible; en ce point le processus est relancé récursivement d'une part sur le rayon réfléchit dans la direction spéculaire et, d'autre part, sur le rayon réfracté si la surface est transparente. Les ombres portées peuvent être traitées en joignant le point aux différentes sources lumineuses par des droites dont on détermine les intersections avec les objets.
Malgré toutes ses qualités ce procédé ne moclélise de l'optique géomé­trique que les effets spéculaires en ignorant les effets diffus; ceux-ci sont mieux rendus par la méthode dite de "radiosité".

4-3 Textures, mappages et apparences des surfaces

Un objet naturel n'est jamais parfaitement lisse et sa surface fait apparaître une multitude de petits défauts et de petites irrégu­larités qui le caractérisent: Ainsi la peau d'une orange est-elle très différente de celle d'une pêche ou de la surface d'une boule de billard. Afin de rendre compte de l'influence de ces petits éléments BLINN a proposé une méthode considérant une distribution aléatoire de microfacettes dont l'orientation moyenne des normales en un point permet de calculer l'éclairement en ce point.
Une autre technique consiste à mapper, sur une surface tri­dimensionnelle lisse, une image bidimensionnelle représentative de la matière à rendre. Par exemple une écorce d'arbre numérisée puis mappée sur un cylindre permettra de synthétiser un tronc ou des branches. Mais la mise en perspective de cette image remet à plat ce qui, de face, pouvait être interprété comme des éléments de reliefs; aussi une autre méthode, dite du "mappage spatial", a-t-elle été élaborée; elle consiste à "sculpter" le volume à rendre dans un échantillon de la matière numérisée en trois dimensions. Ainsi l'apparence d'une colonne de marbre dépendra du rayon de celle-ci, et une statue ne fera pas apparaître les mêmes veinules qu'une boule.
Enfin, pour tout ce qui est du rendu d'objets très complexes comme les cheveux, la peau, les feuillages, de l'eau, on fera appel à des textures synthétiques.

4-4 Problèmes de modélisation

La technique la plus simple pour construire un objet tridi­mensionnel consiste à l'approcher par une surface polyédrique, la qualité de l'approximation étant directement proportionnelle au nombre de facettes. Différents algorithmes de lissages, tant colorimétriques que géométriques, permettent d'atténuer les discontinuités aux fron­tières communes à plusieurs facettes.
Une autre méthode emploie les surfaces paramétriques (comme les B-Splines) définies à partir d'un ensemble de points de contrôles et de paramètres réglant la courbure au voisinage de ces points.
Très bien adaptés à la modélisation d'objets relativement simples comme peuvent l'être ceux que l'on rencontre en architecture ou en construction mécanique, ces procédés exhaustifs et déterministes échouent à rendre la complexité des formes naturelles. Ainsi pour une montagne, quel que soit le nombre de facettes du modèle polyédrique, celui-ci sera toujours redondant si, vue de loin, la projection de la montagne ne couvre que quelques pixels de l'écran, et toujours insuf­fisant si, vue de près, une seule facette couvre tout l'écran. D'autre part la rentrée de millions de facettes pose des problèmes de saisie insurmontables.
Une classe importante d'objets de synthèse regroupe ceux dont la définition comporte un petit nombre de paramètres en fixant la macrostructure et des algorithmes de génération automatique de leurs détails à un ordre donné. Dans l'exemple de la montagne quelques points détermineront les pics et les vallées et un algoritlime de subdivision récursive doublé d'un processus stochastique "fractalisera" les données de base (méthode de CARPENTER de modélisation de terrains utilisant la théorie dos objets fractals de MANDELBROT) .
La croissance des plantes et autres êtres (comme les coquillages) peut être simulée par des "graphtals" utilisant des grammaires.
D'autres objets enfin n'ont pas de surface définie séparant un intérieur d'un extérieur, comme les nuages, la brume, la pluie, le feu. Pour les modéliser REEVES a proposé les "systèmes de particules" consistant à définir non pas une surface comme un ensemble de points vérifiant certaines conditions géométriques (équations paramétriques, appartenance a un plan) mais à définir un volume comme une distribution aléatoire de petits éléments, les "particules", munies de propriétés (naissance, durée de vie, vitesse, couleur, transparence) caractérisant le milieu qu'elles représentent. Ainsi l'embrun d'une vague peut-il être rendu par la génération de particules figurant les gouttelettes dans la direction tangente à la crête de la vague lorsque celle-ci est soumise au vent ou se brise sur un obstacle.

5-1 Animation et synyhèse

L'animation traditionnelle a probablement été le premier art à proprement parlé synthétique: Alors que le cinéma échantillonne le réel qu'il restitue à la projection, l'animation crée de façon complètement artificielle les échantillons eux-mêmes à partir de dessins réalisés à la main.
L'image de synthèse a été, dès ses débuts, dynamique et interactive, et sa mobilité devait la confronter à l'image animée cinématographique. Cependant la rencontre de l'animateur et de l'ordinateur ne s'est faite que récemment, une incompréhension réciproque les ayant éloignés l'un de l'autre pendant près de vingt ans.

Simulation et animation

Les animateurs traditionnels refusent, à juste titre, le qualificatif "d'animé" aux images mobiles produites par les simulateurs de vol ou utilisées en C.A.O. En effet, ou bien seul l'oeil évolue, survolant une scène fixe, ou bien les objets, rigides et indéformables, sont animés de simples mouvements de translations ou de rotations. Avec la simulation visuelle de phénomènes physiques complexes (comme la turbulence des fluides), un degré très élevé de réalisme a été atteint, mais il manque toujours à ces images ce qui caractérise l'animation, à savoir être un langage utilisant le mouvement pour dire plus et autre chose que ce que montre seulement l'image.
Il a fallu attendre ces toutes dernières années pour voir apparaître de véritables dessins animés générés par ordinateur avec TRON, Tony de PELTRIE, Luxo Jr, RED'S DREAM et TIN TOY, alliant le savoir faire des animateurs et les méthodes les plus sophistiquées de la synthèse.

5-3 Techniques traditionnelles et ordinateur

La technique d'animation par dessins clés peut être facilement simulée au moyen de l'interpolation linéaire (voir les films de Peter FOLDES); mais ce procédé a des limites et ne convient que pour des mouvements très simples, les déformations intermédiaires étant incon­trôlables et des ruptures de continuité se produisant aux passages par les dessins clés. En fait le travail de l'intcrvalliste n'est pas purement mécanique et celui-ci doit interpréter les directives de l'animateur qu'il serait très difficile de faire comprendre à la machine. Différentes techniques ont été employées pour remédier à ces inconvénients: Méthode des "squelettes" et utilisation de trajectoires et de lois de mouvements.

5-4 Les méthodes cinématiques directes

Elles permettent un contrôle intégral des mouvements mais, pour ce faire, l'animateur doit les spécifier tous très exactement; en ce sens elles sont proches des méthodes traditionnelles mais s'en dis­tinguent en ce qu'elles sont programmables: Les mouvements ne sont en effet pas nécessairement définis manuellement et peuvent être générés par des algorithmes adéquats. Ce qui est facile pour des mouvements simples ou obéissant à des lois mathématiques mais ce qui devient plus délicat lorsqu'il s'agit de faire courir MICKEY !...

5-5 les méthodes cinématiques inverses

Elles nous viennent de la robotique où l'on conçoit des machines à but, c'est à dire capables de remplir certaines fonctions lorsqu'elles sont placées dans des conditions données: II suffit de fournir au système un ensemble de paramètres initiaux et une situation finale à atteindre pour que celui-là génère les étapes intermédiaires en respectant certaines règles (rigidité des bras, angles d'ouverture maximums). Soit par exemple un personnage voulant saisir un verre posé sur une table: Une élongation du bras tentera d'amener la main au voisinage du verre et, en cas d'échec, une procédure de marche sera déclenchée pour rapprocher le personnage de la table, puis la main se refermera autour du pied du verre sans trop serrer.
De tels problèmes peuvent être relativement complexes et, de plus, ils admettent en général de nombreuses solutions (surtout lorsque le nombre de degrés de liberté des composants de la scène est élevé). Des critères de choix peuvent être par exemple de minimiser l'énergie dépensée dans le déplacement, ou le temps de celui-ci, ou un compromis des deux, ou encore de répondre à une situation donnée par une attitude standard mémorisées.

5-6 Les méthodes dynamiques

Les méthodes précédentes permettent de définir les cinématiques des corps, c'est a dire de déterminer leur position géométrique, leur vitesse et leur accélération en fonction du temps, mais elles ne prennent pas en compte leurs propriétés physiques comme leurs masses (dont dépendent leurs mouvements en fonctions des forces qui leur sont appliquées), leurs rigidité (qui les empêche de se pénétrer en cas de collision), leur degré de dépendance (membres d'un mannequin, engrenages, maillons d'une chaîne). Pour traiter de tels problèmes il est nécessaire de modéliscr les lois de la mécanique et d'écrire les équations qui les régissent (loi de la gravitation universelle, loi de la conservation du moment cinétique). La solution la plus générale conduit à la résolution de systèmes d'équations différentielles dont la complexité augmente rapidement avec le nombre d'éléments en interaction. Des solutions approchées ont été proposées par ARMSTRONG et SELTZEK. Des algorithmes de détection de collisions permettent de simuler les chocs élastiques en recalculant les forces appliquées aux objets juste après le choc.

5-7 Systèmes d'acteurs et intelligence artificielle

Les méthodes dynamiques permettent de rendre compte des mouve­ments de corps matériels placés dans des champs de forces et soumis à certaines contraintes, elles s'appliquent bien à la plupart: des anima­tions de type mécanique. Mais le propre de l'animation est de recréer la vie, les personnages mis en scène ayant une âme; la force de cet art est d'être un langage, parfaitement codé, dont les effets rhéto­riques de transgression des règles créent la surprise et, par la, signifient. Il s'agit de modéliser maintenant non plus seulement des positions, des vitesses et des forces, mais encore des comportements. Une première approche consiste à définir des automates capables de répondre par des attitudes bien définies à des situations données; mais de tels robots, stéréotypés, ne sont pas intelligents. Pour les munir d'une personnalité on leur donne le moyen de communiquer entre eux au moyen de messages, ainsi se trouve définie la notion d'"acteur". Leurs réactions sont déterminées non seulement par leur environnement mais encore par celles de leurs semblables, ainsi se trouve constituée une microsociété. Il n'y a plus alors un seul modèle d'une scène amorphe, mais autant de modèles dynamiques qu'il y a d'acteurs. Lorsque les interactions sont nombreuses et que les comportements des acteurs sont complexes, l'évolution d'un tel système n'est ni évidente ni même univoquc: Parmi toutes les solutions possibles le choix de l'une d'entre elles peut faire intervenir le hasard, des critères convenus ou la volonté du spectateur. La notion d'apprentissage peut aussi être envisagée, les acteurs modifiant leurs comportements en fonctions des expériences qu'ils réalisent.
De telles notions ont déjà été appliquées à la modélisation de bancs de poissons ou de vols d'oiseaux en considérant des populations au sein desquelles chaque individu dispose d'une certaine marge de liberté et, en interaction constante avec son environnement immédiat, adapte son comportement de façon à favoriser un projet commun au groupe.
Une voie d'avenir prometteuse est la synthèse d'acteurs dans laquelle ce sont des personnages humains réels, ayant existés, qui seront simulés. Ainsi dans le film "Rendez-vous à Montréal" les MAGNliNAT-THALMANN font jouer à une Marilyn MONROE de synthèse un rôle que la véritable Marilyn aurait pu avoir de son vivant.