Nos mondes parallèles

Les arts graphiques et l'intelligence artificielle

« La certitude que quelque étagère de quelque hexagone enfermait des livres précieux, et que ces livres précieux étaient inaccessibles, semblait presque intolérable. » — Jorge Luis Borges, « La Bibliothèque de Babel », Fictions

« Si, en outre, les mondes sont autant faits que trouvés, alors connaître c’est autant refaire que rendre compte. » — Nelson Goodman, Manière de faire des Mondes

     Soit un endroit où seraient contenues, dans une bibliothèque interminable, toutes les combinaisons possibles de pixels : une bibliothèque plus énorme encore que celle de Borges et qui la contiendrait. Ne pas s’y perdre est probablement impossible, mais chacun a désormais de quoi en parcourir efficacement les galeries.

L’enjeu est de trouver, dans tout ce fatras de couleurs, les combinaisons qui ont de l’intérêt pour nous. En feuilletant à la main, on verrait défiler des compositions absurdes, des juxtapositions de tâches qui ne représentent rien et qui, au mieux, nous évoquent vaguement quelque chose. Ces chimères incompréhensibles seraient tout à fait effrayantes si elles ne nous confortaient pas dans l’idée que la recherche n’est pas vaine, et que nous tomberons bientôt sur des images connues.

Mais cet espoir serait bien mince, et l’on se condamnerait en suivant cette méthode hasardeuse : on aurait de la chance si on exhumait un jour une forme rongée ou des traits approchants le gribouillage d’enfant.

Prenez les personnages de Borges: ils ont une bibliothèque bien plus modeste, qui ne contient que l’ensemble des suites de caractères possibles. C’est déjà assez pour qu’ils s’épuisent à en fouiller les rayons et se rendent fous d’impuissance en cherchant une seule phrase d’une langue connue. Une vie suffit rarement à dénicher le début d’un paragraphe.
Heureusement, par une chance que n’aurait pas su imaginer Borges, nous avons maintenant des outils pour automatiser nos recherches, et nous rompons avec la méthode aléatoire. Les modèles de génération d’image sont, pour nous, des machines à fouiller Babel.

Tout est désormais à portée de main. Il n’y a plus qu’à envoyer ces « inquisiteurs » parcourir à notre place la bibliothèque pour nous ramener n’importe quelle image qui existe ou qui aurait pu exister, selon notre fantaisie. Nous n’avons plus à fouiller à la main : les arts graphiques sont, en quelque sorte, émancipés de la technique.

Princes noirs

Bien entraîné, un modèle sait où chercher et distingue dans tout ce chaos des images crédibles — et cela ne se limite pas au photo-réalisme, car un générateur d’image peut tout à fait rendre le style et la manière de n’importe quel artiste. Demandez à un générateur une photographie de clairière, et il en trouvera une image crédible. Demandez-lui plutôt cette clairière dans le style de Cézanne, et il exhumera une œuvre que Cézanne aurait pu signer. Dans les deux cas, nous aurons obtenu une image crédible, ou pour parler plus précisément, une « version correcte » qui correspond à la description de ce que nous cherchions.

Cette expression, « version correcte », nous vient de Nelson Goodman et décrit assez bien le processus : quand nous cherchons une image, nous décrivons l’objet représenté, le style de représentation et la manière de faire employée pour la produire. Dans toute la bibliothèque, il y a un ensemble d’images qui sont des versions correctes de photographie, c’est à dire que le spectateur admet volontiers qu’elles auraient pu être prises par un appareil photo. Au sein de cet ensemble, il y a un sous-ensemble correspondant aux « versions correctes » des photographies de pomme. Dans ce sous-ensemble, il y a les « versions correctes » des photographies de pommes qu’auraient pu prendre Man Ray ou n’importe quel photographe. Et ainsi de suite.

Cela vaut également pour les styles en peinture : chacun forme un tout cohérent, composé des tableaux existants et de ceux qui auraient pu exister, selon une certaine « manière de faire un monde ». Tous ces tableaux réels et possibles sont dans notre bibliothèque et forment les ensembles des « versions correctes » attribuables à tel ou tel artiste.

A partir de cet enchâssement d’ensembles et de sous-ensembles, nos modèles tirent une cartographie de Babel. Cette carte, inimaginable pour nous, s’étire sur une infinité de dimensions, où deux images sont proches dans l’une et tout à fait opposées dans une autre. La machine a systématisé notre vague sens de l’orientation, et la carte complexe qu’elle produit est pour elle un sens esthétique.

La ressemblance n’est pas transitive, comme l’est la proximité physique. Une chose A peut tout à fait ressembler à une chose B du point de vue de la couleur et à une autre C selon sa composition générale, et pourtant B et C peuvent tout à fait n’avoir rien en commun. De là la géométrie particulière de la carte de Babel…

Tout cela est assez déconcertant. On s’attendait évidemment à ce que des facultés proprement humaines soient automatisées ; pas à ce qu’une intelligence artificielle soit dotée si tôt d’un sens esthétique.

On ne veut pas dire par là que ces nouvelles IA auraient des goûts et des dégoûts, mais il y a bien quelque chose d’étonnant à voir un modèle de génération d’image capter ce qui forme le style et la manière d’un auteur — à le regarder faire, on balance entre le malaise et l’exaltation. Reste à comprendre ce que cela pourrait signifier, que le style puisse être approché et imité selon une méthode statistique.

Essayons ceci : le style est un parti pris arbitraire qui prend, après coup, la force du nécessaire. Tout ce qu’un artiste a fait et qu’il aurait pu faire autrement compose son œuvre, s’est solidifié en un tout cohérent uni par son style et sa manière. Même si chaque choix de mot ou de trait provient d’un caprice, un écrivain ou un peintre pouvant toujours écrire ou peindre différemment, la fin d’une phrase et le trait suivant ont quelque chose d'inévitable, par quoi on reconnait le style de son auteur.

Un artiste n’est bien sûr pas tenu par son style et il peut décrire une même chose de diverses façons sans se renier. Il faut toutefois remarquer qu’une association de mots est plus probable qu’un autre chez un auteur, et qu’un pixel de couleur peut être accolé à un autre avec plus ou moins de probabilité pour correspondre au style d’un peintre.

Voilà justement à quoi excellent les modèles de génération : parmi l’ensemble des combinaisons possibles, trouver du probable.

Faire un pont entre la science et les arts par la méthode statistique semble tout à fait sacrilège, et un peu déprimant. Impossible malgré tout d’éviter la chose : une intelligence artificielle peut rendre compte d’un style et l’imiter.

Tout le jeu des modèles de génération est de partir d’un échantillon initial pour dériver un ensemble d'images qui en respectent la cohérence, de créer des liens entre les œuvres de cet échantillon afin de comprendre ce qui les unit et ce qu’elles exemplifient, et de produire des images qui auraient pu faire partie de cet échantillon initial.

Bien sûr, il s’agit au préalable de faire travailler ces modèles sur des échantillons intéressants. Entraînez un modèle sur un échantillon incohérent, et les résultats obtenus n’auront aucun intérêt. C’est un travail d’artiste ou d’historien de l’art : constituer un échantillon sur lequel entraîner un modèle.
Qu’est-ce qu’un bon échantillon ? La question nous amènerait trop loin, sur des sujets de plus en plus techniques(Goodman, chapitre sur les échantillons), mais nous pouvons donner un début de réponse : il est connu, par exemple, que Picasso a plusieurs « périodes » très dissemblables entre elles. Faire un échantillon de ses œuvres en mêlant des tableaux de plusieurs périodes serait tout à fait contre productif pour construire un outil de génération d’images. Des tableaux de périodes distinctes ont bien sûr une cohérence du point de vue biographique, mais ils n’en ont que peu du point de vue stylistique. On obtiendrait, à partir d’un échantillon mêlant des tableaux de plusieurs périodes, des images générées ne ressemblant à aucune des deux périodes.

L’ensemble de ce qui peut en être dérivé correctement, c’est ce qui explique la cohérence d’un échantillon et donc, notamment, le style de l’artiste que l’on cherche à imiter.
Comme l’écrit Goodman, bien avant l’existence de toute IA, « la qualité d’un échantillon se testera par notre succès à découvrir et à appliquer ce qui est exemplifié ». Ce que l’intelligence artificielle parvient à produire à partir d’un échantillon n’est rien d’autre que la démonstration de la cohérence et de la logique interne de cet ensemble, expliquant ainsi le style de l’artiste et rendant possible son imitation.

L’IA, par elle-même, ne peut pas inventer un style, elle ne peut que l’identifier et le reproduire par un jeu de corrélations statistiques. Si cette cartographie qu’elle produit de Babel est plus qu’efficace pour y circuler, si elle a en quelque sorte un « sens esthétique », elle n’a toutefois rien d’artistique ; ce n’est qu’une machine à fouiller et à dériver.

Le style précède le travail d’entraînement, il est déjà contenu dans l’échantillon sur lequel on entraîne un modèle de génération et il en fait la cohérence. Le vrai travail artistique, en quelque sorte, réside dans la constitution de ces échantillons.

On peut déjà imaginer un artiste qui créerait quelques toiles pour constituer un échantillon de style puis qui proposerait sur commande toutes les œuvres possibles exhumées pour lui dans Babel. Il pourrait en vendre les versions numériques ou même les recopier fidèlement à la main pour en vendre l’original en toile.

Cela a quelque chose d'apparemment banal, mais il ne faudrait pas en sous-estimer la portée culturelle et politique. Nous assistons à un redoublement de ce que l’invention de la photographie avait créé comme problèmes à la philosophie de l’art : le fait qu’une image soit reproductible techniquement avait déjà fait dire à Walter Benjamin que le statut de l’art et des artistes devait changer considérablement. Que dire de la reproductibilité du style ? de la production technique des œuvres, à partir d’un modèle d'entraînement et d’un prompt ?

On ne connaît pas les limites théoriques des intelligences artificielles, ni même à quoi il faut s’attendre si on devait en rester là dans leur développement. Leur puissance est déjà bien assez troublante : maintenant que les arts graphiques sont émancipés de la technique, on redoute l’avalanche d’images qui en résultera et la dilution de tout mystère dans la production industrielle. Toute inquiétude, cependant, ne pèse pas lourd face à l’enthousiasme de participer à une révolution technique et artistique.

Tout ce que l’on a déjà vu ou conçu a son image dans la bibliothèque. Tout ce qui existe réellement et qui excède déjà notre imagination a une infinité d’images le décrivant, de toutes les manières possibles de le représenter. Tout ce que l’on aurait même pas su imaginer également. Tout ce qui est formulable. Tout ce qui est indescriptible. Tous les mondes possibles ont leur image dans Babel.

C’était peut être déjà virtuellement vrai d’une simple page blanche qui, en théorie, contient toutes les formes possibles qu’il est possible d’y tracer. En pratique, tout ce que nous pouvons y projeter à la main est bien mince par rapport à ce que les modèles de génération d’images nous permettent d’explorer.

Ces derniers ne font pas que projeter ce que nous avons en tête sur la page blanche. Ils participent à notre imagination, en nous proposant de multiples versions de ce que nous avions en tête, puis en produisant les variations que nous voulons. Les paramètres aléatoires qui font que d’un même modèle et d’un même prompt on n’obtiendra pas les mêmes résultats jouent aussi en ce sens. Par ces aléas, et par des rapprochements que nous n’avons pas imaginés mais que la machine produit pour nous, des images imprévues apparaissent, des métaphores nouvelles naissent, que nous n’avons pas dictées. Ect.

L’art graphique est réenchanté et non pas dévalué quand il est produit sitôt que pensé. Pour Hegel, les arts suivent une évolution historique et logique, des formes les plus matérielles aux formes les plus spirituelles : architecture, sculpture, peinture, musique, poésie… permettant une abstraction croissante. En établissant une équivalence directe entre l'idée et ses représentations, et en facilitant une création immédiate à partir d'une simple pensée, les modèles de génération d’image aplanissent peut être cette hiérarchie : la peinture, lorsqu'elle est créée instantanément, rejoint l'immédiateté propre à la poésie ; les générateurs d’images ont quelque chose d’inévitablement poétique.

Chaque combinaison possible de pixels réalise un monde, et tous sont accessibles par nos générateurs. Nous pouvons toujours nous perdre dans cette bibliothèque de Babel, mais nos capacités de découvertes sont grandement élargies. Le monde des formes existe et son exploration vaut contemplation.

Gravure sur bois de Flammarion Gravure sur bois de Flammarion
Gravure sur bois de Flammarion

« ... le créer comme un monde sans laisser de côté ces mystères qui n'ont probablement leur explication que dans d'autres mondes et dont le pressentiment est ce qui nous émeut le plus dans la vie et dans l'art. » — Marcel Proust, Le temps retrouvé

Augustin Chenel
  • Jorge Luis Borges, « La Bibliothèque de Babel », Fictions
  • Nelson Goodnam, Manières de faire des mondes
  • Walter Benjamin, L’oeuvre d’art à l’époque de sa reproductibilité technique
  • Georg Hegel, Esthétique ou Philosophie de l’art