DALL-E et Midjourney : quelles différences entre les deux générateurs d’images ?
DALL-E et Midjourney sont les deux outils phares de la génération d’images par intelligence artificielle, même s’ils ne sont pas les seuls. Le premier, développé par OpenAI, est apparu en janvier 2021 pour sa première version, tandis que Midjourney, issu d’un « laboratoire de recherche indépendant », a été dévoilé dans sa V1 en janvier 2022. Mais qu’est-ce qui différencie ces deux outils ? Comment fonctionnent-ils ? Quels sont leurs prix ? Dans cet article, nous avons tenté de comparer ces deux IA, mais ce n’est pas forcément chose facile, tant leurs capacités semblent être à des stades d’avancement différents.
À qui appartiennent DALL-E et Midjourney ?
DALL-E
DALL-E est le générateur d’images par IA d’OpenAI, société éditrice de ChatGPT, son penchant textuel. Sa première version a été révélée le 5 janvier 2021. Mais, un peu plus d’un an plus tard, en avril 2022, OpenAI annonçait DALL-E 2, décrit comme un modèle « qui peut créer des images et des œuvres d’art originales et réalistes à partir d’une description textuelle. Il peut combiner des concepts, des attributs et des styles ».
Nous espérons que DALL-E 2 permettra aux gens d’exprimer leur créativité. DALL-E 2 nous aide également à comprendre comment les systèmes d’IA avancés voient et comprennent notre monde, ce qui est essentiel à notre mission de créer une IA qui profite à l’humanité.
Midjourney
Midjourney se décrit comme « un laboratoire de recherche indépendant explorant de nouveaux médiums de pensée et développant les pouvoirs imaginatifs de l’espèce humaine ». Midjourney Inc. a été fondé en juillet 2022 à San Francisco par David Holz, qui en est le CEO, quelques jours avant la sortie de la V3 de l’IA générative. Déjà co-fondateur de Leap Motion, David Holz travaillait sur des dispositifs de contrôle gestuel et de réalité augmentée avant de lancer Midjourney. En mars 2023, la version 5 était rendue disponible en alpha. « Nous sommes une petite équipe auto-financée axée sur la conception, l’infrastructure humaine et l’IA. Nous avons 11 employés à temps plein et un ensemble incroyable de conseillers », peut-on lire sur le site de Midjourney.
L’objectif est de rendre les humains plus imaginatifs, pas de créer des machines imaginatives, ce qui, à mon avis, est une distinction importante, a expliqué David Holz à Forbes.
Où et comment accède-t-on à DALL-E et Midjourney ?
DALL-E
DALL-E 2 est accessible pour tous en version bêta depuis juillet 2022. Tout se fait depuis votre navigateur web, à cette adresse. Pour vous connecter, il vous faudra un compte OpenAI, qui peut être le même que celui que vous utilisez déjà pour ChatGPT. Une fois vos identifiants entrés, vous pourrez rédiger vos prompts dans la boîte de discussion prévue à cet effet. Vos visuels seront générés dans la foulée.
Midjourney
Pour utiliser Midjourney, il faut rejoindre un serveur Discord dédié. Vous devez donc posséder un compte sur la plateforme avant de vous lancer. Rejoignez le serveur de Midjourney, puis un des salons appelé « newbies » destiné aux nouveaux venus et aux utilisateurs occasionnels. Des paramètres avancés vous permettront de choisir par défaut la version de Midjourney que vous souhaitez utiliser, la qualité du rendu, la liberté laissée à l’IA, etc. Pour générer une image, il faudra également passer par un prompt, introduit par la commande /imagine. Notre guide vous permettra de tout savoir sur la façon de rejoindre et d’utiliser Midjourney.
Quel est l’état de développement de DALL-E et Midjourney ?
DALL-E
DALL-E 2, comme tous les modèles d’IA, est en constant développement. « Apprendre de l’utilisation dans le monde réel est un élément important du développement et du déploiement responsables de l’IA. Nous avons commencé par rendre disponible DALL-E 2 en preview à un nombre limité d’utilisateurs de confiance. Au fur et à mesure que nous en apprenions davantage sur les capacités et les limites de la technologie, et que nous gagnions en confiance dans nos systèmes de sécurité, nous avons lentement ajouté plus d’utilisateurs et rendu DALL-E disponible en version bêta en juillet 2022. » Trois mois plus tard, OpenAI rendait disponible l’API DALL-E en bêta publique, invitant tous les développeurs à s’en emparer pour « créer des applications ».
Midjourney
Depuis sa première version en février 2022, Midjourney a multiplié les mises à jour en un temps très ramassé. Aujourd’hui, la branche la plus récente est Midjourney 5, mais une version 5.1 est déjà disponible. L’équipe ajoute en effet très régulièrement des nouvelles fonctionnalités à son outil, tout en travaillant sur des versions toujours plus performantes. Entre deux et quatre mois ont séparé les différentes versions de Midjourney, ce qui fait dire à la consultante Alie Jules, qui précise avoir eu des indications venant de David Holz, que la v6 pourrait arriver courant juillet.
Mais toujours selon elle, la priorité numéro 1 de Midjourney reste la mise en place d’un site web et mobile en standalone, qui ne nécessiterait potentiellement plus de passer par Discord. Parallèlement, Midjourney travaille sur une v5.2, qui pourrait inclure une fonctionnalité de « repeinturage », permettant d’étendre une image pour intégrer son sujet au sein d’une composition plus grande, comme le proposent déjà DALL-E ou Firefly sur Photoshop.
Midjourney Office Hours – 6.7.23 A quick recap. 1. no. 1 Priority right now
– building the standalone web and mobile sites
– good-looking stuff 2. v6
– behind, probably about a month out
– they had to refractor – going well
– getting data ready for the training runs: cleaning… pic.twitter.com/pDlRMwkkQJ — Alie Jules (@saana_ai) June 7, 2023
Comment sont entraînés les modèles de DALL-E et Midjourney ?
DALL-E
DALL-E 2 a été entraîné sur environ 650 millions de paires image-texte extraites d’internet, a expliqué OpenAI dans une publication scientifique. Cet ensemble de données lui a appris les relations entre les images et les mots utilisés pour les décrire. Un filtrage a été mis en place en amont pour que le corpus ne contienne pas de contenu manifestement violent, à caractère sexuel ou haineux. « Le modèle n’est pas exposé à ces concepts, donc la probabilité qu’il génère des choses qu’il n’a pas vues est très, très faible », a précisé Mark Chen d’OpenAI.
Une fois ce modèle « encodeur » formé pour comprendre ces relations image-texte, OpenAI l’a associé à un « décodeur » qui génère des visuels à partir d’invites de texte, en utilisant un processus nommé diffusion. Celui-ci débute sa génération par un motif aléatoire de points, qu’il modifie lentement pour former une image. À nouveau, des filtres s’appliquent pour éviter du contenu interdit. DALL-E 2 ne peut, dans le même ordre d’idée, reproduire à l’identique les visages qu’il a vus lors de sa formation afin d’éviter les deepfakes.
Midjourney
Selon son fondateur David Holz, la formation Midjourney est basée sur un agglomérat de contenus web. « Nous utilisons les ensembles de données ouvertes qui sont publiées et entraînons le modèle à travers ceux-ci », explique-t-il à Forbes. Dans cet entretien, ses propos ont d’ailleurs fait polémique. David Holz a reconnu que la centaine de millions d’images utilisées n’a pas fait l’objet de demandes de consentement auprès des artistes ou auteurs. « Il n’y a pas vraiment de moyen d’obtenir cent millions d’images et de savoir d’où elles viennent », a tenté de justifier le CEO de Midjourney.
Cette IA générative repose comme DALL-E sur un modèle de diffusion. Fonctionnant sous code propriétaire et n’étant pas open source, Midjourney garde bien ses secrets, mais il est possible de comprendre sa manière de procéder. Le prompt est converti en un vecteur qui est une version numérique de l’invite. Le processus est en quelque sorte une inversion du bruit. En d’autres termes, quand vous entrez une requête, l’IA débute son travail par un champ de bruit visuel. La diffusion latente va soustraire le bruit par étape, avant de révéler une image concrète et affinée. C’est pour cette raison que la génération prend quelques dizaines de secondes, et que si vous stoppez le processus avant sa fin, votre visuel ne sera pas véritablement « fini » et risque d’être flou ou abstrait.
Quelles sont les différences de rendu entre DALL-E et Midjourney ?
Afin d’expérimenter DALL-E 2 et Midjourney v5, nous avons rédigé deux prompts, que nous avons à chaque fois copié et collé dans chacun des deux outils. Avec la même requête, quels sont les résultats proposés par ces deux IA génératives ? Nous avons fait l’expérience, mais gardez en tête que les deux outils sont à des stades différents d’entraînement et de développement, ce comparatif n’en est donc pas vraiment un. Il permet néanmoins d’avoir une idée des capacités de ces deux IA.
1er prompt : génération d’une image réaliste
Notre première requête se base principalement sur le réalisme. Nous avons rédigé le prompt suivant : a hiking trail in the forest during sunrise with deers, ultra realistic view, ultra detailed, 4K, ou en français « un chemin de randonnée dans la forêt pendant le lever de soleil avec des cerfs, vue ultra réaliste, ultra détaillée, en 4K ». Voici les résultats pour DALL-E :
Voici les résultats pour Midjourney :
Grâce à ce premier exemple, l’avance de Midjourney sur DALL-E est évidente sur des points comme le réalisme et les détails. On note que DALL-E semble avoir du mal à générer proprement nos cerfs qui possèdent de nombreuses imperfections. Le réalisme, notamment du point de vue de la photographie et des lumières, est aussi plus poussé sur Midjourney. Il est toutefois important de noter que Bing Image Creator, qui s’appuie sur une version avancée de DALL-E semble proposer des résultats plus probants. L’IA génératrice d’images d’OpenAI en a donc sous le capot ! Voici un exemple généré avec la version de DALL-E utilisée par Bing Image Creator :
2e prompt : génération d’une image stylisée
Dans un second temps, nous avons rédigé un prompt demandant une image dans un style particulier, le pixel art. Nous avons ajouté une petite précision : que ce pixel art se rapproche le plus possible de ce qui se faisait à l’époque des consoles 16 bits (comme la Super Nintendo ou la Mega Drive). Voici notre prompt : hip hop group posing in the street, 16 bit pixel art style, ou en français « des membres d’un groupe de hip hop posant dans la rue, dans un style pixel art 16 bits ». Les résultats pour DALL-E sont les suivants :
Voici les résultats pour Midjourney :
Ici, on remarque que la consigne a peut-être été trop peu respectée du côté de DALL-E, qui a généré des images dans un style plus proche du 8 bits que du 16. L’IA d’OpenAI a également été moins créative que Midjourney, qui a mieux pris en compte la consigne « dans la rue » que son concurrent.
Quels sont les tarifs proposés par DALL-E et Midjourney ?
DALL-E
La génération d’images avec DALL-E 2 passe par l’achat de crédits. Chaque prompt entré coûte un crédit. L’offre proposée par OpenAI est de 15 $ pour 115 crédits et les tarifs ne sont pas dégressifs. Il convient alors de bien réfléchir au prompt utilisé, car pensez qu’il vous faudra sûrement plusieurs essais et donc plusieurs prompts avant d’obtenir le visuel escompté.
Midjourney
Midjourney propose plusieurs offres tarifaires qui ne comprennent pas un nombre précis de crédits pour la génération comme le fait DALL-E. Ici, le plan de base coûte 10 $ (12 $ avec la TVA) par mois et donne droit à environ 200 générations d’images. L’offre intermédiaire (30 $/mois, 36 $ avec la TVA) et l’offre pro (60 $/mois, 72 $ avec la TVA) proposent, quant à elles, des « heures de génération rapide », 15 pour la première et 30 pour la seconde. Selon Midjourney, une heure de génération rapide permet la création de 60 images « originales » ou 200 variations d’images.
Source: BDM