▹ News : Le nouveau modèle Flux fait sensation | Midjourney 6.1 débarque.
▹ Zoom : L'excellent générateur Visual Electric s'offre une v2 !
▹ Deep Dive : L'IA en 2024, un premier bilan.
Salut à tous,
Le monde l'IA ne nous aura décidément laisser aucun répit pour ces vacances 2024.
Ces derniers jours, ce sont les modèles d'images qui agitent le web synthétique, avec de nouvelles versions de Midjourney et Visual Electric, et même un tout nouveau modèle image ultra prometteur, baptisé Flux.
Ils sont tous trois couverts dans cette édition estivale, baptisée "triplé" (puisque c'est un terme à la mode ces derniers jours 😇).
Bonne lecture sous le soleil olympique !
Sane de Upmynt 💜
🤩 Flux entre dans l'arène. Un nouveau modèle d'images open source a fait son apparition sur le web, et il fait déjà sensation. Développé par des anciens de Stable Diffusion, le modèle Flux semble exceller pour la génération de visages humains, domaine traditionnellement le plus touchy pour les générateurs IA.
Flux est déjà accessible depuis une poignée de générateurs en ligne dont RenderNet et EverArt, ou directement sur fal.ai.
J'y reviendrai naturellement dans Upmynt, mais jetez un œil à ce thread comparatif entre Flux et Midjourney pour être déjà convaincu du potentiel de la bête. Même si MJ semble encore au-dessus, la qualité atteinte pour une V1 est déjà remarquable.
👁 Midjourney v6.1. Le modèle d'images phare est désormais dispo dans sa version 6.1, supposément encore plus performante (ils ne vont pas clamer l'inverse).
Personnellement, il me semble que l'amélioration soit très subtile. Les comparatifs diffusés en ligne montrent une v6.1 légèrement supérieure, mais ce peut être pour coller à un narratif d'amélioration continue. Il serait tout aussi possible de montrer des comparatifs qui montrent un rendu comparable entre les deux versions.
🥊 Microsoft vs OpenAI. Pour la première fois, le géant de Redmond a listé OpenAI comme concurrent, dans les domaines de l'IA mais aussi de la search. Cela fait suite à l'annonce de SearchGPT, le moteur de recherche IA annoncé par OpenAI la semaine dernière.
Cette mention est surprenante car Microsoft est un actionnaire de poids au capital d'OpenAI. D'ailleurs, l'entreprise est suspectée d'essayer de dissoudre les craintes sur sa relation avec la startup.
Les autorités de la concurrence sont en effet inquiètes de la position dominante que s'arroge Microsoftg dans l'IA, via ses propres activités ET son implication dans OpenAI…
Visual Electric V2, enfin !
J'ai souvent parlé de Visual Electric dans Upmynt, tant je considère qu'il s'agit d'un des meilleurs générateurs disponibles, en raison de son interface pratique, son aide au prompting, et son plan gratuit généreux.
Seul petit bémol : la difficulté du générateur à atteindre le photo-réalisme, surtout pour les visages humains. Il fallait donc le plus souvent mouliner les visuels générés sur VE sur un upscaler type Krea ou Magnific pour l'embellir.
Excellente nouvelle au beau milieu de l'été : le générateur tourne sur un tout nouveau modèle, VE2, qui se targue d'être capable d'hyper-réalisme.
Observons donc d'abord l'amélioration entre VE1 et VE2, avec ce portrait standard.
Portrait of a confident woman walking in the street, holding a cup of hot steaming coffee, futuristic city in the background, soft morning light, street photography.Dans la version de gauche, le rendu de la main est imparfait, et les textures sont relativement pauvres. L'éclairage a aussi un côté cliché /artificiel.À droite, avec la v2, on atteint le photo-réalisme avec un visuel au rendu proche de la perfection et une lumière plus crédible.
À présent, comparons Visual Electric au maître Midjourney (et la dernière version 6.1).
Portrait of a woman with dark skin, short curly hair, and a confident expression, looking upwards. She wears a yellow blouse that contrasts beautifully with the rich blue background. Her makeup features subtle golden eye shadow and red lipstick. Soft and even lighting, highlighting her smooth complexion. Vibrant and empowering mood. Fashion photography.Bien sûr, cette comparaison est flatteuse pour VE, mais cela ne signe pas pour autant la supériorité absolue de VE sur MJ.
Il me faudra plus de temps pour roder le générateur et partager avec vous un avis définitif. À suivre, mais on ne peut être que très enthousiaste au sujet de ce nouveau Visual Electric.
L'IA en 2024 : Premier bilan
À mi-parcours de 2024 (et même un peu plus), l'heure est venue de dresser un premier bilan de l'année.
Les promesses esquissées en début d'année sont-elles tenues ou en passe de l'être ?
Quelles sont les bonnes surprises ou les plus grosses déceptions ?
▹ Côté chatbots : vers un pic de performance ?
Les LLM, ces modèles linguistiques entrainés sur des milliards de texte pour générer des contenus éditoriaux de manière probabiliste, ont-ils atteint un cap de performance ? Depuis la sortie de GPT-4 en mars 2023, et encore plus cette année, chaque nouveau lancement a semblé offrir des améliorations de plus en plus subtiles.
Ainsi, il est difficile de vraiment apprécier le saut en avant permis par GPT-4o versus son prédécesseur (GPT-4 Turbo).
D'ailleurs, une ponte de l'IA, notre Yann Le Cun national, ne dit pas autre chose, en pointant du doigt l'impasse technologique dans laquelle se trouvent les LLM. Pour lui, le progrès devra passer par de tout nouveaux types de modèles IA, focalisés sur la complétude d'objectifs :
« L’objectif est de rendre les machines capables de comprendre le monde, se souvenir, raisonner et planifier. 4 choses que les LLM sont incapables de faire. »
Seule véritable surprise cette année, le chatbot Claude, enfin lancé en France en mai dernier, qui semble être capable d'une meilleure qualité éditoriale que ChatGPT.
Claude prend des partis pris créatifs, là où les générations de GPT ont davantage tendance à être standardisées et consensuels : le robot ne prend pas de risque (ce qui fait d'ailleurs dire à ses détracteurs que ses textes manquent de relief ou d'originalité).
Claude est gratuit à l'inscription et il est possible d'utiliser le modèle le plus abouti (Claude 3.5 Sonnet) sur un volume généreux de requêtes.