[UP103] Prodigieux

Publié le 19 févr. 2024 — 12 min lu

Réalisé par Sane sur Midjourney

Résumé

Pourquoi Sora change radicalement la donne | Vérifiez la vraie influence d'un compte | Un moteur de recherche par OpenAI ?

News : Un moteur de recherche par OpenAI ?
Quick hack : Vérifiez la vraie influence d'un compte.
Édition spéciale : Pourquoi Sora change radicalement la donne.

Salut à tous,

Si vous me suivez depuis longtemps, vous savez que je ne suis pas du genre à m'enthousiasmer excessivement à la moindre annonce (là où certains "influenceurs IA" vous annoncent une révolution tous les 4 matins). J'ai été échaudé par mon expérience dans la crypto, disons.

Pourtant, cette fois, je dois bien dire qu'il m'est difficile de ne pas être très, très positif sur Sora. De mon point de vue, c'est un peu comme si on nous avait fait entrapercevoir un modèle tout droit venu de 2027. Après des mois de errements dans l'IA vidéo, personne ne s'attendait à un bond en avant aussi soudain que prodigieux.

Dans cette édition, je reviens non seulement sur la prouesse technique du modèle, mais aussi sur l'impact de Sora au-delà du strict domaine vidéo, ainsi que les interrogations qui subsistent.

Bonne lecture !

Sane de Upmynt 💙

Les news chaudes 🔥

🔬 Un moteur de recherche IA ? D'après une exclu de The Information, OpenAI développerait un nouveau moteur de recherche qui serait notamment alimenté par Bing à son lancement. On en sait vraiment pas plus pour l'instant.

L'action de Google a perdu presque 2% juste après cette annonce.

💬 Slack AI. La messagerie professionnelle se dote de nouvelles fonctionnalités IA (réservées au membres payants). Elles permettront notamment de synthétiser de longs échanges ayant eu lieu sur la plateforme.

Stable Diffusion. Stability AI lance une nouvelle version de son modèle open source. Cette déclinaison, baptisée Stable Cascade, promet d'aller un meilleur rendu avec une vitesse optimisée.

🧐 Gemini 1.5 doit faire ses preuves. À peine Gemini Ultra lancé, Google annonce déjà l'amélioration de la version Pro, avec l'arrivée de Gemini 1.5. La promesse : une performance améliorée : « 1.5 Pro atteint une qualité comparable à 1.0 Ultra. »

Ma question : du coup, pourquoi payer pour Ultra (accessible via l'abo Gemini Advanced) si le 1.5 Pro (gratuit) atteint la même perf ?

Google annonce aussi en fanfare que Gemini 1.5 propose un meilleur contexte de 1M de tokens, càd concrètement la possibilité pour le modèle de gérer un input jusqu'à 700K mots (soit un gros ouvrage entier).

Je suis toujours méfiant avec les annonces tonitruantes de Google. Et en lisant dans le détail, on découvre que ce contexte est pour l'heure réservé aux développeurs agréés et à certaines entreprises clientes en "private preview". Pour les autres, ça sera un contexte de 128K tokens (soit exactement comme GPT-4).

💹 Invincible Nvidia ? L'action a finalement dépassé Amazon puis Alphabet pour installer Nvidia comme la 3e capitalisation boursière mondiale.

L'entreprise est en quasi monopole sur le marché des processeurs haut de gamme, ce qui en fait l'action phare de la bulle IA.

Attention toutefois : comme dit l'adage, les arbres ne montent jamais jusqu'au ciel.

Communauté 🦊

Cet espace est le vôtre. Recrutement, ressource à partager, demande d'aide, question. Répondez à cet email pour y apparaître.

Impulsez un virage IA en interne

Il est parfois difficile d'instaurer en interne les prémices d'une "culture IA". Afin de démystifier la technologie et inspirer votre équipe, je vous propose d'intervenir pour un talk de 1 à 2h, en présentiel ou en visio.

Au programme : les dernières avancées de l'IA et ses applications concrètes, les enjeux liés à votre industrie, mais aussi les risques et les perspectives à moyen et long terme, le tout dans un format interactif avec Q&A.

Réservez votre spot ! Février est pour l'essentiel complet mais il reste quelques disponibilités en mars.

Quick hack ⚡️ Vérifiez la vraie influence d'un compte ou d'une communauté

Le nombre de followers n'est pas un indicateur suffisant pour déterminer la véritable influence d'un compte. Bien sûr des outils payants vous fourniront des données détaillées, mais voici 3 services gratuits pour une vérification rapide.

1️⃣ Hype Auditor permet de repérer tous les comptes sociaux d'un même utilisateur ou d'une même marque, de comparer leurs performances respectives, en particulier le taux d'engagement moyen ("ER").

2️⃣ Social Blade permet d'afficher sous forme de graph la croissance de n'importe quel compte en terme d'abonnés au cours des dernières semaines (sur TikTok, Twitch, YouTube, etc)

3️⃣ Enfin, Subreddit Stats permet d'afficher, pour n'importe quel salon Reddit, une mine d'or de données et leur dynamique depuis un an. Le site est aussi un scanner intéressant de Reddit en indiquant les communautés qui ont le vent en poupe aujourd'hui ou ce mois-ci. Une bonne manière de visualiser les sujets qui agitent la toile ces temps-ci (surtout aux US).

Deep dive 🔍 Pourquoi Sora change radicalement la donne

Le choc de confiance Sora, les prouesses attendues du modèle, mais aussi les défis à relever et les interrogations qui subsistent : c'est le "scénario" de ce sujet dédié. Silence, ça tourne… Action !

(Mais d'abord, visionnez les vidéos démo partagées par OpenAI, et notamment compilées ici).

OpenAI impulse un choc de confiance

Si on ne peut pas dire que l'IA a été un sujet atone ces derniers temps, il faut reconnaître qu'OpenAI n'a pas tant brillé depuis un moment, et encore moins depuis le psychodrame lié au débarquement de son PDG.

Les dernières avancées en IA ont plutôt ressemblé dernièrement à de légères avancées, avec une V6 de Midjourney sensiblement meilleure que la V5 (mais le modèle atteint un plafond de réalisme), ou un modèle Gemini Ultra à peine supérieur à GPT-4 (pourtant sorti il y a un an).

Ce piétinement a été encore plus évident sur le front vidéo, où de véritables progrès se sont fait cruellement attendre. Depuis la sortie du modèle vidéo Gen-2 de Runway en juin, aucune amélioration n'a vraiment été permise.

Précisément, le lancement de la V1 de Pika, plein de promesses, a finalement déçu, se révélant incapable de faire mieux que Runway.

Le modèle Sora vient donc mettre un terme à cette "stagnation" relative observée depuis quelques mois. Et prouve qu'en 2024, l'IA générative peut encore éblouir par ses progrès.

L'annonce est d'autant plus surprenante qu'OpenAI n'était pas spécialement attendu le front vidéo. Côté image, Dall-e 3, bien que performant, a toujours été incapable de photo-réalisme, ce qui l'a systématiquement placé en deçà des modèles concurrents (Midjourney et Stable Diffusion).

Il ne semblait pas que le média était la priorité d'OpenAI, tous les yeux étant rivés sur GPT-5.

Une quintuple prouesse

Sora marque une rupture sans précédent dans l'IA vidéo, sur 5 aspects :

1️⃣ La durée démultipliée

Les modèles vidéo existants permettent la génération de vidéos d'environ 3-4 secondes. Et même pendant ces quelques secondes, l'angle de vue change en définitive très peu.

Les quelques trailers impressionnants diffusés en ligne mettaient bout à bout ces courtes animations pour tenter de créer un ensemble cohérent.

Le modèle Sora promet la génération d'une vidéo allant jusqu'à 1 minute. Soit un facteur x15 ! On le voit dans les différentes vidéos démos, l'angle de caméra peut largement changer, permettant des séquences riches et non statiques.

Vidéo démo fournie par OpenAI (convertie en GIF pour les besoins de l'embed)

2️⃣ La génération à partir d'un simple prompt (text-to-video)

Avec les modèles actuels, le meilleur résultat s'obtient en chargeant une image au préalable, que le modèle se charge d'animer (tant bien que mal !).

Si le text-to-video est bien disponible, il est à un état expérimental, le résultat obtenu ne tenant pas la route dans 99% des cas.

Sora pourra aussi animer un visuel existant, mais la prouesse provient de sa gestion d'un simple prompt, suffisant pour générer une vidéo ambitieuse. Une performance à peine croyable.

3️⃣ Le rendu réaliste

Avec Runway ou Pika, il faut souvent recommencer 3 ou 4 fois pour obtenir un rendu (à peine) acceptable. Les textures sont irrégulières, et le résultat rappelle souvent les premiers modèles d'images.

D'ailleurs, des modèles comme Pika et Moonvalley s'en sortent beaucoup mieux sur les réalisations type cartoon, où les textures sont simplifiées.

Sora étonne par la qualité et la finesse des textures. D'ailleurs, l'influenceur expert de Midjourney Nick St Pierre a comparé les rendus de Sora versus Midjourney en réutilisant les mêmes prompts, et on observe que les résultats sont étonnement similaires visuellement.

Sora semble d'ailleurs autant capable de gérer des designs 2D, 3D, cartoon que réaliste, ce qui est aussi une première.

4️⃣ L'animation, enfin crédible

Les vidéos générées par Sora maintiennent le plus souvent une cohérence pleine et entière.

Avec les anciens modèles, le tout manque de fluidité, et les éléments ont tendance à fusionner entre eux, se déplacer dans des directions physiquement impossibles, ou à disparaitre mystérieusement.

Ces bizarreries ont d'ailleurs souvent suscité la moquerie, comme cette pub pour une marque de bière fictive.

Typiquement, avec Sora, les bras d'un personnage sont animés de manière crédible, et surtout fluide. Ce petit comparatif Sora vs Runway vaut mieux qu'un long discours.

Sora versus Runway, l'impression d'un écart technologique de 5 années.

This post is for subscribers only

Subscribe now and have access to all our stories, enjoy exclusive content and stay up to date with constant updates.

Vous avez déjà un compte ? Se connecter

Résumé

Les news chaudes 🔥

Communauté 🦊

Quick hack ⚡️ Vérifiez la vraie influence d'un compte ou d'une communauté

Deep dive 🔍 Pourquoi Sora change radicalement la donne

This post is for subscribers only

Sane

Continuer à lire

[UM174] Pépites à volonté

[UP173] Grande École

Passez à la vitesse IA