[UP202] Sora, GPT, Alexa

Publié le 3 mars 2025 — 13 min lu

Il sait vraiment tout faire 🥹

Résumé

6 recos pour prendre en main Sora | Ce qu'il faut savoir sur GPT-4.5 | Amazon dévoile Alexa+.

▹ News : Amazon dévoile enfin Alexa+.
▹ Zoom : GPT-4.5 arrive - ce qu'il faut savoir (et quelques doutes).
▹ Deep Dive : Sora est là - 6 recos pour prendre en main l'outil vidéo.

Salut à tous,

Un jour, peut-être, il ne se passera plus grand chose dans le monde de l'IA.

Ce jour n'est pas arrivé.

Ces derniers jours ont été riches en annonces et lancements. Il me tenait à cœur de vous tenir informé. Cette édition, un peu plus longue que d'habitude, remplit - je l'espère - cet objectif.

Bonne lecture bien dense ! 😅

🗣️ Alexa+. Amazon a dévoilé Alexa+, une version boostée à l'IA de son assistant vocal.

Cette nouvelle version offre des interactions plus naturelles et personnalisées, capable de comprendre des commandes en langage courant et de gérer des tâches complexes.

Tarif : $19,99 par mois pour les non-abonnés / inclus sans frais supplémentaires avec Amazon Prime.
Dispo : Le déploiement commencera aux US dans les prochaines semaines. L'Europe devrait suivre, mais plutôt vers la fin de l'année.
Hardware : initialement accessible depuis les appareils Echo Show 8, 10, 15 et 21, ainsi que Philips Hue. Amazon prévoit également de lancer une nouvelle gamme d'appareils Alexa à l'automne, décrits comme "magnifiques" par le PDG Andy Jassy
Nouvelles fonctionnalités : Alexa+ peut désormais planifier des rendez-vous, effectuer des réservations via des services comme OpenTable, et même planifier des réparations à domicile en naviguant de manière autonome sur le web.

Intégration avec des services tiers : Alexa+ s'associe à diverses plateformes telles que Spotify, Apple Music, Disney+, Netflix, Uber Eats, Ticketmaster et Ring, pour fluidifier la gestion de la maison connectée et des services quotidiens.

💡

Deux fonctionnalités innovantes sont passées relativement inaperçues :

- Grâce à l'intégration avec Suno, Alexa+ peut composer des chansons complètes, y compris paroles et musique, basées sur les suggestions de l'utilisateur (par exemple, demander à Alexa+ de créer une chanson d'anniversaire pour un ami fan de jazz).
- Alexa+ intègrerait des capacités proactives, suggérant par exemple de partir plus tôt en cas de trafic dense.

📈 Nvidia, toujours plus. Nvidia est le phare de tout le secteur IA (lui-même locomotive de l'économie mondiale), alors lorsque l'entreprise publie ses derniers résultats, le monde entier retient son souffle.

Bonne nouvelle, les résultats du Q4 2024 dépassent toutes les attentes, avec un bénéfice net de $22,1 Mds. Pour autant, les investisseurs restent fébriles quant à la performance future de Nvidia.

Retrouvez ici mon analyse plus détaillée (qui n'a pas rencontré beaucoup d'écho sur Linkedin mais je vous assure que c'est intéressant… enfin je crois 😅).

👁 Avatars IA. La plateforme HeyGen propose une nouvelle série d'avatars plus réalistes. De quoi creuser encore l'écart avec son concurrent Synthesia.

Il est en outre désormais possible de générer une voix dédiée pour votre avatar à partir d'un simple prompt. Par exemple : "a dramatic movie trailer narrator". Plein d'autres exemples dans ce thread sur le compte X de HeyGen.

⏰ Agentforce pas si fort. Salesforce a annoncé des résultats décevants en imputant cette contre-performance au manque d'intérêt de ses clients pour sa plateforme d'agents IA "Agentforce".

Le commentaire d'une analyste pour Reuters en dit long :

« Étant donné la médiocrité des premières expériences en IA générative menées par de nombreuses entreprises, elles rechignent à faire des chèques en blanc tant que Salesforce ne leur prouve pas qu'Agentforce fonctionne réellement. »

Ça pique.

🌄 Ideogram 2a. Le générateur d'image, notamment spécialisé dans l'inclusion de texte dans les visuels, annonce une nouvelle version de son modèle : Ideogram 2a.

Plus rapide, plus précis, Ideogram promet de pouvoir inclure toujours plus de textes dans les visuels générés.

Le modèle Ideogram 2a est aussi accessible depuis les plateformes tierces comme Freepik, Picsart et Krea.

Image démo de Ideogram 2a, fournie par Ideogram

Le prompt fourni par Ideogram pour ce visuel :

⌨️

A cinematic wallpaper, titled "Expeditions into the Unknown: Apollo 11 Luna Lander", about lunar exploration. The night sky is filled with twinkling stars, and the Earth appears in the background. The foreground showcases the moon's surface, with the detailed Apollo lunar lander lit by the soft moonlight. The title is elegantly written in a futuristic font. The overall mood is awe-inspiring, evoking a sense of exploration, wonder, and the unknown.

🎬 Pika 2.2. La v2.2 du modèle vidéo Pika est disponible, avec des générations de 10 secondes, une résolution 1080p et des Pikaframes, qui permettent d'ajouter des images références où vous le souhaitez dans la vidéo (pas seulement au début et/ou à la fin). Plus de contrôle sur votre output, en somme.

▹ Courrier des lecteurs

Le courrier de Maï

Hello Sane,
Est-ce que tu sais si je peux trouver un site gratuit d'IA qui me permettrait de faire une voix off avec la voix d'une célébrité ?
Merci !
Maï

Ma réponse

Hello Maï,

Oui, cela existe bel et bien, bien que les sites concernées n'aient pas obtenu l'autorisation des personnalités concernées…

Pour des voix de stars américaines (Trump, Will Smith, Beyonce…), jette un œil au générateur Parrot.

Si tu recherches plutôt des voix françaises (Macron, Johanny, Mbappé…), tu en trouveras quelques unes sur la plateforme Vidnoz.

Il est important de noter que l'utilisation de voix clonées soulève des questions éthiques et juridiques. Par exemple, la famille d'Alain Dorval, la voix française de Sylvester Stallone, a exprimé son mécontentement concernant l'utilisation d'une imitation de sa voix générée par IA dans le film "Armor".

Cet espace "Communauté" est le vôtre. Répondez à cet email avec votre besoin : Recrutement, ressource à partager, demande d'aide, question…

GPT-4.5 arrive enfin : ce qu'il faut savoir (et quelques doutes)

La dernière version de GPT a été dévoilé. Sam Altman insiste qu'il ne s'agit pas d'un modèle de raisonnement avancé, mais bien un LLM standard. Il promet toutefois :

« C'est un type d'intelligence différent et il y a une magie que je n'avais jamais ressentie auparavant. »

▹ Comment l'essayer ?

Une version "preview" est d'ores et déjà disponible pour les utilisateurs Pro (ceux payant un plan à $200/mois, dont je ne fais pas partie, et très probablement vous non plus 😅).

Bonne nouvelle, GPT-4.5 sera aussi disponible dans les prochains jours pour les autres utilisateurs payants (Plus & Teams). J'aurai alors la joie de l'expérimenter et vous communiquer mes impressions.

Bref, prenez encore votre mal en patience.

▹ La promesse : un modèle qui lave plus blanc que blanc

OpenAI annonce sans surprise un modèle plus performant, en insistant sur l'aspect relationnel, ainsi que sur une baisse des hallucinations.

Les premiers tests montrent que l’interaction avec GPT-4.5 semble plus naturelle. Sa base de connaissances plus large, son meilleur alignement avec l’intention de l’utilisateur et son intelligence émotionnelle améliorée en font un outil parfaitement adapté à des tâches telles que l’écriture, la programmation et la résolution de problèmes pratiques, avec moins d’hallucinations.

GPT-4.5 est donc conçu pour rendre les interactions plus naturelles, avec une meilleure compréhension des nuances et une intelligence émotionnelle affinée.

Les testeurs internes ont même décrit les conversations comme « chaleureuses, intuitives et naturelles ».

▹ Quelques doutes sur la performance de GPT-4.5

Pressé par Grok, OpenAI ont-ils accélérer la sortie de GPT-4.5 ?

L'entraînement de GPT-4.5 aurait été 10 fois plus intensif que celui de GPT-4, mais les tests de benchmark ne montrent qu'une amélioration de la performance de 5% par rapport à GPT-4o.
Dans les tests de codage, il surpasse Claude 3.5 mais est inférieur à Claude 3.7.
Les fonctionnalités comme le mode voix (indispensable !) ou la reconnaissance d'image ne sont pas encore disponibles sur le modèle.
Même si OpenAI promet une baisse des hallucinations, il est pour l'instant classé derrière les déclinaisons de Gemini 2 et derrière o3-mini sur ce front, comme en témoigne le benchmark de Vectara.

Gemini 2 affiche près de deux fois moins d'hallucinations que GPT-4.5 (0,7% versus 1,2%)

Côté API, GPT-4.5 est extrêmement coûteux à exécuter : 75 $/million de jetons d'entrée et 150 $/million de jetons de sortie (comparé aux 2,50 $/15 $ de GPT-4o).

Un tel tarif montre qu'OpenAI essaye de capter un maximum la rente associée à sa notoriété et son statut de pionnier. En réalité, GPT-4.5 n'est pas le modèle le plus performant, mais c'est lui le plus cher.

Sora est là : 6 recos pour prendre en main l'outil vidéo

Sora, l’outil de génération vidéo d’OpenAI, est désormais disponible en Europe.

Il permet de créer des vidéos réalistes à partir de simples prompts. Mais comme toute nouvelle technologie, son utilisation optimale demande quelques ajustements et bonnes pratiques.

Voici 6 astuces pour exploiter pleinement Sora et produire des vidéos percutantes. Et en fin de sujet, un zoom sur les deux meilleures alternatives à Sora.

1️⃣ Rédigez des prompts détaillés et précis

Contrairement aux autres IA vidéo, il semble plus facile d'utiliser Sora en text-to-video qu'en image-to-video. Comprenez par là : décrire une scène plutôt que d'essayer d'injecter une image à animer.

On en revient donc au nerf de la guerre de l'IA générative : la rédaction de prompt de qualité.

👉 Plus vous êtes spécifique, plus le rendu correspondra à vos attentes.

Dans le passé, il était inutile de rédiger des prompts détaillés avec les générateurs vidéo car les modèles étaient incapables de prendre en compte ce niveau de détail. C'est différent avec Sora.

Par exemple, au lieu d’écrire « Une personne assise dans un parc », précisez :

⌨️

Une femme en robe rouge lisant un livre sur un banc en bois sous un cerisier en fleurs, avec des enfants jouant au loin et un chien courant à l’arrière-plan. Plan fixe.

Généré sur Sora (La compression GIF dégrade la qualité)

L’ajout de détails comme les couleurs, l’ambiance, l’éclairage et l’environnement permet à Sora de mieux comprendre votre vision.

🇫🇷

Au fait, on prompt en anglais ou en français ? Généralement, il est recommandé de prompter en anglais sur les générateurs image et vidéo.
Dans mon expérience, le résultat obtenu en promptant en français sur Sora s'est révélé tout à fait satisfaisant.

This post is for subscribers only

Subscribe now and have access to all our stories, enjoy exclusive content and stay up to date with constant updates.

Vous avez déjà un compte ? Se connecter

Résumé

Le courrier de Maï

Ma réponse

GPT-4.5 arrive enfin : ce qu'il faut savoir (et quelques doutes)

Sora est là : 6 recos pour prendre en main l'outil vidéo

This post is for subscribers only

Sane

Continuer à lire

[UP217] ChatGPT x Votre Marque

[UP216] Je suis tombé de ma chaise

Passez à la vitesse IA