Recherche
En ce moment En ce moment

Google I/O : le casse-tête des modèles génératifs dans l'offre commerciale

Les avancées de Google sur les modèles génératifs se traduisent de manière disparate dans l'offre commerciale, et sous une variété de conditions d'accès.

Publié par Clément Bohic le | mis à jour à
Lecture
3 min
  • Imprimer
Google I/O : le casse-tête des modèles génératifs dans l'offre commerciale
© AJay - Adobe Stock

Disponibilité générale ou aperçu ? Ouvert à tous ou sur demande ? Dans l'API, la suite bureautique, les deux ou ailleurs ?...

Ce questionnement n'est ni propre à l'offre de Google, ni spécifique aux modèles génératifs. Mais l'un dans l'autre, il s'impose à mesure que le groupe américain étoffe son catalogue. Imagen, modèle générateur d'images, en est par exemple à sa quatrième version ; Veo, générateur de vidéos, à sa troisième.

Où trouver Imagen 4 ?

Avec Imagen 4, Google promet entre autres, par rapport à la génération précédente, une résolution native maximale plus élevée (2K) et meilleure gestion de la typographie.

Principales voies d'accès au modèle :

  • L'app Gemini pour les utilisateurs de 18 ans et plus
  • L'application expérimentale Whisk (création d'images à partir d'autres), toutefois non disponible en France
  • La suite Google Workspace, à commencer par Docs, Slides et Vids
  • Vertex AI, en preview publique

Imagen 3 : sur Vertex AI, de nombreux éléments non ouverts par défaut

Imagen 3 avait été intégré à l'app Gemini et à Google Workspace en octobre 2024. Il y gère les formats 1:1, 4:3 et 16:9, en portrait ou paysage. Le français ne fait pas partie des langues officiellement prises en charge.

Sur Vertex AI, la génération d'images et l'apposition de filigranes numériques (techno SynthID) sont en disponibilité générale. La modification d'images avec ou sans masque l'est aussi, mais sous réserve d'approbation par Google. Même chose pour la création d'images de personnes, la personnalisation few-shot (insertion d'exemples dans les prompts) et le réglage fin (ancrage sur des personnages, des objets, des styles, etc.).

Une option de réglage fin "instantané" est disponible, mais en aperçu. La génération d'images animées (jusqu'à 4 secondes) en est au même stade, comme la description textuelle de vidéos.

La généralisation et l'édition d'images de personnalités reste interdite. Les images d'enfants sont soumises à révision. Quant aux capacités de questions-réponses visuelles, Google recommande de privilégier celles de Gemini.

Où trouver Veo 3 ?

À l'instar d'Imagen 4, Veo 3 monte en résolution (4K) par rapport à la génération précédente. Il ajoute par ailleurs la modalité audio en sortie. Sa disponibilité est néanmoins plus restreinte : hors Vertex AI, elle se limite aux États-Unis... pour les abonnés au nouveau forfait Google AI Ultra (249,99 $/mois). Ceux-là peuvent l'utiliser au sein de l'app Gemini. Autre option : dans Flow, outil de montage vidéo que Google a expérimenté sous le nom de VideoFX. Il associe Veo à Imagen et Gemini.

Google Vids, porte d'entrée sur Veo 2

Veo 2 s'étoffe en parallèle. Parmi les dernières fonctionnalités dont il a été doté :

  • Ajout et suppression d'objets
  • Outpainting (extension d'image)
  • Contrôles caméra (zoom/dézoom, panorama horizontal et vertical)
  • Ancrage sur des personnages, des objets, des scènes, des styles

Les vidéos produites peuvent durer jusqu'à 8 secondes (720p, 24 fps, 16:9).

Sur Vertex AI, la génération de vidéos à partir de texte est en disponibilité. Il faut faire une demande pour pouvoir utiliser des images en entrée.

Veo 2 est également intégré dans le forfait Google AI Pro (ex-Google One AI Premium ; 21,99 €/mois). L'accès se fait dans l'app Gemini, dans Flow et dans Whisk (pour la composante "images animées").

Depuis peu, il existe une option supplémentaire : la version desktop de Vids, . Veo 2 y a pris le relais de Gemini sur l'ensemble de l'offre Google Workspace, hors abonnements individuels. L'accès sera cependant potentiellement limité dans le temps sur les éditions Business Starter, Enterprise Starter et Nonprofit (pour le moment, échéance au 31 mai 2026 pour l'ensemble des fonctionnalités GenAI de Vids).

Illustration © AJay - Adobe Stock

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs #security

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page
OSZAR »