Recherche

Snowflake et l'IA générative : entre usages tactiques et stratégiques

À mesure que s'y diffuse l'IA générative, le portefeuille produits de Snowflake gagne à la fois en largeur et en profondeur.

Publié par Clément Bohic le | mis à jour à
Lecture
6 min
  • Imprimer
Snowflake et l'IA générative : entre usages tactiques et stratégiques
© Tada Images – Adobe Stock

Comment l'IA, générative ou non, se diffuse-t-elle chez Snowflake ?

Nous avions fait un point fin 2023 après la conférence Snowday. L'entreprise américaine schématisait alors son offre ainsi :

Snowflake


L'essentiel des composantes étaient en bêta privée. Par exemple les trois éléments à gauche. Des fonctionnalités "prêtes à l'emploi" accessibles sur l'interface graphique :

  • Document AI (extraction de contenu)
  • Snowflake Copilot (assistant de codage SQL)
  • Universal Search (recherche "transversale" fondée sur la techno de Neeva)

Socle de cet ensemble : un moteur de fonctions sans serveur appelé Cortex. Il donnait alors aussi un accès API à :

  • Diverses fonctionnalités basées sur des LLM (détection de sentiment, résumé de texte, traduction...)
  • Des modèles conversationnels pour la saisie semi-automatique (sur base Llama 2) et le codage SQL (version "programmatique" de Snowflake Copilot)
  • Des services d'embedding et de recherche vectorielle

Tous ces éléments étaient aussi en bêta privée.
Aujourd'hui intégrés dans l'offre commerciale, ils ont plus ou moins changé de forme et/ou de sous-jacent (en tête de liste, les LLM Claude d'Anthropic) En parallèle, ils ont été inscrits dans des produits plus "englobants", parfois encore expérimentaux. Le Snowflake Summit 2025 en a donné un aperçu.

Snowflake Intelligence, un portail pour l'analyse de données en langage naturel

Snowflake Intelligence est censé entrer "bientôt" en phase de bêta privée. Cette interface d'analyse de données en langage naturel (anglais pour le moment) est accessible sur ai.snowflake.com. Elle associe des LLM d'Anthropic (Claude 3.7 Sonnet) et d'OpenAI (GPT-4.1 ; "bientôt" o4-mini) aux technologies que Snowflake a regroupées sous la bannière Cortex. On y retrouve la composante text-to-SQL (Cortex Analyst, basé sur Claude), la recherche hybride (Cortex Search, avec choix entre un modèle maison et un modèle Voyage AI pour l'embedding)... et l'API Cortex Agents (en bêta publique), qui combine ces deux briques en un RAG.

Snowflake introduit une dimension agentique à travers un mode de recherche approfondie. Il y a couple les extensions Cortex Knowledge. "Bientôt" en disponibilité générale sur la marketplace, elles donnent accès à des sources de données externes. La liste fournie pour l'heure a une coloration très anglophone : Associated Press, CB Insights, Stack Overflow... La prise en charge des serveurs MCP doit s'y ajouter "bientôt" en bêta privée.

Bêta privée également pour une autre fonctionnalité "catégorie IA" : la génération automatique de modèles sémantiques avec Cortex Analyst. Sur Cortex Search, Snowflake a dernièrement ajouté des API de scoring, de recherche multichamp et de classement basé sur les métadonnées.

Cortex AISQL : des fonctions "spécial IA" dans le moteur SQL

Le moteur SQL de Snowflake passe lui aussi "à la mode IA". Avec, d'une part, un nouveau type de données (FILE) qui permet la référence directe à des données multimodales (texte, images, son) au sein des tables. Et de l'autre, un ensemble de fonctions :

  • AI_COMPLETE
    Saisie semi-automatique à partir de textes ou d'images. Version mise à jour COMPLETE (SNOWFLAKE.CORTEX). Associée à une option de filtrage des réponses indésirables à l'appui de Llama Guard 3.

  • AI_CLASSIFY
    Classification de textes et d'images. Version mise à jour de CLASSIFY_TEXT (SNOWFLAKE.CORTEX).

  • AI_FILTER
    Filtrage de textes et d'images au sein des clauses SELECT, WHERE et JOIN ... ON.

  • AI_AGG
    Agrégation d'une colonne texte et fourniture d'insights à partir d'un prompt.

  • AI_SUMMARIZE_AGG
    Agrégation d'une colonne texte et fourniture d'un résumé.

  • AI_SIMILARITY
    Calcul de la proximité vectorielle de deux inputs.

  • PARSE_DOCUMENT (SNOWFLAKE.CORTEX)
    Extraction de texte en mode OCR ou Layout.

  • TRANSLATE (SNOWFLAKE.CORTEX)

  • SENTIMENT (SNOWFLAKE.CORTEX)

  • EXTRACT_ANWSER (SNOWFLAKE.CORTEX)

  • SUMMARIZE (SNOWFLAKE.CORTEX)

Ces fonctions peuvent exploiter des LLM d'OpenAI, Anthropic, Meta, Mistral AI et DeepSeek.
En complément, Snowflake ouvre la voie aux opérations JOIN sémantiques. C'est-à-dire basées sur des relations déterminées par IA plutôt que simplement sur des clés prédéfinies (par exemple, connexion de CV et de fiches de postes en fonction de la correspondance estimée).

Ci-dessous, un tableau indicatif de la disponibilité de chaque fonction et des modalités couvertes. Le tableau complet ajoute le paramètre de disponibilité régionale au sein du cloud AWS. On y constate, par exemple, qu'AI_COMPLETE est disponible en Europe avec Llama et Mistral, mais pas avec Claude ni GPT. Ou que les images ne sont gérées par AI_SIMILARITY qu'à certains emplacements.


La stack Cortex AI à mi-2025


SnowConvert AI : la promesse de migrations à renfort de LLM

Début 2023, Snowflake finalisait l'acquisition de Mobilize. Le principal apport se nomme SnowConvert. Il s'agit d'un outil de migration de bases de données pour Windows et Mac, en ligne de commande et interface graphique.

En avril, Snowflake y avait ajouté un assistant exploitant l'API de saisie semi-automatique pour fournir des explications et des suggestions relatives aux problèmes de conversion. Modèle recommandé : Claude Sonnet (Llama 3.1 et Mistral Large 2 en option).

Cet assistant est désormais en disponibilité générale. Snowflake y a associé - en bêta privée - une assistance par LLM pour identifier les problèmes plus en amont ("vérification"), grâce à des données synthétiques. Le service crée un arbre de la syntaxe abstraite et une table de symboles pour constituer un modèle sémantique de la source.

Oracle, SQL Server, Amazon Redshift et Teradata firent partie des premières plates-formes prises en charge par SnowConvert La liste comprend désormais aussi, entre autres, BigQuery, Greenplum, Netezza, Postgres et Sybase (à différents niveaux de support ; cf. notes de version).


Data science, gouvernance... Des assistants à la pelle

En support de la BI autant que des assistants IA, Snowflake met en place des "vues sémantiques" (bêta publique). Ces couches embarquent le contexte de l'organisation (pour la BI, des dimensions et des métriques, par exemple ; pour l'IA, des valeurs d'échantillons ou des instructions personnalisées). Censées minimiser les hallucinations inhérentes au text-to-SQL sur des schémas opaques, elles remplacent l'actuel fichier YAML de Cortex Analyst. Pour les créer, trois solutions : l'UI de ce service, l'explorateur d'objets de Snowsight ou une déclaration DDL.


En sus à cette couche, Snowflake propose, en bêta privée, un assistant conçu pour exploiter la sémantique diffusée au sein des sources de données des organisations (modèles BI, dashboards, notebooks SQL, bases de connaissances...).

Deux autres assistants sont en préparation. L'un à destination des data scientists. Basé sur des modèles Anthropic, il est censé automatiser la création de pipelines ML. L'autre pour la gouvernance en langage naturel au sein d'Horizon Catalog.


Illustration principale © Tada Images - Adobe Stock

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page
OSZAR »