Embeddings

Glossary Term

Embeddings

1 category

Les embeddings (traduits en français par plongements vectoriels ou plongements lexicaux pour leur application au langage) désignent, en intelligence artificielle, des représentations numériques denses sous forme de vecteurs à haute dimensionnalité, dans lesquelles chaque entité du monde réel — un mot, une phrase, un document, une image, un son ou même un utilisateur — est projetée comme un point unique dans un espace mathématique continu. Devenus en quelques années l’un des piliers fondamentaux de l’IA moderne, ils constituent la brique élémentaire qui permet aux machines de manipuler des concepts sémantiques plutôt que de simples chaînes de caractères, et conditionnent à eux seuls la qualité des moteurs de recherche neuronaux, des systèmes de recommandation, des architectures RAG et de la totalité des grands modèles de langage (LLM) contemporains.

Définition technique : qu’est-ce qu’un embedding ?

Un embedding est, mathématiquement, un vecteur de nombres réels — typiquement compris entre 128 et 4 096 dimensions selon les modèles — produit par un réseau de neurones entraîné à capturer le sens d’une entité. Concrètement, le mot « guitare » ne sera pas représenté dans la mémoire d’un LLM par la chaîne de huit caractères « guitare », mais par une longue liste de chiffres décimaux du type [0.0231, -0.4517, 0.8829, ..., 0.1184]. Cette liste constitue les coordonnées du concept « guitare » dans un espace abstrait que l’on appelle espace latent ou espace de plongement.

La propriété fondamentale de cet espace est la suivante : deux entités sémantiquement proches occupent des positions géométriquement voisines. Les vecteurs des mots « guitare » et « basse » seront ainsi extrêmement proches l’un de l’autre, tandis que le vecteur de « tournevis » se situera dans une région éloignée. Cette spatialisation du sens permet aux machines de raisonner en termes de similarité sémantique, et non plus uniquement en termes de correspondance lexicale exacte.

Comment fonctionne un embedding ?

1. Le calcul des coordonnées sémantiques

Un modèle d’embedding (par exemple text-embedding-3-large d’OpenAI, Cohere Embed v3, Voyage AI ou les modèles open source BGE et E5) est un réseau de neurones entraîné sur des milliards de phrases extraites du web. Au cours de cet entraînement auto-supervisé, le réseau apprend à placer chaque token dans l’espace de manière à ce que les contextes d’apparition similaires se traduisent par des coordonnées proches. Le célèbre exemple historique vecteur("roi") - vecteur("homme") + vecteur("femme") ≈ vecteur("reine"), issu du modèle Word2Vec publié par Google en 2013, illustre la capacité de ces espaces à encoder des relations conceptuelles sous forme d’opérations vectorielles.

2. La mesure de similarité

Une fois deux entités projetées sous forme de vecteurs, leur proximité sémantique se calcule à l’aide d’une fonction mathématique. Trois métriques dominent le paysage :

  • Similarité cosinus : mesure l’angle entre deux vecteurs (valeur entre -1 et 1). C’est le standard de facto pour les embeddings textuels, car elle ignore la magnitude des vecteurs pour ne conserver que leur orientation sémantique.
  • Distance euclidienne : calcul de la distance en ligne droite entre deux points dans l’espace. Très utilisée en vision par ordinateur.
  • Produit scalaire (dot product) : combine angle et magnitude. Plus rapide à calculer, il est massivement utilisé dans les bases vectorielles à grande échelle.

3. Le stockage : les bases vectorielles

Manipuler des millions de vecteurs de 1 536 ou 3 072 dimensions exige une infrastructure dédiée. C’est le rôle des bases de données vectorielles (vector databases) comme Pinecone, Weaviate, Qdrant, Milvus, Chroma ou encore l’extension pgvector pour PostgreSQL. Ces moteurs implémentent des algorithmes d’Approximate Nearest Neighbor (ANN), notamment HNSW (Hierarchical Navigable Small World) ou IVF (Inverted File Index), permettant d’effectuer des recherches de similarité en quelques millisecondes sur des corpus de plusieurs milliards d’entrées.

Les grandes familles d’embeddings

Embeddings textuels

Historiquement initiés par Word2Vec (Mikolov et al., 2013) et GloVe (Stanford, 2014), les embeddings textuels ont franchi un cap décisif avec l’avènement des architectures Transformer et de modèles comme BERT (Google, 2018), qui ont introduit la notion d’embedding contextuel : le mot « avocat » n’est plus représenté par un vecteur unique, mais par un vecteur différent selon qu’il désigne le fruit ou le professionnel du droit.

Embeddings visuels

Des modèles comme CLIP (OpenAI, 2021) ou SigLIP (Google, 2023) génèrent des embeddings d’images dans un espace partagé avec les embeddings textuels, autorisant la recherche par texte dans une photothèque ou inversement. C’est ce qui permet aujourd’hui à un utilisateur de taper « coucher de soleil sur la mer » dans Apple Photos et de récupérer instantanément les clichés correspondants, sans qu’aucune balise descriptive n’ait été saisie manuellement.

Embeddings audio

Des architectures comme Wav2Vec 2.0 (Meta) ou Whisper (OpenAI) produisent des embeddings sonores utilisés pour la transcription, la séparation de sources, l’identification d’instruments ou la recherche musicale par similarité de timbre.

Applications concrètes en 2026

  • Architectures RAG (Retrieval-Augmented Generation) : tout système qui « fait parler » un LLM avec vos documents internes repose sur une étape préalable d’embedding des contenus, puis de récupération des extraits les plus proches sémantiquement de la question posée.
  • Recherche sémantique : Google, Algolia, Elastic Search ou Meilisearch intègrent désormais nativement des couches vectorielles pour comprendre l’intention de l’utilisateur au-delà des mots-clés exacts.
  • Systèmes de recommandation : Spotify, Netflix et YouTube projettent utilisateurs et contenus dans un espace commun pour suggérer des œuvres dont le vecteur est proche du profil de goût de l’auditeur ou du spectateur.
  • Détection de doublons et clustering : regrouper automatiquement des articles similaires, identifier des fraudes ou des contenus dupliqués sur un site e-commerce.
  • Classification zéro-shot : catégoriser un texte sans entraîner de modèle dédié, simplement en comparant son embedding à ceux d’étiquettes de référence.

Limites et défis actuels

Malgré leur puissance, les embeddings présentent plusieurs limites structurelles. Leur opacité est notable : il est impossible de savoir, en regardant un vecteur de 3 072 dimensions, pourquoi le modèle considère deux phrases comme proches. Les biais présents dans les données d’entraînement se retrouvent encodés dans l’espace latent, avec des conséquences éthiques bien documentées. Enfin, le coût de stockage et le temps de réindexation deviennent significatifs à grande échelle : changer de modèle d’embedding impose de recalculer l’intégralité de la base, ce qui peut représenter plusieurs jours de calcul GPU pour les corpus volumineux.

L’année 2025 a vu émerger une nouvelle génération d’embeddings dits Matryoshka (popularisés par OpenAI et Nomic AI), qui permettent de tronquer dynamiquement le vecteur à la dimension souhaitée sans perte significative de qualité, ouvrant la voie à un compromis ajustable entre précision et coût de stockage. C’est désormais le standard adopté par la plupart des nouveaux modèles d’embedding commerciaux et open source.

Conclusion

Discrets car invisibles à l’œil nu, les embeddings constituent pourtant la couche d’abstraction qui rend possible l’ensemble de la révolution de l’IA générative actuelle. Comprendre ce qu’ils sont, comment ils se calculent et comment on les interroge n’est plus une option pour qui souhaite concevoir un produit numérique en 2026 : du moteur de recherche interne d’un site WordPress à la création d’un agent conversationnel branché sur la documentation d’une entreprise, le vecteur sémantique est devenu la véritable lingua franca des machines.