Glossaire de l'intelligence artificielle

Définitions claires et accessibles des termes clés de l'IA. Que vous soyez débutant ou praticien, ce glossaire vous aide à comprendre les concepts essentiels.

Agent IA

Système d'IA autonome capable d'exécuter des tâches complexes en décomposant un objectif en sous-tâches et en utilisant des outils externes.

Un agent IA va au-delà du simple chatbot. Il peut naviguer sur le web, exécuter du code, interagir avec des API et prendre des décisions intermédiaires pour atteindre un objectif défini par l'utilisateur. Les agents IA représentent une évolution majeure vers l'automatisation intelligente des workflows professionnels.

AGI (Artificial General Intelligence)

Intelligence artificielle hypothétique capable de comprendre, apprendre et appliquer des connaissances dans n'importe quel domaine, au même niveau qu'un humain.

L'AGI reste un objectif théorique en 2026. Les modèles actuels (GPT-5, Claude Opus) sont des IA « étroites » : très performantes sur certaines tâches mais incapables de généraliser comme un humain. L'AGI impliquerait un raisonnement autonome, une compréhension du monde physique et une capacité d'adaptation à des situations inédites sans entraînement spécifique.

API (Application Programming Interface)

Interface permettant à deux logiciels de communiquer entre eux. Dans le contexte de l'IA, les API permettent d'intégrer des modèles d'IA dans ses propres applications.

Les API des fournisseurs d'IA comme OpenAI, Anthropic ou Google permettent aux développeurs d'utiliser des modèles de langage dans leurs applications. Le pricing est généralement basé sur le nombre de tokens traités. C'est le moyen le plus flexible d'intégrer l'IA dans un produit existant.

Chatbot

Programme informatique qui simule une conversation humaine par texte ou voix, utilisant de plus en plus l'IA générative pour des réponses naturelles.

Les chatbots ont évolué des systèmes à règles fixes vers des assistants IA sophistiqués basés sur des LLM. En 2026, les chatbots IA comme ChatGPT, Claude et Gemini comprennent le contexte, raisonnent et génèrent des réponses nuancées. Les chatbots d'entreprise (Chatbase, Botpress) sont entraînés sur des données spécifiques pour répondre aux questions des clients avec précision.

Computer Vision

Domaine de l'IA qui permet aux machines d'interpréter et de comprendre le contenu d'images et de vidéos.

La computer vision est utilisée pour la reconnaissance faciale, la détection d'objets, l'analyse de documents scannés, le contrôle qualité industriel et la conduite autonome. Les modèles multimodaux comme GPT-4 Vision et Gemini intègrent désormais la computer vision directement, permettant d'analyser des images via un simple prompt textuel.

Diffusion (modèle de)

Architecture de modèle génératif utilisée pour la création d'images et de vidéos à partir de bruit aléatoire, en le raffinant progressivement.

Les modèles de diffusion comme Stable Diffusion et DALL-E fonctionnent en apprenant à retirer du bruit d'une image. À la génération, ils partent d'une image de bruit pur et la raffinent étape par étape pour produire une image cohérente. Cette approche produit des résultats de haute qualité et permet un contrôle fin du processus de génération.

Embedding

Représentation numérique d'un texte, d'une image ou d'un son sous forme de vecteur, permettant aux machines de comprendre la similarité sémantique entre les contenus.

Les embeddings transforment du contenu (texte, image, audio) en vecteurs de nombres. Deux textes qui parlent du même sujet auront des embeddings proches dans l'espace vectoriel. C'est la base technique de la recherche sémantique, des systèmes de recommandation et du RAG.

Fenêtre de contexte

Quantité maximale de texte (mesurée en tokens) qu'un modèle de langage peut traiter en une seule requête, incluant l'entrée et la sortie.

La fenêtre de contexte détermine combien d'informations un modèle peut « voir » en même temps. En 2026, les fenêtres vont de 128K tokens (GPT-4 Turbo) à plus d'un million de tokens (Claude Opus 4.6, Gemini 1.5). Une grande fenêtre permet d'analyser un document entier, un livre ou une base de code en une seule requête. C'est un critère clé pour choisir un modèle pour l'analyse documentaire.

Fine-tuning

Processus d'ajustement d'un modèle d'IA pré-entraîné sur un jeu de données spécifique pour l'adapter à une tâche ou un domaine particulier.

Le fine-tuning prend un modèle de base (comme GPT-4 ou Llama) et le ré-entraîne sur des exemples spécifiques à votre cas d'usage. Par exemple, une entreprise peut fine-tuner un modèle sur ses propres FAQ pour obtenir un assistant plus précis sur ses produits. C'est plus coûteux que le prompt engineering mais produit des résultats plus consistants.

GEO (Generative Engine Optimization)

Optimisation du contenu web pour apparaître dans les réponses des moteurs de recherche IA génératifs comme ChatGPT Search, Google AI Overviews et Perplexity.

Le GEO est une discipline émergente qui complète le SEO traditionnel. Les moteurs IA génératifs citent des sources dans leurs réponses, et le GEO vise à maximiser les chances d'être cité. Les principes clés : contenu factuel et sourcé, structure claire avec des réponses directes, expertise démontrée (E-E-A-T) et fraîcheur des informations. En 2026, une part croissante du trafic web passe par ces moteurs IA.

GPT (Generative Pre-trained Transformer)

Famille de modèles de langage développés par OpenAI, basés sur l'architecture Transformer. GPT-5.4 est le modèle le plus récent en 2026.

GPT est devenu un terme générique pour désigner les modèles de langage, bien qu'il soit spécifique à OpenAI. La série a évolué de GPT-1 (2018, 117M paramètres) à GPT-5.4 (2026, architecture non publiée). Chaque génération a apporté des améliorations significatives en raisonnement, multimodalité et capacité de contexte. Les concurrents principaux sont Claude (Anthropic), Gemini (Google) et Llama (Meta).

Hallucination

Phénomène où un modèle d'IA génère une information fausse ou inventée avec un degré de confiance élevé, comme si elle était factuelle.

Les hallucinations sont un défi majeur des LLM. Le modèle génère du texte statistiquement probable, mais pas nécessairement vrai. Les techniques comme le RAG (ajout de sources externes) et le grounding (ancrage dans des données vérifiées) permettent de réduire significativement les hallucinations.

IA Générative

Branche de l'intelligence artificielle spécialisée dans la création de contenu original : texte, images, musique, vidéo et code.

L'IA générative utilise des modèles entraînés sur de vastes ensembles de données pour produire du contenu nouveau. Contrairement à l'IA analytique (qui classe ou prédit), l'IA générative crée. Les exemples incluent ChatGPT (texte), Midjourney (images), Suno (musique), Sora (vidéo) et GitHub Copilot (code). C'est le moteur principal de la révolution IA depuis 2022.

Inference

Processus par lequel un modèle d'IA entraîné génère une prédiction ou une réponse à partir d'une nouvelle entrée. C'est le « moment » où l'IA travaille pour vous.

L'inférence est distincte de l'entraînement. L'entraînement est le processus (coûteux et long) d'apprentissage du modèle. L'inférence est son utilisation au quotidien. Quand vous posez une question à ChatGPT, le serveur effectue une inférence. Le coût d'inférence est facturé en tokens par les fournisseurs d'API. L'optimisation de l'inférence (vitesse, coût) est un enjeu technique majeur.

LLM (Large Language Model)

Modèle de langage de grande taille entraîné sur des quantités massives de texte, capable de comprendre et générer du langage naturel.

Les LLM comme GPT-4, Claude et Llama sont entraînés sur des milliards de documents. Ils apprennent les patterns statistiques du langage, ce qui leur permet de générer du texte cohérent, de répondre à des questions, de traduire, de coder et de raisonner. La taille du modèle (nombre de paramètres) influence ses capacités, mais l'architecture et les données d'entraînement sont tout aussi importants.

MCP (Model Context Protocol)

Protocole ouvert développé par Anthropic qui permet aux modèles d'IA de se connecter à des outils et services externes de manière standardisée.

Le MCP fonctionne comme un « USB-C pour l'IA » : une interface universelle pour connecter un LLM à des bases de données, des API, des fichiers et des services tiers. Au lieu de construire une intégration custom pour chaque outil, le MCP fournit un protocole standard. En 2026, MCP est supporté par Claude, Cursor, Windsurf et de nombreux IDE. C'est devenu la référence pour l'interopérabilité entre IA et outils.

Multimodal

Qualifie un modèle d'IA capable de traiter et de générer plusieurs types de données : texte, images, audio, vidéo.

Un modèle multimodal peut par exemple analyser une image et en faire une description textuelle, ou générer une image à partir d'un texte. GPT-4o et Gemini sont des exemples de modèles multimodaux. Cette capacité ouvre des cas d'usage puissants comme l'analyse de documents scannés, la génération de visuels à partir de briefings textuels, ou la transcription et l'analyse de contenu audio.

NLP (Natural Language Processing)

Domaine de l'IA qui traite de l'interaction entre les ordinateurs et le langage humain : compréhension, analyse et génération de texte.

Le NLP englobe la classification de textes, l'analyse de sentiment, la traduction automatique, l'extraction d'entités, le résumé et la génération de texte. Les LLM modernes sont une avancée majeure du NLP : au lieu de règles explicites, ils apprennent les patterns linguistiques à partir de données. En SEO, le NLP est utilisé pour l'analyse sémantique des contenus et l'optimisation des requêtes.

Open Source

Modèle de développement logiciel où le code source est publiquement accessible, modifiable et redistribuable. En IA, désigne les modèles dont les poids sont téléchargeables.

Les modèles IA open source comme Llama (Meta), Mistral et Stable Diffusion peuvent être téléchargés, exécutés localement et modifiés. Les avantages : contrôle total des données (RGPD), pas de coûts d'API, personnalisation illimitée. Les inconvénients : nécessite une infrastructure (GPU), pas de support officiel, et les performances restent inférieures aux modèles propriétaires sur les tâches les plus complexes.

Prompt Engineering

Discipline consistant à formuler des instructions (prompts) de manière optimale pour obtenir les meilleurs résultats d'un modèle d'IA.

Le prompt engineering est autant un art qu'une science. Les techniques incluent le zero-shot (instruction directe), le few-shot (exemples dans le prompt), le chain-of-thought (raisonnement étape par étape), et le role prompting (attribution d'un rôle au modèle). Un bon prompt peut transformer un résultat médiocre en résultat professionnel sans changer de modèle.

RAG (Retrieval-Augmented Generation)

Technique qui combine la recherche d'information dans une base de données avec la génération de texte par un LLM pour produire des réponses plus précises et sourcées.

Le RAG résout le problème des hallucinations en fournissant au LLM des documents pertinents avant qu'il génère sa réponse. Le processus se déroule en trois étapes : 1) la question est convertie en embedding, 2) les documents les plus pertinents sont retrouvés dans une base vectorielle, 3) le LLM génère une réponse en s'appuyant sur ces documents. C'est la technique de référence pour construire des chatbots d'entreprise fiables.

Stable Diffusion

Modèle de génération d'images open source basé sur l'architecture de diffusion, permettant de créer des images à partir de descriptions textuelles.

Stable Diffusion se distingue des alternatives comme DALL-E et Midjourney par son caractère open source. N'importe qui peut télécharger le modèle, le modifier et l'exécuter localement. Cela a donné naissance à un écosystème riche de modèles personnalisés, d'interfaces utilisateur communautaires et de techniques d'optimisation. C'est le choix privilégié des développeurs et des utilisateurs qui veulent un contrôle total.

Token

Unité de base utilisée par les modèles de langage pour découper et traiter le texte. Un token peut représenter un mot, une partie de mot ou un caractère de ponctuation.

Les tokens sont la monnaie des LLM. En français, un mot correspond en moyenne à 1.3 tokens. Les API facturent généralement au nombre de tokens traités (en entrée et en sortie). Comprendre le tokenization est important pour optimiser les coûts et respecter les limites de contexte des modèles. Un contexte de 128k tokens représente environ 96 000 mots, soit un roman complet.

Transformer

Architecture de réseau de neurones introduite en 2017 qui est à la base de la quasi-totalité des modèles de langage modernes, dont GPT, Claude et Llama.

L'architecture Transformer repose sur un mécanisme d'attention qui permet au modèle de pondérer l'importance de chaque mot par rapport aux autres dans une phrase. Cette innovation a rendu possible le traitement parallèle de longues séquences de texte, contrairement aux architectures précédentes (RNN, LSTM) qui traitaient les mots séquentiellement. C'est le fondement technique de la révolution IA actuelle.

Vibe Coding

Approche de développement logiciel où le développeur décrit en langage naturel ce qu'il veut construire, et l'IA génère le code correspondant.

Le terme « vibe coding » a été popularisé en 2025 pour décrire une nouvelle façon de programmer : au lieu d'écrire du code ligne par ligne, le développeur guide l'IA par des descriptions, des corrections et des itérations. Les outils comme Cursor, Bolt.new, Lovable et Claude Code incarnent cette approche. Le vibe coding permet aux non-développeurs de créer des applications et aux développeurs de travailler 5-10x plus vite sur certaines tâches.

Zero-shot / Few-shot

Capacité d'un modèle à réaliser une tâche sans exemple (zero-shot) ou avec seulement quelques exemples (few-shot) dans le prompt.

Le zero-shot consiste à demander au modèle d'effectuer une tâche uniquement avec une instruction, sans lui fournir d'exemple. Le few-shot ajoute quelques exemples dans le prompt pour guider le modèle. Par exemple, pour classifier des avis clients, le zero-shot serait 'Classe cet avis comme positif ou négatif', tandis que le few-shot fournirait 2-3 exemples classifiés avant la demande. Le few-shot améliore généralement la précision, surtout pour les tâches spécifiques.