Glossaire de l'intelligence artificielle
Définitions claires et accessibles des termes clés de l'IA. Que vous soyez débutant ou praticien, ce glossaire vous aide à comprendre les concepts essentiels.
Agent IA
Système d'IA autonome capable d'exécuter des tâches complexes en décomposant un objectif en sous-tâches et en utilisant des outils externes.
En savoir plus
Un agent IA va au-delà du simple chatbot. Il peut naviguer sur le web, exécuter du code, interagir avec des API et prendre des décisions intermédiaires pour atteindre un objectif défini par l'utilisateur. Les agents IA représentent une évolution majeure vers l'automatisation intelligente des workflows professionnels.
API (Application Programming Interface)
Interface permettant à deux logiciels de communiquer entre eux. Dans le contexte de l'IA, les API permettent d'intégrer des modèles d'IA dans ses propres applications.
En savoir plus
Les API des fournisseurs d'IA comme OpenAI, Anthropic ou Google permettent aux développeurs d'utiliser des modèles de langage dans leurs applications. Le pricing est généralement basé sur le nombre de tokens traités. C'est le moyen le plus flexible d'intégrer l'IA dans un produit existant.
Diffusion (modèle de)
Architecture de modèle génératif utilisée pour la création d'images et de vidéos à partir de bruit aléatoire, en le raffinant progressivement.
En savoir plus
Les modèles de diffusion comme Stable Diffusion et DALL-E fonctionnent en apprenant à retirer du bruit d'une image. À la génération, ils partent d'une image de bruit pur et la raffinent étape par étape pour produire une image cohérente. Cette approche produit des résultats de haute qualité et permet un contrôle fin du processus de génération.
Embedding
Représentation numérique d'un texte, d'une image ou d'un son sous forme de vecteur, permettant aux machines de comprendre la similarité sémantique entre les contenus.
En savoir plus
Les embeddings transforment du contenu (texte, image, audio) en vecteurs de nombres. Deux textes qui parlent du même sujet auront des embeddings proches dans l'espace vectoriel. C'est la base technique de la recherche sémantique, des systèmes de recommandation et du RAG.
Fine-tuning
Processus d'ajustement d'un modèle d'IA pré-entraîné sur un jeu de données spécifique pour l'adapter à une tâche ou un domaine particulier.
En savoir plus
Le fine-tuning prend un modèle de base (comme GPT-4 ou Llama) et le ré-entraîne sur des exemples spécifiques à votre cas d'usage. Par exemple, une entreprise peut fine-tuner un modèle sur ses propres FAQ pour obtenir un assistant plus précis sur ses produits. C'est plus coûteux que le prompt engineering mais produit des résultats plus consistants.
Hallucination
Phénomène où un modèle d'IA génère une information fausse ou inventée avec un degré de confiance élevé, comme si elle était factuelle.
En savoir plus
Les hallucinations sont un défi majeur des LLM. Le modèle génère du texte statistiquement probable, mais pas nécessairement vrai. Les techniques comme le RAG (ajout de sources externes) et le grounding (ancrage dans des données vérifiées) permettent de réduire significativement les hallucinations.
LLM (Large Language Model)
Modèle de langage de grande taille entraîné sur des quantités massives de texte, capable de comprendre et générer du langage naturel.
En savoir plus
Les LLM comme GPT-4, Claude et Llama sont entraînés sur des milliards de documents. Ils apprennent les patterns statistiques du langage, ce qui leur permet de générer du texte cohérent, de répondre à des questions, de traduire, de coder et de raisonner. La taille du modèle (nombre de paramètres) influence ses capacités, mais l'architecture et les données d'entraînement sont tout aussi importants.
Multimodal
Qualifie un modèle d'IA capable de traiter et de générer plusieurs types de données : texte, images, audio, vidéo.
En savoir plus
Un modèle multimodal peut par exemple analyser une image et en faire une description textuelle, ou générer une image à partir d'un texte. GPT-4o et Gemini sont des exemples de modèles multimodaux. Cette capacité ouvre des cas d'usage puissants comme l'analyse de documents scannés, la génération de visuels à partir de briefings textuels, ou la transcription et l'analyse de contenu audio.
Prompt Engineering
Discipline consistant à formuler des instructions (prompts) de manière optimale pour obtenir les meilleurs résultats d'un modèle d'IA.
En savoir plus
Le prompt engineering est autant un art qu'une science. Les techniques incluent le zero-shot (instruction directe), le few-shot (exemples dans le prompt), le chain-of-thought (raisonnement étape par étape), et le role prompting (attribution d'un rôle au modèle). Un bon prompt peut transformer un résultat médiocre en résultat professionnel sans changer de modèle.
RAG (Retrieval-Augmented Generation)
Technique qui combine la recherche d'information dans une base de données avec la génération de texte par un LLM pour produire des réponses plus précises et sourcées.
En savoir plus
Le RAG résout le problème des hallucinations en fournissant au LLM des documents pertinents avant qu'il génère sa réponse. Le processus se déroule en trois étapes : 1) la question est convertie en embedding, 2) les documents les plus pertinents sont retrouvés dans une base vectorielle, 3) le LLM génère une réponse en s'appuyant sur ces documents. C'est la technique de référence pour construire des chatbots d'entreprise fiables.
Stable Diffusion
Modèle de génération d'images open source basé sur l'architecture de diffusion, permettant de créer des images à partir de descriptions textuelles.
En savoir plus
Stable Diffusion se distingue des alternatives comme DALL-E et Midjourney par son caractère open source. N'importe qui peut télécharger le modèle, le modifier et l'exécuter localement. Cela a donné naissance à un écosystème riche de modèles personnalisés, d'interfaces utilisateur communautaires et de techniques d'optimisation. C'est le choix privilégié des développeurs et des utilisateurs qui veulent un contrôle total.
Token
Unité de base utilisée par les modèles de langage pour découper et traiter le texte. Un token peut représenter un mot, une partie de mot ou un caractère de ponctuation.
En savoir plus
Les tokens sont la monnaie des LLM. En français, un mot correspond en moyenne à 1.3 tokens. Les API facturent généralement au nombre de tokens traités (en entrée et en sortie). Comprendre le tokenization est important pour optimiser les coûts et respecter les limites de contexte des modèles. Un contexte de 128k tokens représente environ 96 000 mots, soit un roman complet.
Transformer
Architecture de réseau de neurones introduite en 2017 qui est à la base de la quasi-totalité des modèles de langage modernes, dont GPT, Claude et Llama.
En savoir plus
L'architecture Transformer repose sur un mécanisme d'attention qui permet au modèle de pondérer l'importance de chaque mot par rapport aux autres dans une phrase. Cette innovation a rendu possible le traitement parallèle de longues séquences de texte, contrairement aux architectures précédentes (RNN, LSTM) qui traitaient les mots séquentiellement. C'est le fondement technique de la révolution IA actuelle.
Zero-shot / Few-shot
Capacité d'un modèle à réaliser une tâche sans exemple (zero-shot) ou avec seulement quelques exemples (few-shot) dans le prompt.
En savoir plus
Le zero-shot consiste à demander au modèle d'effectuer une tâche uniquement avec une instruction, sans lui fournir d'exemple. Le few-shot ajoute quelques exemples dans le prompt pour guider le modèle. Par exemple, pour classifier des avis clients, le zero-shot serait 'Classe cet avis comme positif ou négatif', tandis que le few-shot fournirait 2-3 exemples classifiés avant la demande. Le few-shot améliore généralement la précision, surtout pour les tâches spécifiques.