Scraper un site web pour alimenter un LLM ou un RAG en 2026

Comment crawler un site web entier et extraire son contenu en texte propre pour alimenter un modèle IA, un système RAG ou une base vectorielle ? Méthode Apify.

13 avril 2026
7 min de lecture

Crawler un site web pour LLM avec Apify

Scraper un site web pour alimenter un LLM ou un RAG en 2026

Réponse directe : pour crawler un site web entier et récupérer son contenu en texte propre, utilisable pour un RAG, une base vectorielle ou du fine-tuning de LLM, utilisez le Website Content Crawler d'Apify (noté 4.4/5, 116K utilisateurs). Il extrait le texte principal en Markdown (sans menu, footer, ads), respecte robots.txt et supporte les SPA JavaScript. Comptez environ 2 USD pour 1000 pages.

Pourquoi un crawler dédié aux LLM

Les crawlers génériques (Scrapy, Puppeteer maison) extraient du HTML brut qu'il faut ensuite nettoyer. Le Website Content Crawler d'Apify est spécifiquement conçu pour produire un output "LLM-ready" : texte principal en Markdown, métadonnées structurées, liens dédupliqués, gestion native des SPAs (React, Vue, Next.js).

C'est la solution privilégiée pour construire un RAG sur la documentation d'un produit, alimenter une base vectorielle (Pinecone, Qdrant, Supabase pgvector) ou constituer un dataset d'entraînement sur un domaine vertical.

Ce que l'actor produit

Pour chaque page crawlée, le dataset contient : URL canonique, titre H1, meta description, contenu principal en Markdown propre, liste des liens internes et externes, langue détectée, date de dernière modification, hash du contenu (utile pour l'incrémental).

Étape 1 : crawler la documentation d'un produit

Sur Apify, ouvrez Website Content Crawler. Entrez l'URL de départ (exemple : https://docs.anthropic.com). Configurez "Max pages" à 500, "Max depth" à 4. Activez "Remove cookies and popups" et "Save HTML as Markdown". Lancez.

Pour 500 pages, comptez 15 minutes et environ 1 USD.

Étape 2 : alimenter une base vectorielle

Récupérez le dataset via l'API Apify, chunkez chaque page en segments de 500-1000 tokens, générez les embeddings (OpenAI text-embedding-3-small ou Voyage AI), stockez dans Supabase pgvector ou Pinecone. Vous avez une base RAG opérationnelle en moins d'une heure.

Étape 3 : maintenance incrémentale

Le hash de contenu permet de ne re-embedder que les pages qui ont changé lors des runs suivants. Schedulez un crawl hebdomadaire pour garder votre RAG à jour sans coût excessif.

Cas d'usage

Chatbot qui répond à partir d'une documentation produit, assistant commercial qui connaît l'intégralité du site concurrent, outil interne de Q&A sur la base de connaissance d'une entreprise, fine-tuning d'un modèle sur un secteur vertical.

Website Content Crawler d'Apify est la brique de base de tout projet RAG sérieux en 2026. Testez gratuitement. Voir fiche Apify et tarifs.

Vous voulez aller plus loin ?

Découvrez la formation LE LABO IA pour maîtriser les outils d'intelligence artificielle et transformer votre activité.

Découvrir le programme