Scraper un site web pour alimenter un LLM ou un RAG en 2026
Comment crawler un site web entier et extraire son contenu en texte propre pour alimenter un modèle IA, un système RAG ou une base vectorielle ? Méthode Apify.

Scraper un site web pour alimenter un LLM ou un RAG en 2026
Réponse directe : pour crawler un site web entier et récupérer son contenu en texte propre, utilisable pour un RAG, une base vectorielle ou du fine-tuning de LLM, utilisez le Website Content Crawler d'Apify (noté 4.4/5, 116K utilisateurs). Il extrait le texte principal en Markdown (sans menu, footer, ads), respecte robots.txt et supporte les SPA JavaScript. Comptez environ 2 USD pour 1000 pages.
Pourquoi un crawler dédié aux LLM
Les crawlers génériques (Scrapy, Puppeteer maison) extraient du HTML brut qu'il faut ensuite nettoyer. Le Website Content Crawler d'Apify est spécifiquement conçu pour produire un output "LLM-ready" : texte principal en Markdown, métadonnées structurées, liens dédupliqués, gestion native des SPAs (React, Vue, Next.js).
C'est la solution privilégiée pour construire un RAG sur la documentation d'un produit, alimenter une base vectorielle (Pinecone, Qdrant, Supabase pgvector) ou constituer un dataset d'entraînement sur un domaine vertical.
Ce que l'actor produit
Pour chaque page crawlée, le dataset contient : URL canonique, titre H1, meta description, contenu principal en Markdown propre, liste des liens internes et externes, langue détectée, date de dernière modification, hash du contenu (utile pour l'incrémental).
Étape 1 : crawler la documentation d'un produit
Sur Apify, ouvrez Website Content Crawler. Entrez l'URL de départ (exemple : https://docs.anthropic.com). Configurez "Max pages" à 500, "Max depth" à 4. Activez "Remove cookies and popups" et "Save HTML as Markdown". Lancez.
Pour 500 pages, comptez 15 minutes et environ 1 USD.
Étape 2 : alimenter une base vectorielle
Récupérez le dataset via l'API Apify, chunkez chaque page en segments de 500-1000 tokens, générez les embeddings (OpenAI text-embedding-3-small ou Voyage AI), stockez dans Supabase pgvector ou Pinecone. Vous avez une base RAG opérationnelle en moins d'une heure.
Étape 3 : maintenance incrémentale
Le hash de contenu permet de ne re-embedder que les pages qui ont changé lors des runs suivants. Schedulez un crawl hebdomadaire pour garder votre RAG à jour sans coût excessif.
Cas d'usage
Chatbot qui répond à partir d'une documentation produit, assistant commercial qui connaît l'intégralité du site concurrent, outil interne de Q&A sur la base de connaissance d'une entreprise, fine-tuning d'un modèle sur un secteur vertical.
Website Content Crawler d'Apify est la brique de base de tout projet RAG sérieux en 2026. Testez gratuitement. Voir fiche Apify et tarifs.