Serveur MCP
Exposez chaque outil Crawlbase aux assistants AI via le Model Context Protocol. Une seule installation et votre AI peut crawler, scraper, prendre des captures d'écran et chercher sur le web avec la même fiabilité que vous utilisez en production.
Qu'est-ce que MCP ?
Le Model Context Protocol est un standard ouvert pour connecter les assistants AI à des outils externes. Le serveur MCP Crawlbase parle MCP, donc tout client compatible - Claude Desktop, Cursor, Zed, Continue, l'OpenAI Agents SDK - peut utiliser Crawlbase comme une capacité native.
Résultat : votre AI peut récupérer une page, parser un produit, prendre une capture d'écran ou chercher sur le web pendant une conversation. Pas de code de liaison, pas de copier-coller entre fenêtres, pas de serveur proxy.
Le serveur MCP est une fine couche au-dessus des mêmes APIs documentées dans AI & MCP. Votre token, vos limites de concurrence, votre utilisation. La seule chose qui change, c'est qui appelle : votre code, ou votre AI.
Installation
Le serveur s'exécute comme un petit processus Node. La plupart des clients le lancent à la demande via npx : aucune installation globale requise.
# No install - let your client launch it
npx @crawlbase/mcp@latest# Or install globally if you prefer
npm install -g @crawlbase/mcp
crawlbase-mcpdocker run -i --rm \
-e CRAWLBASE_TOKEN=YOUR_TOKEN \
-e CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN \
crawlbase/mcpSource sur GitHub. Nécessite Node 18+ si exécuté directement.
Configurez votre client
Chaque client MCP utilise la même forme de configuration : nom du serveur, commande à exécuter, variables d'environnement. Ajoutez ceci dans le fichier de configuration de votre client.
{
"mcpServers": {
"crawlbase": {
"type": "stdio",
"command": "npx",
"args": ["@crawlbase/mcp@latest"],
"env": {
"CRAWLBASE_TOKEN": "YOUR_TOKEN",
"CRAWLBASE_JS_TOKEN": "YOUR_JS_TOKEN"
}
}
}
}Guides de configuration par client :
- Claude Desktop & Claude Code - la configuration va dans
claude_desktop_config.json/claude.json - Cursor - Settings → Tools and Integrations → Add Custom MCP
- VS Code & Windsurf - via Continue, Cline ou le support MCP intégré de Windsurf
- Plugin Codex - encapsule ce serveur comme un plugin Codex natif
Outils exposés
Le serveur enregistre trois outils de crawl et six outils de stockage. Votre AI voit chacun comme une fonction appelable.
Outils de crawl
store: true pour pousser les résultats vers Cloud Storage.store: true pour persister la page HTML sous-jacente dans Cloud Storage (l'image de la capture d'écran elle-même n'est pas stockée : seul le HTML rendu l'est).Outils de stockage
Six outils pour récupérer et gérer les pages stockées via store: true :
rid ou url. Choisissez la forme de réponse avec as: "json" | "html" | "markdown".as: "metadata_only" (par défaut) pour garder le contexte léger : renvoie uniquement RID/URL/timestamps, ou as: "json" | "html" | "markdown" pour inclure les corps. auto_delete: true optionnel pour les pipelines fire-and-forget qui vident le silo au fil de la lecture.Le stockage est partitionné par token. Les pages crawlées avec CRAWLBASE_TOKEN vivent dans un silo différent de celles crawlées avec CRAWLBASE_JS_TOKEN. Le champ token_type dans les réponses de crawl ("normal" ou "js") vous indique lequel. Passez use_js_token: true aux outils de stockage lorsque vous récupérez des éléments du silo JS.
Exemple de session
Une fois configurés, votre AI appelle ces outils naturellement durant la conversation. Un tour typique ressemble à :
# You
What's the current price of "Web Scraping with Python" (3rd ed.) on Amazon US, UK, and DE?
# AI (calls crawl_markdown three times in parallel)
tool_use: crawl_markdown(
url="https://www.amazon.com/dp/1098145356"
)
tool_use: crawl_markdown(
url="https://www.amazon.co.uk/dp/1098145356"
)
tool_use: crawl_markdown(
url="https://www.amazon.de/dp/1098145356"
)
# AI
"Web Scraping with Python" (3rd ed.) prices right now:
- US: $59.99 (in stock)
- UK: £52.99 (in stock)
- DE: €57.99 (in stock)
The US price is the lowest after currency conversion (~£47).Variables d'environnement
crawl, crawl_markdown et les outils de stockage.crawl_screenshot et tout appel d'outil qui nécessite un rendu JS (SPAs, pages rendues côté client).error, warn, info, debug. Les logs vont sur stderr pour ne pas interférer avec le stdio MCP.Notes de sécurité
- Les tokens ne quittent jamais le processus serveur. Le client MCP voit les définitions d'outils et les résultats, pas vos credentials.
- Le modèle peut demander n'importe quelle URL. Si vous craignez une prompt injection qui déclencherait des requêtes sortantes, exécutez avec
CRAWLBASE_ALLOWED_DOMAINSdéfini sur une liste d'autorisation. - Exécutez localement. Le serveur est conçu pour un transport stdio local. Ne l'exposez pas sur le réseau sans une couche d'authentification.