Se connecter

Qu'est-ce que MCP ?

Le Model Context Protocol est un standard ouvert pour connecter les assistants AI à des outils externes. Le serveur MCP Crawlbase parle MCP, donc tout client compatible - Claude Desktop, Cursor, Zed, Continue, l'OpenAI Agents SDK - peut utiliser Crawlbase comme une capacité native.

Résultat : votre AI peut récupérer une page, parser un produit, prendre une capture d'écran ou chercher sur le web pendant une conversation. Pas de code de liaison, pas de copier-coller entre fenêtres, pas de serveur proxy.

Mêmes APIs, interface conversationnelle

Le serveur MCP est une fine couche au-dessus des mêmes APIs documentées dans AI & MCP. Votre token, vos limites de concurrence, votre utilisation. La seule chose qui change, c'est qui appelle : votre code, ou votre AI.

Installation

Le serveur s'exécute comme un petit processus Node. La plupart des clients le lancent à la demande via npx : aucune installation globale requise.

# No install - let your client launch it
npx @crawlbase/mcp@latest
# Or install globally if you prefer
npm install -g @crawlbase/mcp
crawlbase-mcp
docker run -i --rm \
  -e CRAWLBASE_TOKEN=YOUR_TOKEN \
  -e CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN \
  crawlbase/mcp

Source sur GitHub. Nécessite Node 18+ si exécuté directement.

Configurez votre client

Chaque client MCP utilise la même forme de configuration : nom du serveur, commande à exécuter, variables d'environnement. Ajoutez ceci dans le fichier de configuration de votre client.

{
  "mcpServers": {
    "crawlbase": {
      "type": "stdio",
      "command": "npx",
      "args": ["@crawlbase/mcp@latest"],
      "env": {
        "CRAWLBASE_TOKEN": "YOUR_TOKEN",
        "CRAWLBASE_JS_TOKEN": "YOUR_JS_TOKEN"
      }
    }
  }
}

Guides de configuration par client :

  • Claude Desktop & Claude Code - la configuration va dans claude_desktop_config.json / claude.json
  • Cursor - Settings → Tools and Integrations → Add Custom MCP
  • VS Code & Windsurf - via Continue, Cline ou le support MCP intégré de Windsurf
  • Plugin Codex - encapsule ce serveur comme un plugin Codex natif

Outils exposés

Le serveur enregistre trois outils de crawl et six outils de stockage. Votre AI voit chacun comme une fonction appelable.

Outils de crawl

crawl
outil
Récupère n'importe quelle URL et renvoie le HTML brut. Correspond à la Crawling API. Accepte store: true pour pousser les résultats vers Cloud Storage.
crawl_markdown
outil
Crawle une URL et renvoie du Markdown propre : contenu extrait du HTML, optimisé pour la consommation par les LLM.
crawl_screenshot
outil
Rend l'URL en PNG. Renvoyé comme contenu image que le modèle peut voir directement. Accepte store: true pour persister la page HTML sous-jacente dans Cloud Storage (l'image de la capture d'écran elle-même n'est pas stockée : seul le HTML rendu l'est).

Outils de stockage

Six outils pour récupérer et gérer les pages stockées via store: true :

storage_get
outil
Récupère une page stockée par rid ou url. Choisissez la forme de réponse avec as: "json" | "html" | "markdown".
storage_bulk_get
outil
Récupère jusqu'à 100 RIDs en un seul appel. Passez as: "metadata_only" (par défaut) pour garder le contexte léger : renvoie uniquement RID/URL/timestamps, ou as: "json" | "html" | "markdown" pour inclure les corps. auto_delete: true optionnel pour les pipelines fire-and-forget qui vident le silo au fil de la lecture.
storage_list
outil
Énumère les RIDs stockés avec pagination par scroll, jusqu'à 1 000 par appel.
storage_count
outil
Nombre total de documents dans votre silo de stockage.
storage_delete
outil
Supprime une page stockée par RID.
storage_bulk_delete
outil
Supprime jusqu'à 100 pages stockées par RID en un seul appel. Utile pour nettoyer le silo à la fin d'un pipeline.
Silos de stockage par token

Le stockage est partitionné par token. Les pages crawlées avec CRAWLBASE_TOKEN vivent dans un silo différent de celles crawlées avec CRAWLBASE_JS_TOKEN. Le champ token_type dans les réponses de crawl ("normal" ou "js") vous indique lequel. Passez use_js_token: true aux outils de stockage lorsque vous récupérez des éléments du silo JS.

Exemple de session

Une fois configurés, votre AI appelle ces outils naturellement durant la conversation. Un tour typique ressemble à :

# You
What's the current price of "Web Scraping with Python" (3rd ed.) on Amazon US, UK, and DE?

# AI (calls crawl_markdown three times in parallel)
tool_use: crawl_markdown(
  url="https://www.amazon.com/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.co.uk/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.de/dp/1098145356"
)

# AI
"Web Scraping with Python" (3rd ed.) prices right now:
- US: $59.99 (in stock)
- UK: £52.99 (in stock)
- DE: €57.99 (in stock)
The US price is the lowest after currency conversion (~£47).

Variables d'environnement

CRAWLBASE_TOKEN
requis
Votre Normal token. Utilisé par défaut pour les outils crawl, crawl_markdown et les outils de stockage.
CRAWLBASE_JS_TOKEN
recommandé
Votre JavaScript token. Utilisé pour crawl_screenshot et tout appel d'outil qui nécessite un rendu JS (SPAs, pages rendues côté client).
CRAWLBASE_DEFAULT_COUNTRY
optionnel
Pays par défaut pour le géo-routage (code ISO). Les outils peuvent surcharger par appel.
CRAWLBASE_LOG_LEVEL
info
Une valeur parmi error, warn, info, debug. Les logs vont sur stderr pour ne pas interférer avec le stdio MCP.

Notes de sécurité

  • Les tokens ne quittent jamais le processus serveur. Le client MCP voit les définitions d'outils et les résultats, pas vos credentials.
  • Le modèle peut demander n'importe quelle URL. Si vous craignez une prompt injection qui déclencherait des requêtes sortantes, exécutez avec CRAWLBASE_ALLOWED_DOMAINS défini sur une liste d'autorisation.
  • Exécutez localement. Le serveur est conçu pour un transport stdio local. Ne l'exposez pas sur le réseau sans une couche d'authentification.