Se connecter

Ce qu'il fait

Le plugin Crawlbase Codex encapsule Crawlbase MCP en tant que plugin natif Codex. Une fois installé, vous pouvez demander à Codex de crawler une page, d'en extraire le contenu ou d'en capturer une copie d'écran en langage naturel : Codex sélectionne le bon outil, appelle Crawlbase et retourne le résultat.

Propulsé par l'infrastructure Crawlbase : rendu JavaScript, rotation automatique des proxys et contournement anti-bot intégré. La même fiabilité que vous utilisez en production, avec une interface conversationnelle dans Codex.

Source

Le plugin est open source : github.com/crawlbase/crawlbase-codex-plugin. Issues et PRs bienvenues.

Prérequis

Vous avez besoin d'un compte Crawlbase et de deux tokens API :

CRAWLBASE_TOKEN
required
Normal token : utilisé pour les pages statiques.
CRAWLBASE_JS_TOKEN
required
JavaScript token : utilisé pour les pages rendues en JS et toutes les captures d'écran.

Récupérez les deux depuis votre dashboard. Voir Authentification pour la différence.

Installer depuis le Codex Marketplace

  1. Ouvrez Codex et allez dans Plugins → Browse Marketplace.
  2. Recherchez Crawlbase Web Scraper.
  3. Cliquez sur Install.
  4. Ajoutez vos CRAWLBASE_TOKEN et CRAWLBASE_JS_TOKEN lorsque demandé.
Référencement Marketplace bientôt disponible

Le référencement sur le marketplace est encore en cours d'examen. Utilisez l'installation manuelle ci-dessous en attendant.

Installation manuelle

Clonez dans votre répertoire de plugins Codex et définissez les variables d'environnement :

# Clone the plugin into Codex's plugins directory
git clone https://github.com/crawlbase/crawlbase-codex-plugin \
  ~/.codex/plugins/crawlbase-mcp

# Set your tokens
export CRAWLBASE_TOKEN=YOUR_TOKEN
export CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN

# Restart Codex - the plugin auto-discovers

Utilisation

Une fois installé, demandez à Codex naturellement. Il choisira le bon outil et appellera Crawlbase en coulisses.

# Crawling
"Crawl https://example.com and return the HTML"
"Get the markdown content of https://example.com/article"
"Take a screenshot of https://example.com"

# Device emulation
"Fetch the page at https://example.com using a mobile browser"
"Take a full-page screenshot of https://example.com and describe what you see"

Outils exposés

Le plugin enregistre trois outils de crawl et six outils de stockage.

Outils de crawl

crawl
outil
Récupère n'importe quelle URL et renvoie le HTML brut. Accepte store: true pour envoyer la page vers Cloud Storage au lieu de la renvoyer en ligne.
crawl_markdown
outil
Crawle une URL et retourne du Markdown propre : contenu extrait du bruit HTML, optimisé pour la consommation par LLM. Prend en charge store: true.
crawl_screenshot
outil
Rend l'URL au format PNG. La capture d'écran est retournée de manière éphémère via screenshot_url : le HTML sous-jacent peut être persisté avec store: true, mais l'image elle-même n'est pas stockée.

Outils de stockage

storage_get
outil
Récupère une page stockée par rid ou url. Passez as: "json", "html" ou "markdown" pour choisir la forme de la réponse.
storage_bulk_get
outil
Récupère jusqu'à 100 RIDs en un seul appel. Drapeau optionnel delete_after pour les pipelines fire-and-forget.
storage_list
outil
Énumère les RIDs stockés avec une pagination par défilement, jusqu'à 1 000 par appel.
storage_count
outil
Nombre total de documents dans votre silo de stockage.
storage_delete
outil
Supprime une seule page stockée par RID.
storage_bulk_delete
outil
Supprime jusqu'à 100 RIDs en un seul appel.

Exemples d'utilisation du stockage

"Crawl https://example.com and store it in Crawlbase Cloud Storage"
"List all stored pages in Crawlbase"
"Fetch rid abc123 from storage as markdown"
"Bulk-retrieve these 50 rids and delete them afterward"
"How many pages do I have in Crawlbase storage?"

Silos de stockage par token

Le stockage est partitionné par token. Les pages crawlées avec CRAWLBASE_TOKEN résident dans un silo distinct des pages crawlées avec CRAWLBASE_JS_TOKEN (qui couvre les pages rendues en JS et toutes les captures d'écran).

Chaque réponse de crawl inclut un champ token_type : "normal" ou "js", qui indique dans quel silo le résultat a été enregistré. Lors de l'appel à n'importe quel outil de stockage, passez use_js_token: true si l'élément se trouve dans le silo JS. Sinon, omettez-le.

Interroger le mauvais silo renvoie « Not found »

Si storage_get renvoie une erreur not-found pour un RID dont vous savez qu'il existe, vous interrogez probablement le mauvais silo. Réessayez avec use_js_token: true (ou supprimez-le si vous l'aviez défini).