Utiliser avec OpenAI
Un plugin natif qui intègre Crawlbase MCP dans OpenAI Codex. Crawlez n'importe quelle URL, extrayez du Markdown propre, prenez des captures d'écran et, en option, envoyez les résultats vers Cloud Storage, le tout sans quitter Codex.
Ce qu'il fait
Le plugin Crawlbase Codex encapsule Crawlbase MCP en tant que plugin natif Codex. Une fois installé, vous pouvez demander à Codex de crawler une page, d'en extraire le contenu ou d'en capturer une copie d'écran en langage naturel : Codex sélectionne le bon outil, appelle Crawlbase et retourne le résultat.
Propulsé par l'infrastructure Crawlbase : rendu JavaScript, rotation automatique des proxys et contournement anti-bot intégré. La même fiabilité que vous utilisez en production, avec une interface conversationnelle dans Codex.
Le plugin est open source : github.com/crawlbase/crawlbase-codex-plugin. Issues et PRs bienvenues.
Prérequis
Vous avez besoin d'un compte Crawlbase et de deux tokens API :
Récupérez les deux depuis votre dashboard. Voir Authentification pour la différence.
Installer depuis le Codex Marketplace
- Ouvrez Codex et allez dans Plugins → Browse Marketplace.
- Recherchez Crawlbase Web Scraper.
- Cliquez sur Install.
- Ajoutez vos
CRAWLBASE_TOKENetCRAWLBASE_JS_TOKENlorsque demandé.
Le référencement sur le marketplace est encore en cours d'examen. Utilisez l'installation manuelle ci-dessous en attendant.
Installation manuelle
Clonez dans votre répertoire de plugins Codex et définissez les variables d'environnement :
# Clone the plugin into Codex's plugins directory
git clone https://github.com/crawlbase/crawlbase-codex-plugin \
~/.codex/plugins/crawlbase-mcp
# Set your tokens
export CRAWLBASE_TOKEN=YOUR_TOKEN
export CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN
# Restart Codex - the plugin auto-discoversUtilisation
Une fois installé, demandez à Codex naturellement. Il choisira le bon outil et appellera Crawlbase en coulisses.
# Crawling
"Crawl https://example.com and return the HTML"
"Get the markdown content of https://example.com/article"
"Take a screenshot of https://example.com"
# Device emulation
"Fetch the page at https://example.com using a mobile browser"
"Take a full-page screenshot of https://example.com and describe what you see"Outils exposés
Le plugin enregistre trois outils de crawl et six outils de stockage.
Outils de crawl
store: true pour envoyer la page vers Cloud Storage au lieu de la renvoyer en ligne.store: true.screenshot_url : le HTML sous-jacent peut être persisté avec store: true, mais l'image elle-même n'est pas stockée.Outils de stockage
rid ou url. Passez as: "json", "html" ou "markdown" pour choisir la forme de la réponse.delete_after pour les pipelines fire-and-forget.Exemples d'utilisation du stockage
"Crawl https://example.com and store it in Crawlbase Cloud Storage"
"List all stored pages in Crawlbase"
"Fetch rid abc123 from storage as markdown"
"Bulk-retrieve these 50 rids and delete them afterward"
"How many pages do I have in Crawlbase storage?"Silos de stockage par token
Le stockage est partitionné par token. Les pages crawlées avec CRAWLBASE_TOKEN résident dans un silo distinct des pages crawlées avec CRAWLBASE_JS_TOKEN (qui couvre les pages rendues en JS et toutes les captures d'écran).
Chaque réponse de crawl inclut un champ token_type : "normal" ou "js", qui indique dans quel silo le résultat a été enregistré. Lors de l'appel à n'importe quel outil de stockage, passez use_js_token: true si l'élément se trouve dans le silo JS. Sinon, omettez-le.
Si storage_get renvoie une erreur not-found pour un RID dont vous savez qu'il existe, vous interrogez probablement le mauvais silo. Réessayez avec use_js_token: true (ou supprimez-le si vous l'aviez défini).
Voir aussi
- Serveur Crawlbase MCP : le serveur MCP sous-jacent encapsulé par le plugin
- Cloud Storage : le backend de stockage
- Modèles de prompts : des prompts éprouvés que vous pouvez adapter à Codex